Ana Luiza Lacerda, Joice Ferreira;
Banco de Dados II – Suzana Mota
Sumário
1.Motivação Inicial - problemas que a tecnologia tenta resolver;
2.História do Big Data;
3.O que é Big Data?
4.Os V’s do Big Data;
5.Tipo de dados do Big Data;
6.Por que Big Data é importante?
7.Big Data x BI (Business Intelligence);
8.Características do Big Data;
9.Características do BI;
10. Ferramentas - O que é, Características, Instalação;
11.Conclusão;
Motivação Inicial - problemas que a
tecnologia tenta resolver
• Com a globalização, a expansão virtual se tornou
necessária;
• O mundo gera, diariamente, 2,5 quintilhões de bytes;
• Antes de Big Data, fórmulas matemáticas, técnicas
avançadas de probabilidades e estatística eram
executadas manualmente – lidando, portanto, com uma
capacidade reduzida de variáveis.
História do Big Data
• Há várias versões sobre a origem do conceito de Big
Data, assim como do início de suas aplicações. Uma das
mais conhecidas remete à NASA, que no início da
década de 1990 começou a utilizar Big Data para
descrever imensos conjuntos de dados complexos, que
desafiavam os limites convencionais da computação da
época.
•
O que é Big Data
• Big Data é um conceito que descreve o grande volume de
dados estruturados e não estruturados que são gerados a
cada segundo.
Um grande conjunto de dados armazenados
• Embora o termo "big data" seja relativamente novo, o ato
de recolher e armazenar grandes quantidades de
informações para eventual análise de dados é bem
antigo.
• O conceito ganhou força no início dos anos 2000, quando
um analista famoso deste setor, Doug Laney, articulou a
definição de big data como os três Vs;
Os V’s do Big Data
• Volume;
• Velocidade;
• Variedade;
• Veracidade;
• Valor;
Volume
• Organizações coletam dados de uma grande variedade
de fontes, incluindo transações comerciais, redes sociais
e informações de sensores ou dados transmitidos de
máquina a máquina. No passado, armazenar tamanha
quantidade de informações teria sido um problema – mas
novas tecnologias (como o Hadoop) têm aliviado a carga.
Velocidade
• Os dados fluem em uma velocidade sem precedentes e
devem ser tratados em tempo hábil. Tags de RFID,
sensores, celulares e contadores inteligentes estão
impulsionado a necessidade de lidar com imensas
quantidades de dados em tempo real, ou quase real.
Variedade
• Os dados são gerados em todos os tipos de formatos - de
dados estruturados, dados numéricos em bancos de
dados tradicionais, até documentos de texto não
estruturados, e-mail, vídeo, áudio, dados de cotações da
bolsa e transações financeiras.
Veracidade
• A veracidade está ligada diretamente ao quanto uma
informação é verdadeira. O emaranhado de dados pode
nos confundir, por isso todo cuidado é pouco para
obtermos veracidade dos dados.
Valor
• Se você direcionou esforços para gerar uma informação
que não serve para nada, o valor do trabalho realizado
será perto de zero, portanto, precisamos entender muito
bem o contexto e necessidade para gerar a informação
certa para as pessoas certas. Por isso falamos tanto em
“informação útil”.
Como esses dados são transformados
em insights?
• Soluções de Big Data “tratam” os dados brutos até
transformá-los em insights valiosos para as tomadas de
decisões. Referem-se a um processo eletrônico que
transforma um conjunto de dados “soltos” em
informações, informações em conhecimento e, por fim,
conhecimento em sabedoria, que será usada para tomar
as decisões mais assertivas e céleres ao contexto de seu
negócio.
Tipo de dados
Por que Big Data é importante?
• A importância do big data não gira em torno da
quantidade de dados que você tem, mas em torno do que
você faz com eles. Você pode analisar dados de qualquer
fonte para encontrar respostas que permitam 1) redução
de custos, 2) redução de tempo, 3) desenvolvimento de
novos produtos e ofertas otimizadas, 4) decisões mais
inteligentes.
Big Data x BI (Business Intelligence)
• BI e Big Data são de certa forma complementares, mas
não idênticos. Além disso, em geral, Big Data é uma fase
posterior ao amadurecimento de um trabalho com BI.
Características do Big Data
• Focado no processamento de dados estruturados e não
estruturados, bem como nas correlações e descobertas
que desse processamento podem advir;
• Analisa o que já existe e o que está por vir, apontando
novos caminhos;
• Ideal para quando se quer explorar novas possibilidades,
descobrir novos padrões e explorar perguntas que ainda
não haviam sido feitas;
• Mais amplo, voltado não apenas para negócios, mas para
qualquer área/segmento, como saúde, entretenimento,
educação.
Características do BI
• Focado na coleta, transformação e disponibilização de
dados estruturados para a tomada de decisões;
• Analisa o que já existe, definindo as melhores hipóteses;
• Ideal para quando já se conhece as perguntas;
• Mais específico, voltado apenas para negócios.
Big Data
O que é Cassandra?
● Apache Cassandra é um projeto de sistema de banco
de dados distribuído altamente escalável de segunda
geração, é um sistema de código aberto projetado para
gerenciar grande volume de dados em tempo real,
permitindo resposta imediata e suporte a pontos de
falha.
● O Apache Cassandra foi lançado pelo facebook com
apoio do Google.
• Cassandra é essencialmente um híbrido entre valor-
chave (dado tabular) e banco de dados orientado em
colunas, com distribuição de conteúdo por linhas,
separado por nome, valor e tempo, podendo ter bom
balanceamento e distribuição de carga,
RandomPartitioner (RP), ou distribuição de cargas de
forma natural, aproximando nós com dados
complementares para composição da informação,
OrderPreservingPartitioner (OPP).
Características do Cassandra
● Altas escalabilidade e disponibilidade, sem um ponto
único de falha
● Arquitetura de cluster descentralizado
● Réplica e redundância de dados
● Rendimento de gravação muito alto e bom rendimento
de leitura
● Tolerante a falhas
● Esquema flexível
● Nível de consistência configurável
● Integrável
Instalação
Passo 1 :
echo "deb http://www.apache.org/dist/cassandra/debian
311x main" | sudo tee -a
/etc/apt/sources.list.d/cassandra.sources.list
Passo 2:
curl https://www.apache.org/dist/cassandra/KEYS | sudo
apt-key add -
sudo apt-key adv --keyserver pool.sks-keyservers.net --
recv-key A278B781FE4B2BDA
Passo 3:
sudo apt-get update
sudo apt-get install cassandra
Passo 4:
sudo mkdir /var/lib/cassandra
sudo mkdir /var/log/cassandra
sudo chown -R $USER:$GROUP /var/lib/cassandra
sudo chown -R $USER:$GROUP /var/log/cassandra
Passo 5:
export CASSANDRA_HOME=~/cassandra
export PATH=$PATH:$CASSANDRA_HOME/bin
Rodando o Cassandra:
sudo sh ~/cassandra/bin/cassandra
sudo sh ~/cassandra/bin/cqlsh
Big Data
O que é Hadoop?
• O Hadoop é uma plataforma open source desenvolvida
especialmente para processamento e análise de grandes
volumes de dados, sejam eles estruturados ou não
estruturados.
• O Hadoop é uma implementação de código aberto do
paradigma de programação Map-Reduce.
• Map-Reduce é um paradigma de programação
introduzido pelo Google para processar e analisar
grandes conjuntos de dados. Todos esses programas
que são desenvolvidos nesse paradigma realizam o
processamento paralelo de conjuntos de dados;
• Uma grande tarefa é dividida em várias tarefas pequenas
que são então executadas em paralelo em máquinas
diferentes e então combinadas para chegar à solução da
tarefa maior que deu início a tudo.
Características do Hadoop
• É um projeto open source, fato que permite a sua
modificação para fins de customização e o torna
suscetível a melhorias constantes graças à sua rede de
colaboração.
• Proporciona economia, já que não exige o pagamento de
licenças e suporta hardware convencional, permitindo a
criação de projetos com máquinas consideravelmente
mais baratas;
• O Hadoop conta, por padrão, com recursos de tolerância
a falhas, como replicação de dados;
• O Hadoop é escalável: havendo necessidade de
processamento para suportar maior quantidade de dados,
é possível acrescentar computadores sem necessidade
de realizar reconfigurações complexas no sistema.
Instalação da ferramenta
Necessária a instalação do Java
● wget https://www.apache.org/dist/hadoop/core/hadoop-
3.0.0/hadoop-3.0.0.tar.gz
● tar xzf hadoop-3.0.0.tar.gz
● mv hadoop-3.0.0 hadoop
• export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
• Mudanças nos aquivos /etc/hadoop
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Inicia
cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh
http://localhost:8088
Big Data
Big Data
Conclusão
• Não podemos considerar as soluções de Big Data como
um arsenal computacional perfeito: sistemas do tipo são
complexos, ainda desconhecidos por muitos gestores e
profissionais de TI e a sua própria definição ainda é
passível de discussão.
• O fato é que a ideia de Big Data reflete um cenário real:
há, cada vez mais, volumes de dados gigantescos e que,
portanto, exigem uma abordagem capaz de aproveitá-los
ao máximo.
Referências
•BLOG SAS. Big Data, O que é e por que é importante? Disponível em:
https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html/ Acesso
em: 17 de Janeiro de 2018
•BLOG BIGDATA BUSINESS. Big Data: tudo que você sempre quis
saber sobre o tema! Disponível em:
http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em: 17 de
Janeiro de 2018
•NASCIMENTO, RODRIGO. Afinal, o que é Big Data? Disponível em:
http://marketingpordados.com/analise-de-dados/o-que-e-big-data/ Acesso
em: 17 de Janeiro de 2018
Referências
•BLOG ORACLE. A base da inovação de dados Disponível em:
https://www.oracle.com/br/big-data/index.html Acesso: 17 de Janeiro de
2018
•ALECRIM, EMERSON. O que é Big Data? Disponível em:
https://www.infowester.com/big-data.php Acesso em:17 de Janeiro de
2018
•BLOG G2. Big data: entenda o que é, por que é importante e como
funciona Disponível em: http://g2tecnologia.com.br/2016/12/13/big-data-
entenda-o-que-e-por-que-e-importante-e-como-funciona/ Acesso em: 17
de Janeiro de 2018
Referências
•ULISSES, FERNANDO. O que é Big Data e como funciona? Disponível em:
https://www.profissionaisti.com.br/2015/03/o-que-e-big-data-e-como-funciona/
Acesso em: 17 de Janeiro de 2018
•BLOG MARKETING E CONTEUDO. Big Data: por que toda estratégia de
marketing precisa desse aliado Disponível em:
https://marketingdeconteudo.com/big-data/ Acesso em: 17 de Janeiro de 2018
•BATIMARCHI, SUSANA. UMA BREVE HISTÓRIA DO BIG DATA DESDE
18.000 A.C. Disponível em: http://docmanagement.com.br/04/22/2015/uma-
breve-historia-do-big-data-desde-18-000-a-c/ Acesso em: 17 de Janeiro de
2018
Referências
•How do Install Cassandra Disponível em:
https://www.digitalocean.com/community/tutorials/how-to-install-
cassandra-and-run-a-single-node-cluster-on-a-ubuntu-vps Acesso em: 18
de Janeiro de 2018
•Apache Hadoop Disponível em: https://pplware.sapo.pt/linux/apache-
hadoop-hoje-vai-instalar-primeiro-cluster/ Acesso em: 18 de Janeiro de
2018
•Introdução ao Hadoop Disponível em:
https://mariannelinharesbr.wordpress.com/2016/06/14/introducao-ao-
hadoop-instalando-hadoop-de-forma-distribuida/ Acesso em: 18 de
Janeiro de 2018
Referências
•Considerações sobre o Banco de Dados Apache Cassandra
Disponível em: https://www.ibm.com/developerworks/br/library/os-apache-
cassandra/index.html Acesso em: 18 de Janeiro de 2018
•AVOYAN, HOVHANNES. Big Data e Hadoop – o que é tudo isso?
Disponível em: https://imasters.com.br/tecnologia/redes-e-servidores/big-
data-e-hadoop-o-que-e-tudo-isso/?trace=1519021197 Acesso em: 17 de
Janeiro de 2018

Mais conteúdo relacionado

PPT
Introducao à Informatica Aplicada
ODP
Big Data - Conceitos Básicos
PPT
Big Data
PDF
Big Data, o que é isso?
PPTX
Big Data
PPTX
Computação nas nuvens
PDF
O que é BIG DATA e como pode influenciar nossas vidas
PDF
Aula 2 - Introdução à programação de computadores - parte1
Introducao à Informatica Aplicada
Big Data - Conceitos Básicos
Big Data
Big Data, o que é isso?
Big Data
Computação nas nuvens
O que é BIG DATA e como pode influenciar nossas vidas
Aula 2 - Introdução à programação de computadores - parte1

Mais procurados (20)

ODP
A Internet das Coisas
PPTX
PPTX
Aula 04 - Medidas de Armazenamento
PDF
Internet das Coisas - Conceitos, tecnologias e aplicações
PDF
1.Introdução Banco de Dados
PPTX
Informática Básica - Aula 05 - Sistema Operacional Windows
PPTX
Segurança da informação
PPT
Aula 04 arquitetura de computadores
PPTX
Sistema windows 10
PDF
Modelagem de dados
PDF
Tecnologia Da Informaçao
PPT
Dados, Informação e Conhecimento
PDF
Organizacao e estrutura de Computadores
PDF
Data science
PPTX
Introdução a Algoritmos: Conceitos Básicos
PDF
Informatica Aplicada
PDF
Aula 6 - Design e Processo de Design de Interfaces de Usuário
PDF
Introdução à Aprendizagem de Máquina
PPTX
Big data
PDF
Manutenção de Computadores - Aula 1
A Internet das Coisas
Aula 04 - Medidas de Armazenamento
Internet das Coisas - Conceitos, tecnologias e aplicações
1.Introdução Banco de Dados
Informática Básica - Aula 05 - Sistema Operacional Windows
Segurança da informação
Aula 04 arquitetura de computadores
Sistema windows 10
Modelagem de dados
Tecnologia Da Informaçao
Dados, Informação e Conhecimento
Organizacao e estrutura de Computadores
Data science
Introdução a Algoritmos: Conceitos Básicos
Informatica Aplicada
Aula 6 - Design e Processo de Design de Interfaces de Usuário
Introdução à Aprendizagem de Máquina
Big data
Manutenção de Computadores - Aula 1
Anúncio

Semelhante a Big Data (20)

PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
iOpera artigo o que é big data como surgiu o big data para que serve o big data
PDF
Big data
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PPTX
Aula BigData.pptx
PDF
PPT
Big Data e suas Vertentes
PPSX
Sparsi big data
PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
Palestra Big Data SCTI
PPTX
Workshop BigData, Hadoop e Data Science - Cetax x Deal
PDF
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
PPTX
OS CINCO Vs DO BIG DATA
ODP
Introdução ao Big Data para Desenvolvedores Python
ODP
Big Data Latinoware 2014
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PDF
Interoperabilidade com BigData Hadoop para Windows Azure
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
iOpera artigo o que é big data como surgiu o big data para que serve o big data
Big data
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Aula BigData.pptx
Big Data e suas Vertentes
Sparsi big data
Pentaho Hadoop Big Data e Data Lakes
Palestra Big Data SCTI
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
OS CINCO Vs DO BIG DATA
Introdução ao Big Data para Desenvolvedores Python
Big Data Latinoware 2014
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Interoperabilidade com BigData Hadoop para Windows Azure
Anúncio

Mais de Suzana Viana Mota (20)

PDF
Exercicios - Redes Móveis
PDF
exercicio-Organização e estrutura de Computadores
PPTX
Visão Computacional - Meetup AIGirls
PDF
Atividades de Sistemas Binários
PDF
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
PDF
Interface humano-computador baseada em Visão Computacional: uma solução para ...
PPTX
Mundo 4.0 - O que esperar do futuro
PDF
Como estudar melhor
PDF
Atalhos e dicas - Como se tornar um expert em Computadores
PDF
Aula Inaugural - Curso Técnico em Informática para Internet
PDF
Criptografia e Privacidade
PDF
Exercicio - Introdução a Hardware Revisão
PDF
Desenvolvimento de software dedicado a pessoa com deficiência
PDF
Comparison of Human Machine Interfaces to control a Robotized Wheelchair
PDF
Formatei o computador e agora?
PDF
Formatando o computador
PDF
Aula 09 - Gerenciamento de Recursos Humanos
PDF
Aula 08 - Gerenciamento da Qualidade
PPTX
Como tornar seu site atraente
PPTX
Sistemas Digitais - Inspirações de Projetos IoT
Exercicios - Redes Móveis
exercicio-Organização e estrutura de Computadores
Visão Computacional - Meetup AIGirls
Atividades de Sistemas Binários
Lista de Exerícios - Manutenção e Redes de Computadores IFNMG - Campus Januária
Interface humano-computador baseada em Visão Computacional: uma solução para ...
Mundo 4.0 - O que esperar do futuro
Como estudar melhor
Atalhos e dicas - Como se tornar um expert em Computadores
Aula Inaugural - Curso Técnico em Informática para Internet
Criptografia e Privacidade
Exercicio - Introdução a Hardware Revisão
Desenvolvimento de software dedicado a pessoa com deficiência
Comparison of Human Machine Interfaces to control a Robotized Wheelchair
Formatei o computador e agora?
Formatando o computador
Aula 09 - Gerenciamento de Recursos Humanos
Aula 08 - Gerenciamento da Qualidade
Como tornar seu site atraente
Sistemas Digitais - Inspirações de Projetos IoT

Último (20)

PPT
Aula-Completação de poços de petroleo e gas
PDF
Poluição sonora xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
PDF
Boas práticas em rebobinamento trifásico .pdf
PPTX
Treinamento em powerpoint para integração de colaboradores em fábrica de pequ...
PDF
MATERIAIS DE CONSTRUÇÃO Solo cimento - 07.pdf
PDF
aula 5 - Curvas horizontais circulares.pdf
PDF
Artigo sobre industria de petroleo em pdf
PDF
3 - Condução de Calor Permanante (Coordendas Retangulares, Cilíndricas e Esfé...
PPT
Primeiros Socorros e Saúde Ocupacional Ferrosos Sul.ppt
PDF
1 - Fundamentos Básicos da Transferência de Calor.pdf
PDF
2 - Equação de Condução de Calor - (Coordenadas Retangulares, Cilíndricas e E...
PDF
LIMPEZA E SANITIZAÇÃO NA INDUSTRIA ALIMENTICIA
PDF
Impactos ambientais gerados pela construção civil
PPTX
cultivo de folhosas alface rúcula almeirão.pptx
PPTX
AGROECOLOGIA sistemas de ecologia renovable
PDF
Reacoes_expansivas_no_concreto_DEF_ABCP_dez2020.pdf
PPTX
Slide_Atualizações dos Protocolos de BLS e ACLS.pptx
PPTX
ENGENHARIA DE GESTÃO LOGÍSTICA E DOS TRANSPORTES.pptx
PPT
Ergonomia Aula 01 conceitos básicos segurança
PPT
Aula Ciência e Tecnologia dos Materiais - Metais e ligas não ferrosas
Aula-Completação de poços de petroleo e gas
Poluição sonora xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Boas práticas em rebobinamento trifásico .pdf
Treinamento em powerpoint para integração de colaboradores em fábrica de pequ...
MATERIAIS DE CONSTRUÇÃO Solo cimento - 07.pdf
aula 5 - Curvas horizontais circulares.pdf
Artigo sobre industria de petroleo em pdf
3 - Condução de Calor Permanante (Coordendas Retangulares, Cilíndricas e Esfé...
Primeiros Socorros e Saúde Ocupacional Ferrosos Sul.ppt
1 - Fundamentos Básicos da Transferência de Calor.pdf
2 - Equação de Condução de Calor - (Coordenadas Retangulares, Cilíndricas e E...
LIMPEZA E SANITIZAÇÃO NA INDUSTRIA ALIMENTICIA
Impactos ambientais gerados pela construção civil
cultivo de folhosas alface rúcula almeirão.pptx
AGROECOLOGIA sistemas de ecologia renovable
Reacoes_expansivas_no_concreto_DEF_ABCP_dez2020.pdf
Slide_Atualizações dos Protocolos de BLS e ACLS.pptx
ENGENHARIA DE GESTÃO LOGÍSTICA E DOS TRANSPORTES.pptx
Ergonomia Aula 01 conceitos básicos segurança
Aula Ciência e Tecnologia dos Materiais - Metais e ligas não ferrosas

Big Data

  • 1. Ana Luiza Lacerda, Joice Ferreira; Banco de Dados II – Suzana Mota
  • 2. Sumário 1.Motivação Inicial - problemas que a tecnologia tenta resolver; 2.História do Big Data; 3.O que é Big Data? 4.Os V’s do Big Data; 5.Tipo de dados do Big Data; 6.Por que Big Data é importante? 7.Big Data x BI (Business Intelligence); 8.Características do Big Data; 9.Características do BI; 10. Ferramentas - O que é, Características, Instalação; 11.Conclusão;
  • 3. Motivação Inicial - problemas que a tecnologia tenta resolver • Com a globalização, a expansão virtual se tornou necessária; • O mundo gera, diariamente, 2,5 quintilhões de bytes; • Antes de Big Data, fórmulas matemáticas, técnicas avançadas de probabilidades e estatística eram executadas manualmente – lidando, portanto, com uma capacidade reduzida de variáveis.
  • 4. História do Big Data • Há várias versões sobre a origem do conceito de Big Data, assim como do início de suas aplicações. Uma das mais conhecidas remete à NASA, que no início da década de 1990 começou a utilizar Big Data para descrever imensos conjuntos de dados complexos, que desafiavam os limites convencionais da computação da época. •
  • 5. O que é Big Data • Big Data é um conceito que descreve o grande volume de dados estruturados e não estruturados que são gerados a cada segundo. Um grande conjunto de dados armazenados
  • 6. • Embora o termo "big data" seja relativamente novo, o ato de recolher e armazenar grandes quantidades de informações para eventual análise de dados é bem antigo. • O conceito ganhou força no início dos anos 2000, quando um analista famoso deste setor, Doug Laney, articulou a definição de big data como os três Vs;
  • 7. Os V’s do Big Data • Volume; • Velocidade; • Variedade; • Veracidade; • Valor;
  • 8. Volume • Organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina. No passado, armazenar tamanha quantidade de informações teria sido um problema – mas novas tecnologias (como o Hadoop) têm aliviado a carga.
  • 9. Velocidade • Os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteligentes estão impulsionado a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real.
  • 10. Variedade • Os dados são gerados em todos os tipos de formatos - de dados estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, e-mail, vídeo, áudio, dados de cotações da bolsa e transações financeiras.
  • 11. Veracidade • A veracidade está ligada diretamente ao quanto uma informação é verdadeira. O emaranhado de dados pode nos confundir, por isso todo cuidado é pouco para obtermos veracidade dos dados.
  • 12. Valor • Se você direcionou esforços para gerar uma informação que não serve para nada, o valor do trabalho realizado será perto de zero, portanto, precisamos entender muito bem o contexto e necessidade para gerar a informação certa para as pessoas certas. Por isso falamos tanto em “informação útil”.
  • 13. Como esses dados são transformados em insights? • Soluções de Big Data “tratam” os dados brutos até transformá-los em insights valiosos para as tomadas de decisões. Referem-se a um processo eletrônico que transforma um conjunto de dados “soltos” em informações, informações em conhecimento e, por fim, conhecimento em sabedoria, que será usada para tomar as decisões mais assertivas e céleres ao contexto de seu negócio.
  • 15. Por que Big Data é importante? • A importância do big data não gira em torno da quantidade de dados que você tem, mas em torno do que você faz com eles. Você pode analisar dados de qualquer fonte para encontrar respostas que permitam 1) redução de custos, 2) redução de tempo, 3) desenvolvimento de novos produtos e ofertas otimizadas, 4) decisões mais inteligentes.
  • 16. Big Data x BI (Business Intelligence) • BI e Big Data são de certa forma complementares, mas não idênticos. Além disso, em geral, Big Data é uma fase posterior ao amadurecimento de um trabalho com BI.
  • 17. Características do Big Data • Focado no processamento de dados estruturados e não estruturados, bem como nas correlações e descobertas que desse processamento podem advir; • Analisa o que já existe e o que está por vir, apontando novos caminhos;
  • 18. • Ideal para quando se quer explorar novas possibilidades, descobrir novos padrões e explorar perguntas que ainda não haviam sido feitas; • Mais amplo, voltado não apenas para negócios, mas para qualquer área/segmento, como saúde, entretenimento, educação.
  • 19. Características do BI • Focado na coleta, transformação e disponibilização de dados estruturados para a tomada de decisões; • Analisa o que já existe, definindo as melhores hipóteses; • Ideal para quando já se conhece as perguntas; • Mais específico, voltado apenas para negócios.
  • 21. O que é Cassandra? ● Apache Cassandra é um projeto de sistema de banco de dados distribuído altamente escalável de segunda geração, é um sistema de código aberto projetado para gerenciar grande volume de dados em tempo real, permitindo resposta imediata e suporte a pontos de falha. ● O Apache Cassandra foi lançado pelo facebook com apoio do Google.
  • 22. • Cassandra é essencialmente um híbrido entre valor- chave (dado tabular) e banco de dados orientado em colunas, com distribuição de conteúdo por linhas, separado por nome, valor e tempo, podendo ter bom balanceamento e distribuição de carga, RandomPartitioner (RP), ou distribuição de cargas de forma natural, aproximando nós com dados complementares para composição da informação, OrderPreservingPartitioner (OPP).
  • 23. Características do Cassandra ● Altas escalabilidade e disponibilidade, sem um ponto único de falha ● Arquitetura de cluster descentralizado ● Réplica e redundância de dados ● Rendimento de gravação muito alto e bom rendimento de leitura ● Tolerante a falhas ● Esquema flexível ● Nível de consistência configurável ● Integrável
  • 24. Instalação Passo 1 : echo "deb http://www.apache.org/dist/cassandra/debian 311x main" | sudo tee -a /etc/apt/sources.list.d/cassandra.sources.list Passo 2: curl https://www.apache.org/dist/cassandra/KEYS | sudo apt-key add - sudo apt-key adv --keyserver pool.sks-keyservers.net -- recv-key A278B781FE4B2BDA
  • 25. Passo 3: sudo apt-get update sudo apt-get install cassandra Passo 4: sudo mkdir /var/lib/cassandra sudo mkdir /var/log/cassandra sudo chown -R $USER:$GROUP /var/lib/cassandra sudo chown -R $USER:$GROUP /var/log/cassandra
  • 26. Passo 5: export CASSANDRA_HOME=~/cassandra export PATH=$PATH:$CASSANDRA_HOME/bin Rodando o Cassandra: sudo sh ~/cassandra/bin/cassandra sudo sh ~/cassandra/bin/cqlsh
  • 28. O que é Hadoop? • O Hadoop é uma plataforma open source desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. • O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce.
  • 29. • Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes conjuntos de dados. Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos de dados;
  • 30. • Uma grande tarefa é dividida em várias tarefas pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à solução da tarefa maior que deu início a tudo.
  • 31. Características do Hadoop • É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. • Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas;
  • 32. • O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados; • O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.
  • 33. Instalação da ferramenta Necessária a instalação do Java ● wget https://www.apache.org/dist/hadoop/core/hadoop- 3.0.0/hadoop-3.0.0.tar.gz ● tar xzf hadoop-3.0.0.tar.gz ● mv hadoop-3.0.0 hadoop
  • 34. • export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin • Mudanças nos aquivos /etc/hadoop core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
  • 39. Conclusão • Não podemos considerar as soluções de Big Data como um arsenal computacional perfeito: sistemas do tipo são complexos, ainda desconhecidos por muitos gestores e profissionais de TI e a sua própria definição ainda é passível de discussão. • O fato é que a ideia de Big Data reflete um cenário real: há, cada vez mais, volumes de dados gigantescos e que, portanto, exigem uma abordagem capaz de aproveitá-los ao máximo.
  • 40. Referências •BLOG SAS. Big Data, O que é e por que é importante? Disponível em: https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html/ Acesso em: 17 de Janeiro de 2018 •BLOG BIGDATA BUSINESS. Big Data: tudo que você sempre quis saber sobre o tema! Disponível em: http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em: 17 de Janeiro de 2018 •NASCIMENTO, RODRIGO. Afinal, o que é Big Data? Disponível em: http://marketingpordados.com/analise-de-dados/o-que-e-big-data/ Acesso em: 17 de Janeiro de 2018
  • 41. Referências •BLOG ORACLE. A base da inovação de dados Disponível em: https://www.oracle.com/br/big-data/index.html Acesso: 17 de Janeiro de 2018 •ALECRIM, EMERSON. O que é Big Data? Disponível em: https://www.infowester.com/big-data.php Acesso em:17 de Janeiro de 2018 •BLOG G2. Big data: entenda o que é, por que é importante e como funciona Disponível em: http://g2tecnologia.com.br/2016/12/13/big-data- entenda-o-que-e-por-que-e-importante-e-como-funciona/ Acesso em: 17 de Janeiro de 2018
  • 42. Referências •ULISSES, FERNANDO. O que é Big Data e como funciona? Disponível em: https://www.profissionaisti.com.br/2015/03/o-que-e-big-data-e-como-funciona/ Acesso em: 17 de Janeiro de 2018 •BLOG MARKETING E CONTEUDO. Big Data: por que toda estratégia de marketing precisa desse aliado Disponível em: https://marketingdeconteudo.com/big-data/ Acesso em: 17 de Janeiro de 2018 •BATIMARCHI, SUSANA. UMA BREVE HISTÓRIA DO BIG DATA DESDE 18.000 A.C. Disponível em: http://docmanagement.com.br/04/22/2015/uma- breve-historia-do-big-data-desde-18-000-a-c/ Acesso em: 17 de Janeiro de 2018
  • 43. Referências •How do Install Cassandra Disponível em: https://www.digitalocean.com/community/tutorials/how-to-install- cassandra-and-run-a-single-node-cluster-on-a-ubuntu-vps Acesso em: 18 de Janeiro de 2018 •Apache Hadoop Disponível em: https://pplware.sapo.pt/linux/apache- hadoop-hoje-vai-instalar-primeiro-cluster/ Acesso em: 18 de Janeiro de 2018 •Introdução ao Hadoop Disponível em: https://mariannelinharesbr.wordpress.com/2016/06/14/introducao-ao- hadoop-instalando-hadoop-de-forma-distribuida/ Acesso em: 18 de Janeiro de 2018
  • 44. Referências •Considerações sobre o Banco de Dados Apache Cassandra Disponível em: https://www.ibm.com/developerworks/br/library/os-apache- cassandra/index.html Acesso em: 18 de Janeiro de 2018 •AVOYAN, HOVHANNES. Big Data e Hadoop – o que é tudo isso? Disponível em: https://imasters.com.br/tecnologia/redes-e-servidores/big- data-e-hadoop-o-que-e-tudo-isso/?trace=1519021197 Acesso em: 17 de Janeiro de 2018