SlideShare uma empresa Scribd logo
Big Data
Uma introdução
Thiago Rigo
Agenda
Big Bang dos Dados
Conceitos
Ecosistema
Casos de Uso
Demo
Big Bang dos Dados
http://www.visualnews.com/2012/06/19/how-much-data-created-every-minute/
http://awesome.good.is/transparency/web/1009/the-world-of-data/flat.html
“Desde o nascimento da civilização até 2003
criamos 5 Exabytes de informação, mas agora, essa
mesma quantidade de informação é criada a cada 2
dias.”
Eric Schmidt, CEO Google, 2010
1 Exabyte = 1.000.000 TB
http://thehumanfaceofbigdata.com/pressroom/
Conceitos
Volume
Quantidade muito grande de dados
Bancos de dados tradicionais não atendem
Servidores high-end custam muito caro
Variedade
Dados de diversas fontes
Dados estruturados, semi-estruturados e não
estruturados
Schemaless
Velocidade
Agilidade no processamento dos dados
Processamento de dados em tempo real
Rapidez na ingestão dos dados
Ecosistema
Big Data - Uma Introdução
Hadoop - Historia
2002-04: Nutch
2004-06: GFS, MapReduce
2006-08: Yahoo!, Top-Level
Hadoop
“O Apache Hadoop é um framework que permite
processamento distribuído de grandes volumes de
dados, sendo desenhado para escalar de um
servidor para milhares de máquinas…”
http://hadoop.apache.org/
Hadoop
Escalabilidade horizontal
Tolerancia a falha
Redundância
Paralelismo
Data locality
Hadoop - Arquitetura
http://www.rosebt.com/blog/hadooparchitecture-and-deployment
Hadoop - HDFS
https://developer.yahoo.com/hadoop/tutorial/module2.html
Hadoop - MapReduce
http://www.alex-hanna.com/tworkshops/lesson-5-hadoop-and-mapreduce/
Hadoop - MapReduce
public	
  void	
  map(LongWritable	
  key,	
  Text	
  value,	
  Context	
  context)	
  
	
  	
  	
  	
  throws	
  IOException,	
  InterruptedException	
  {	
  
	
  	
  	
  	
  String[]	
  words	
  =	
  value.toString().split("	
  ");	
  
	
  	
  	
  	
  for	
  (String	
  word	
  :	
  words)	
  {	
  
	
  	
  	
  	
  	
  	
  context.write(new	
  Text(word),	
  new	
  IntWritable(1));	
  
	
  	
  	
  	
  }	
  
}
Hadoop - MapReduce
public	
  void	
  reduce(Text	
  key,	
  Iterable<IntWritable>	
  values,	
  Context	
  context)	
  
	
  	
  	
  	
  throws	
  IOException,	
  InterruptedException	
  {	
  
	
  	
  	
  	
  int	
  sum	
  =	
  0;	
  
	
  	
  	
  	
  for	
  (IntWritable	
  value	
  :	
  values)	
  {	
  
	
  	
  	
  	
  	
  	
  	
  	
  sum	
  +=	
  value.get();	
  
	
  	
  	
  	
  }	
  
	
  	
  	
  	
  context.write(key,	
  new	
  IntWritable(sum));	
  
}	
  
Big Data - Uma Introdução
Pig
“Apache Pig é uma plataforma para analisar
grandes data sets que é composta por uma
linguagem de alto nível para expressar programas
de análise de dados e infraestrutura para executar
esses programas.”
http://pig.apache.org/
Pig
Linguagem de alto nível
Suporte a UDFs
Operadores relacionais (Group, Join, Cross)
Modo local e interativo
Pig
A = LOAD ‘logs/2014/12‘ AS (f1:int,f2:int,f3:int);
DUMP A;
(1,2,3)
(4,2,1)
(4,3,3)
B = GROUP A BY f1;
DUMP B;
(1,{(1,2,3)})
(4,{(4,2,1),(4,3,3)})
X = FOREACH B GENERATE COUNT(A);
DUMP X;
(1L)
(2L)
Big Data - Uma Introdução
Hive
“ O Apache Hive é um software de data warehouse
que facilita realizar consultas e gerenciar grandes
data sets que são armazenados de forma
distribuída, provendo um mecanismo para
estruturar e consultar esses dados usando uma
linguagem parecida com SQL, chamada HiveQL.”
http://hive.apache.org/
Hive
Traduz SQL para MapReduce
Estrutura dados como tabelas
Suporte a UDFs
Não é OLTP
Hive
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender,
count (DISTINCT pv_users.userid)
FROM pv_users
GROUP BY pv_users.gender;
Ecosistema
https://www.codecentric.de/schulungen-und-workshops/hadoop-essentials/
E muito mais!
https://amplab.cs.berkeley.edu/benchmark/
Casos de Uso
Casos de Uso
Análise de logs
Engines de recomendação
Processos ETL
Eleições presidenciais
Previsão de horário de pouso
Demo
Demo
Contar palavras no Hadoop
Dúvidas?

Mais conteúdo relacionado

PDF
OverviewBigData_PythonSudeste2017
PDF
Big data - Uma visão geral da coisa...
PDF
P566Aula08
PDF
Conversas sobre Big Data, Hadoop e elefantes amarelos
PDF
Big Bang Disruption: Como as tendências digitais disruptivas estão revolucion...
PPTX
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
PPTX
Cases big data
PDF
Governança de Dados e Big Data_v02
OverviewBigData_PythonSudeste2017
Big data - Uma visão geral da coisa...
P566Aula08
Conversas sobre Big Data, Hadoop e elefantes amarelos
Big Bang Disruption: Como as tendências digitais disruptivas estão revolucion...
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Cases big data
Governança de Dados e Big Data_v02

Semelhante a Big Data - Uma Introdução (20)

PDF
Treinamento hadoop - dia4
PDF
TDC 2014 - Hadoop Hands ON
PDF
Big data para programadores convencionais
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
João Marcos Araújo do Valle - Big Data
PPTX
Hadoop - Mãos à massa! Qcon2014
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PPTX
BrunoSQLSaturday424
PDF
Big Data - O que é o hadoop, map reduce, hdfs e hive
PPTX
Big data e ecossistema hadoop
PDF
Interoperabilidade com BigData Hadoop para Windows Azure
PDF
Big Data Open Source com Hadoop
PPTX
Big Data, JVM e Redes Sociais
PPTX
Hadoop - primeiros passos
PDF
PDF
Ferramentas e Aplicações em Big Data
PDF
Tecnologias para mineração de dados nas nuvens
Treinamento hadoop - dia4
TDC 2014 - Hadoop Hands ON
Big data para programadores convencionais
Bigdata na pratica: Resolvendo problemas de performance com hadoop
João Marcos Araújo do Valle - Big Data
Hadoop - Mãos à massa! Qcon2014
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
BrunoSQLSaturday424
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big data e ecossistema hadoop
Interoperabilidade com BigData Hadoop para Windows Azure
Big Data Open Source com Hadoop
Big Data, JVM e Redes Sociais
Hadoop - primeiros passos
Ferramentas e Aplicações em Big Data
Tecnologias para mineração de dados nas nuvens
Anúncio

Último (19)

PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PPTX
Aula 18 - Manipulacao De Arquivos python
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PDF
Apple Pippin Uma breve introdução. - David Glotz
PDF
Processos na gestão de transportes, TM100 Col18
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Aula04-Academia Heri- Tecnologia Geral 2025
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
COBITxITIL-Entenda as diferença em uso governança TI
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Aula 18 - Manipulacao De Arquivos python
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Custos e liquidação no SAP Transportation Management, TM130 Col18
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Apple Pippin Uma breve introdução. - David Glotz
Processos na gestão de transportes, TM100 Col18
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Aula04-Academia Heri- Tecnologia Geral 2025
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Anúncio

Big Data - Uma Introdução