SlideShare uma empresa Scribd logo
Treinamento Hadoop
Parte 2
Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC
2013)
http://www.thedevelopersconference.com.
br/tdc/2013/saopaulo/trilha-bigdata#programacao
● Geek e nerd, trabalha com Python,
Java, C, BigData, NoSQL, e outras
coisas mais que aparecem no dia a dia
Nossa
Agenda:
Dia 2!!!
Dia 1:
Introdução
Conceitos Básicos
Big Data
→ O que é?
→ 4 V's
→ Por que
agora?
→ Onde Usar?
→ Desafio
→ BI x Big Data
→Profissional de
Big Data
→ Ferramentas
→ Dicas
Dia 2 e 3:
Map Reduce e
Hadoop
→ História
(Google)
→ Conceito
MapReduce
→ Hadoop
→ Cases
Dia 4
Outras
Ferramentas
→ Ecossistema
→ Ferramentas
→ Distribuições
Hadoop
→ Hadoop na
Nuvem
→ NoSQL Tipos
→ NoSQL
Exemplos
→ Data Science
→ Machine
Learning
Dia 5, 6 e 7
Hands-on
→ Pyhton
→ Hadoop
Treinamento Hadoop - dia2
Antes disso...
Antes disso...
lembram o quer era Big Data?
Antes disso...
lembram o quer era Big Data?
CONCEITO!!!
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
lembram o quer era Big Data?
Agora que entedemos que é um
CONCEITO, vamos ver a FERRAMENTA
Antes disso...
Treinamento Hadoop - dia2
Mas o que é?
Map Reduce
Map Reduce
Hadoop é baseado no modelo de
programação MapReduce
"MapReduce é um modelo de
programação desenhado para processar
grandes volumes de dados em paralelo,
dividindo o trabalho em um conjunto
de tarefas independentes."
http://en.wikipedia.org/wiki/MapReduce
Map Reduce
Vem da onde?
Map Reduce
Framework
introduzido
pelo ...
Map Reduce
Framework
introduzido pelo
Google
Map Reduce
http://research.google.com/archive/mapreduce.html
Map Reduce
http://research.google.com/archive/mapreduce.html
Map Reduce
● Não inventou, apenas implementou
● Mas, "definiu" / "padronizou"
algorítimo e arquitetura
Map Reduce
● paradigma de programação
para processar e analisar
grandes conjuntos de dados
Map Reduce
● Processamento tolerante a falha e
fácil abstração
● Facilidade de escalar
● Decompõe tudo em Pares - chave :
valor
● Depois sumariza os resultados
Map Reduce FileSystem
Map Reduce
Map Reduce Google
FileSystem
Google Map
Reduce
Map Reduce
Map Reduce
Map Reduce
Inspirado pelas funções
map e reduce usadas em
programação funcional.
Map Reduce
"Programação funcional é um paradigma de programação que trata a
computação como uma avaliação de funções matemáticas e que evita
estados ou dados mutáveis. Ela enfatiza a aplicação de funções, em
contraste da programação imperativa, que enfatiza mudanças no
estado do programa"
Wikipedia - http://pt.wikipedia.org/wiki/Programa%C3%A7%C3%A3o_funcional
Exemplos de linguagem:
● Lisp
● Haskell
● Scala
Map Reduce
Se encarrega de toda
complexidade de
processamento
paralelo, e o
programador cuida
apenas da lógica
Map Reduce
● Você especifica
função map()
● Você especifica
função reduce()
● O framework cuida
do restante
Map Reduce
Lembra o
que era Map
/ Mapa?
Map Reduce
Map -
associação
chave-valor
(key-value) k,v
Map Reduce
● Duas fases: Map Reduce
● Entre MapReduce : shuffle e sort
Map Reduce
Treinamento Hadoop - dia2
No Linux seria mais ou
menos:
cat /my/log | grep '*.*.
html' | sort | uniq -c >
/output -file
Map Reduce
Map Reduce
Outros Map Reduce
● Hadoop
http://hadoop.apache.org/
● Twister
http://www.iterativemapreduce.org/
● Phoenix
http://mapreduce.stanford.edu/
● FileMap
http://mfisk.github.io/filemap/
Map Reduce
● Modelo Simples de
programação
● Sistema de arquivos
distribuidos com
gerenciamento de tarefas
Map Reduce
● Gerenciamento de cluster
● Excelente em
processamento em batch
● Não é feito para processos
online
Google
Filesystem
Google Filesystem (GFS)
● Sistema de arquivos distribuídos
otimizados para atuar em dados não
estruturados
● Necessário pois os arquivos pode
começar a tornar grandes demais para
serem armazenados em apenas uma
máquina
Google Filesystem (GFS)
Google Filesystem (GFS)
● Tolerancia a falhas (se falhar um nó,
automaticamente replica para outro)
● Suporte a falha parcial
● Suporte a recuperação de
dados
● Suporte a recuperação
individual de nós
Google Filesystem (GFS)
● Consistência
● Escalável (pode aumentar / diminuir
sem afetar a aplicação)
● Milhares de nós
● Processamento paralelo
● Nós independentes
Map Reduce + GFS
Ou seja:
● Escalável
● Econômico
● Eficiente
● Confiável
Map Reduce
Exemplo "Word Count"
Alexandre Uehara
@AleUehara
linkedin.com/in/aleuehara
uehara.alexandre@gmail.com
slideshare.net/aleuehara

Mais conteúdo relacionado

ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
Treinamento hadoop - dia4
PDF
Treinamento hadoop - dia3
PDF
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
PDF
TDC 2014 - Hadoop Hands ON
PDF
Treinamento hadoop - dia1
ODP
Seminário Hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Treinamento hadoop - dia4
Treinamento hadoop - dia3
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
TDC 2014 - Hadoop Hands ON
Treinamento hadoop - dia1
Seminário Hadoop

Mais procurados (20)

PDF
Hadoop - Primeiros passos
PPTX
Hadoop - Mãos à massa! Qcon2014
PPT
BIGDATA: Da teoria à Pratica
PPTX
Arquitetura para solução Big Data – open source
PPTX
Proposta de arquitetura Hadoop
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Arquiteturas, Tecnologias e Desafios para Análise de BigData
PDF
Big Data - O que é o hadoop, map reduce, hdfs e hive
PDF
Data Lakes com Hadoop e Spark: Agile Analytics na prática
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Hadoop, Big Data e Cloud Computing
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Big Data Open Source com Hadoop
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
Arquitetura do Framework Apache Hadoop 2.6
PPTX
Explorando os principais implementadores hadoop e o papel que eles exercem no...
PDF
BigData MapReduce
Hadoop - Primeiros passos
Hadoop - Mãos à massa! Qcon2014
BIGDATA: Da teoria à Pratica
Arquitetura para solução Big Data – open source
Proposta de arquitetura Hadoop
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Big Data - O que é o hadoop, map reduce, hdfs e hive
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Hadoop, Big Data e Cloud Computing
Cientista de Dados – Dominando o Big Data com Software Livre
Big Data Open Source com Hadoop
Pentaho, Hadoop , Big Data e Data Lakes
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Arquitetura do Framework Apache Hadoop 2.6
Explorando os principais implementadores hadoop e o papel que eles exercem no...
BigData MapReduce
Anúncio

Destaque (20)

PPTX
Qmeeting Conceitos_qlik_sense_Pablo
PPTX
Conceitos gerais de etl - Qlikview
PDF
Estudo sobre ferramentas de BI Open Source
PDF
Brasil, Open Source e o Mundo dos Negócios
PPTX
R, Python, Twitter e Tableau para Business Intelligence
PDF
Trabalho BI Qlikview
PDF
Open Source Business Intelligence
PPTX
Text Mining para BI e Finalização do Dashboard no Tableau
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PPTX
Carreiras em Business Intelligence e Big Data
PDF
Curso Gratuito Online de Open Data (Dados Abertos) e BI Open Source
PPTX
Qmeeting SP - Design para Business Intelligence
PDF
Apresentação SpagoBI
KEY
Pentaho
PDF
Introdução à Análise de Dados - Aula 01
PPTX
QMeeting / SP - Um Evento de Bi e QlikView para poucos.
PPT
Qlikview com Google Maps
PDF
Caso de sucesso Tableau Brasil na Gascom - Partner Somativa
PPTX
Visual Analytics 101 - Princípios, práticas e ferramentas
Qmeeting Conceitos_qlik_sense_Pablo
Conceitos gerais de etl - Qlikview
Estudo sobre ferramentas de BI Open Source
Brasil, Open Source e o Mundo dos Negócios
R, Python, Twitter e Tableau para Business Intelligence
Trabalho BI Qlikview
Open Source Business Intelligence
Text Mining para BI e Finalização do Dashboard no Tableau
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Carreiras em Business Intelligence e Big Data
Curso Gratuito Online de Open Data (Dados Abertos) e BI Open Source
Qmeeting SP - Design para Business Intelligence
Apresentação SpagoBI
Pentaho
Introdução à Análise de Dados - Aula 01
QMeeting / SP - Um Evento de Bi e QlikView para poucos.
Qlikview com Google Maps
Caso de sucesso Tableau Brasil na Gascom - Partner Somativa
Visual Analytics 101 - Princípios, práticas e ferramentas
Anúncio

Semelhante a Treinamento Hadoop - dia2 (20)

PDF
Modelos de computação distribuída no Hadoop
PDF
A importância do ecossistema Java em aplicações baseadas em Big Data
PDF
MapReduce
PDF
Big data para programadores convencionais
PDF
Desenvolvendo Aplicações baseadas em Big Data com PySpark
PPT
Mapreduce - Conceitos e Aplicações
PDF
Federal University of Santa Catarina (UFSC) - PySpark Tutorial
PPTX
PDF
Treinamento ORM .Net
PDF
Map reduce novas abordagens para o processo de datamining em grandes volumn...
PDF
Map Reduce
PDF
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
Criando relatórios com PHP - PHP Conference Brasil 2013
ODP
Calourada2010
PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PPTX
Hadoop - primeiros passos
Modelos de computação distribuída no Hadoop
A importância do ecossistema Java em aplicações baseadas em Big Data
MapReduce
Big data para programadores convencionais
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Mapreduce - Conceitos e Aplicações
Federal University of Santa Catarina (UFSC) - PySpark Tutorial
Treinamento ORM .Net
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map Reduce
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Criando relatórios com PHP - PHP Conference Brasil 2013
Calourada2010
Pentaho Hadoop Big Data e Data Lakes
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
Hadoop - primeiros passos

Mais de Alexandre Uehara (20)

PDF
TDC SP 2018 - Workshop Inovação Corporativa
PDF
TDC SP 2018 - Eu trabalho na área de Inovação. Mas por que eu acho que ela te...
PDF
Workshop Agile e Scrum para RH (ou qualquer outra área não TI)
PDF
Metodologia Ágil - Acelera Impacto
PDF
Métodos Ágeis e Scrum - ESPM 2018 (Inovação) - 2a Turma
PDF
Case de Open Innovation no mundo Corporativo (1o. Encontro)
PDF
The Developers Conference (TDC) 2018 Florianópolis - Workshop Inovação
PDF
The Developers Conference (TDC) 2018 Florianópolis - Internet das Coisas (IoT)
PDF
The Developers Conference (TDC) 2018 Florianópolis - Análise de Negócios
PDF
The Developers Conference (TDC) 2018 Florianópolis - Gestão de Produtos
PDF
Agile Trends 2018 - Agile não é só para TI
PDF
Oxigênio - Inovação, Startups e Empreendedorismo (+Filmes)
PDF
Métodos Ágeis - ESPM 2018 (Inovação)
PDF
Métodos Ágeis - Senac 2018 (Tecnologia para Marketing)
PDF
Inovação - Google Campus 2018
PDF
Scrum para RH e Financeiro (Alelo)
PPTX
PDF
PDF
Machine learning for dummies
PDF
Quero trabalhar com big data data science, como faço-
TDC SP 2018 - Workshop Inovação Corporativa
TDC SP 2018 - Eu trabalho na área de Inovação. Mas por que eu acho que ela te...
Workshop Agile e Scrum para RH (ou qualquer outra área não TI)
Metodologia Ágil - Acelera Impacto
Métodos Ágeis e Scrum - ESPM 2018 (Inovação) - 2a Turma
Case de Open Innovation no mundo Corporativo (1o. Encontro)
The Developers Conference (TDC) 2018 Florianópolis - Workshop Inovação
The Developers Conference (TDC) 2018 Florianópolis - Internet das Coisas (IoT)
The Developers Conference (TDC) 2018 Florianópolis - Análise de Negócios
The Developers Conference (TDC) 2018 Florianópolis - Gestão de Produtos
Agile Trends 2018 - Agile não é só para TI
Oxigênio - Inovação, Startups e Empreendedorismo (+Filmes)
Métodos Ágeis - ESPM 2018 (Inovação)
Métodos Ágeis - Senac 2018 (Tecnologia para Marketing)
Inovação - Google Campus 2018
Scrum para RH e Financeiro (Alelo)
Machine learning for dummies
Quero trabalhar com big data data science, como faço-

Último (11)

PPTX
Eng. Software - pontos essenciais para o início
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PPTX
Tipos de servidor em redes de computador.pptx
PPTX
Utilizando code blockes por andre backes
PDF
Jira Software projetos completos com scrum
PDF
Manejo integrado de pragas na cultura do algodão
PPT
Conceitos básicos de Redes Neurais Artificiais
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PDF
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Eng. Software - pontos essenciais para o início
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Tipos de servidor em redes de computador.pptx
Utilizando code blockes por andre backes
Jira Software projetos completos com scrum
Manejo integrado de pragas na cultura do algodão
Conceitos básicos de Redes Neurais Artificiais
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
Viasol Energia Solar -Soluções para geração e economia de energia
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...

Treinamento Hadoop - dia2