Robson Motta | robson@chaordic.com.br
Big Data e MapReduce
Admirável mundo novo
Robson Motta - Computer on the beach 2014
Mais de
200 milhões
page views mensais
116 milhões
de pedidos
3 bilhões
de visitas
em produtos
700 milhões
de recomendações
geradas diariamente
Como
armazenar?
Como
processar?
Como
visualizar?
Como
monitorar?
Sumário
• A Chaordic
• Chaordic + Big Data + Cloud
• Dos eventos às recomendações
• A vida não é bela: surgem os desafios
• Visualizando e monitorando
• Futuro?
Robson Motta - Computer on the beach 2014
+
Como tudo começou
Robson Motta - Computer on the beach 2014
Como fazemos
Como
fazemos?
+
• Volume
• Velocidade
• Variedade
quantidade
de dados
tempo de
processamento
2010
16 M
eventos 3 dias
quantidade
de dados
tempo de
processamento
2010 2014
16 M
eventos
4500 M
eventos3 dias
quantidade
de dados
tempo de
processamento
2010 2014
16 M
eventos
4500 M
eventos3 dias 7 horas
Arquitetura
Onsite
DashboardEngine
Mail
Platform
Como
armazenar?
Node 1
Node 3
Node 2Node...
"Batch" Cassandra Cluster
Availability Zone - 2
Node 1
Node 3
Node 2Node...
"Online" Cassandra Cluster
Availability Zone - 1
Online Service Tier Batch Service Tier
Como
processar?
MapReduce
Um novo paradigma
que permite e facilita
a implementação de
algoritmos distribuídos
Data
Robson Motta
Raul Seixas
Ed Motta
Reginaldo Rossi
Nelson Mandela
Valentino Rossi
Map
Motta, 1
Seixas, 1
Motta, 1
Rossi, 1
Mandela, 1
Rossi, 1
Mandela, (1)
Motta, (1, 1)
Rossi, (1, 1)
Seixas, (1)
Reduce
Mandela, (1)
Motta, (1, 1)
Rossi, (1, 1)
Seixas, (1)
Mandela, 1
Motta, 2
Rossi, 2
Seixas, 1
Como
processar?
Data
A - B
Cadeira - D
Cadeira - E
Cadeira - E
F - A
Map
A, (B, F)
B, (A)
Cadeira, (D, E, E)
D, (Cadeira)
E, (Cadeira,Cadeira)
F, (A)
Reduce
A, [B, F]
B, [A]
Cadeira, [E, D]
D, [Cadeira]
E, [Cadeira]
F, [A]
Como
processar?
Hadoop: HDFS e Hadoop MapReduce
• Escalável
• Custo reduzido
• Flexível
• Tolerante a falha
Como
processar?
Engine
3
Como
processar?
Engine
Core
Platform
EC2 + EMR
S3
Uploader
5
64
2
1
recomendações
eventos
recomendações
eventos
pré
processamento
processamento
pós
processamento
● produtos vistos
● cliques
● pedidos
etc.
• Itens muito populares
• Eventos inesperados
• Clientes diferentes
• Sazonalidade
• Ausência de eventos
Desafios
Desafios
Desafios
R$ 270,81
Usuário entrou
na página para
comprar a boneca...
...e sugerimos que ele
levasse junto um pneu
Compras
conjuntas?
Desafios
+
Compras
conjuntas?
Desafios
+
31
Dados
consistentes?
Desafios
+
Dados
consistentes?
Desafios
+
Bot gerando
eventos?
Desafios
+
Bot gerando
eventos?
Desafios
+
Kit da
própria loja?
Desafios
+
Desafios
+
Kit da
própria loja?
Destaques
simultâneos?
Desafios
+
Reduziram
de preço?
Desafios
+
Reduziram
de preço?
Desafios
+
...só o pneu
Quando
reduziu?
Desafios
+
Quando
reduziu?
Desafios
+
Conclusão...
Desafios
+
Promoção de pneu
no dia das crianças
Desafios
+
Visualizando
e monitorando
Visualizar
e monitorar
• Consultas em bases não relacionais
• Acompanhamento de desempenho
• Visualização de logs
• Acompanhamento de custos
Visualizar
Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014
KINESIS STORM
Real Time Big Data Processing
Futuro
SHARK
In Memory Big Data Processing
Futuro
Robson Motta
robson@chaordic.com.br
/chaordic.com.br

Mais conteúdo relacionado

PDF
Aprendizado de Máquina e Visualização de Informação para otimização de Sistem...
PPT
PPTX
Twitter for Business
PDF
18 dissipatori
PDF
FINAL infographic PRINTpdf
PDF
4 base di elettrotecnica
PDF
Maynooth Orientation Leader Guide
Aprendizado de Máquina e Visualização de Informação para otimização de Sistem...
Twitter for Business
18 dissipatori
FINAL infographic PRINTpdf
4 base di elettrotecnica
Maynooth Orientation Leader Guide

Destaque (15)

PPTX
Ambiental
PDF
Investors and Venture Capital in European Saas Startups 052016
PDF
Timo Honkela: Analysis of Qualitative Data using Machine Learning Methods
PDF
Machine learning 101
PDF
7 inquinamento luminoso
PPTX
Brainstorm
PPTX
Landgate Presentation on Blockchain
PPTX
Exploring spatial data in GIS Environment
PDF
Hill's Science Diet Media Plan
PDF
1 fisica della luce
PPT
4 15년 도장업종 세미나(권태안)-150904-1
PDF
KAP 업종별기술세미나 13년 06월 #02
DOCX
Control of Gaseous Pollutants
PDF
KAP 업종별기술세미나 11년 10월 #01
PDF
Go To Market USA - How to get your business U.S. ready
Ambiental
Investors and Venture Capital in European Saas Startups 052016
Timo Honkela: Analysis of Qualitative Data using Machine Learning Methods
Machine learning 101
7 inquinamento luminoso
Brainstorm
Landgate Presentation on Blockchain
Exploring spatial data in GIS Environment
Hill's Science Diet Media Plan
1 fisica della luce
4 15년 도장업종 세미나(권태안)-150904-1
KAP 업종별기술세미나 13년 06월 #02
Control of Gaseous Pollutants
KAP 업종별기술세미나 11년 10월 #01
Go To Market USA - How to get your business U.S. ready
Anúncio

Último (19)

PPTX
Tipos de servidor em redes de computador.pptx
PPTX
Analise Estatica de Compiladores para criar uma nova LP
PDF
Banco de Dados 2atualização de Banco de d
PDF
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
PPTX
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)
PPTX
ccursoammaiacursoammaiacursoammaia123456
PDF
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
PPT
Conceitos básicos de Redes Neurais Artificiais
PDF
SEMINÁRIO DE IHC - A interface Homem-Máquina
PDF
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PPTX
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
PDF
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
PPTX
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
PDF
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
PDF
Jira Software projetos completos com scrum
PDF
Processamento da remessa no SAP ERP, SCM610 Col15
PDF
Processos no SAP Extended Warehouse Management, EWM100 Col26
PPT
Aula de Engenharia de Software principais caracteristicas
Tipos de servidor em redes de computador.pptx
Analise Estatica de Compiladores para criar uma nova LP
Banco de Dados 2atualização de Banco de d
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)
ccursoammaiacursoammaiacursoammaia123456
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
Conceitos básicos de Redes Neurais Artificiais
SEMINÁRIO DE IHC - A interface Homem-Máquina
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
Jira Software projetos completos com scrum
Processamento da remessa no SAP ERP, SCM610 Col15
Processos no SAP Extended Warehouse Management, EWM100 Col26
Aula de Engenharia de Software principais caracteristicas
Anúncio

Robson Motta - Computer on the beach 2014