SlideShare uma empresa Scribd logo
Big Data, JVM e Redes Sociais
José Renato Pequeno
Zé Pequeno?
Objetivos
• Explosão de dados
• O que Big Data não é
• O que é Big Data?
• Por quê Big Data?
• Estudo de Caso
• Quais são as técnicas
e tecnologias que
envolvem Big Data?
• MapReduce (Hadoop)
• NoSQL (HBase)
• Machine Learning
(Mahout/OpenNLP)
• Experimento e
Resultados
• Conclusão
Mídias Sociais
Mídias Sociais
Mídias Sociais
Explosão de Dados
Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic
Explosão de Dados
Explosão de Dados
Propaganda da IBM
Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
Explosão de Dados
Propaganda da IBM
Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
Explosão de Dados
Cena do Filme “Controle Absoluto”
Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0
Explosão de Dados
Explosão de Dados
Explosão de Dados
O que Big Data não é!
• Um Produto.
• Uma plataforma.
• Uma solução.
• Algo tangível.
• Data Warehouse
• Business Inteligence
Estudo de Caso
Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes-
15012013-25.shl
Estudo de Caso
Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big-
data/#.U0yMC8eLdPo
Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
• Para extrair todas as possibilidades do big data, você precisa
aprimorar suas técnicas ou mesmo desenvolver novas
técnicas para conseguir desbloquear o potencial dos dados.
Hoje o potencial é superior ao que havia antes, pois os dados
em tempo real não estruturado é enorme.
• "Qualquer tolo pode saber... o ponto é entender”, Albert
Einstein.
• O ponto principal é entender, para PREVER. É disso que o
conhecimento se trata. Isso se chama Inteligência Preditiva.
Uma nova Profissão – Cientista de
Dados
Uma nova Profissão – Cientista de
Dados
Uma nova Profissão – Cientista de
Dados
Analista de Negócio
Profissional de TI
Profissional de TI
Profissional de TI
O Momento Big Data
Fonte:http://www.gartner.com/newsroom/id/2575515
Falta de Profissionais
Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de
4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos
poderá ser preenchido com as capacitações disponíveis hoje em dia.
Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a-
disseminacao-do-big-data-trara-para-o-mercado/
Brasil precisa formar profissionais para Big Data, diz Gartner
Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil
oportunidades serão geradas no País, prevê a consultoria.
Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar-
profissionais-para-big-data-diz-gartner/
Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
MapReduce
• Criado pela equipe do Google em 2004.
• Objetivo :
É uma técnica, que mapeia um problema e seus dados
associados, para um grande número de computadores
(paralelismo), estejam eles procurando por texto ou realizando
cálculos. Os sistemas retornam os resultados (MAP) e a
informação é, então, “reduzida” (Reduce) para as respostas que
quem definiu o problema estava procurando.
Hadoop
• Projeto Open Source
• Criado pela Yahoo em 2005
• Licenciado pela Apache
• É a combinação de dois projetos :
Hadoop MapReduce (HMR)
Hadoop Distributed File System (HDFS)
Hadoop
Apache Hadoop é um framework que permite o processamento
de grandes volumes de dados através de clusters. É um sistema
distribuído usando uma arquitetura Master-Slave armazenando
informações através do Hadoop Distributed File System (HDFS) e
implementa algoritmos de MapReduce.
Hadoop MapReduce (HMR)
• O HMR é a implementação do Hadoop do MapReduce,
software que Google usa para acelerar as pesquisas
endereçadas ao seu buscador.
Fonte :
https://developers.google.com/appengine/docs/python/dataprocessing/over
view
Hadoop MapReduce (HMR)
Hadoop MapReduce (HMR)
Hadoop MapReduce (HMR)
Hadoop Distributed File System (HDFS)
• O HDFS é um sistema de arquivos distribuídos otimizados para
atuar em dados não estruturados e é também baseado na
tecnologia do Google, neste caso o Google File System.
Eco Sistema Hadoop
Eco Sistema Hadoop
• Em torno do Hadoop, a comunidade Apache mantém diversos
projetos relacionados, como o Hbase, que é um banco de
dados NoSQL que trabalha em cima do HDFS.
• Utilizado pelo Facebook para suportar seu sistema de
mensagens e os seus serviços de informações analíticas em
tempo real.
• É um sistema de captura de dados e framework de análise
que trabalha com o Hadoop para processar e analisar grandes
volumes de logs. Possui um conjuntos de ferramentas para
visualizar e monitorar os dados capturados.
Fonte : http://incubator.apache.org/chukwa/
• É um sistema distribuído para capturar de forma eficiente,
agregar e mover grandes quantidades de dados de log de
diferentes origens (servidores) para um repositório central,
simplificando assim o processo de novas coletas dos dados
para posterior análise pelo Hadoop. Flume e Chukwa são
projetos parecidos, a principal diferença entre eles é que o
Chukwa é utilizado para processamento batch.
Fonte : http://flume.apache.org
• É um sistema de Data Warehouse para Hadoop que facilita a
agregação dos dados, queries e análise de grandes datasets
armazenados no Hadoop. Hive proporciona métodos de
consulta de dados com uma linguagem parecida com o SQL,
chamado de HiveQL. Possui interfaces JDBC/ODBC para
integração com ferramentas de BI.
Fonte : http://hive.apache.org/
• É um projeto que permite criar aprendizado automático e
data mining usando Hadoop. Através do Apache Mahout,
padrões podem ser descobertos através de grandes datasets.
Possui algoritmos de identificação e classificação.
Fonte : http://mahout.apache.org/
• É uma ferramenta utilizada para transferir de forma eficiente
grandes quantidades de dados entre o Hadoop e sistemas de
armazenamento de dados estruturados, como base de dados
relacionais.
• Permite importar tabelas individuais ou bases de dados entre
o HDFS.
• Gera classes Java que permitem manipular os dados
importados.
Fonte : http://sqoop.apache.org
• É um projeto Apache que proporciona uma infraestrutura
centralizada de serviços que permitem a sincronização dos
clusters.
Fonte : http://zookeeper.apache.org
• É uma ferramenta de desenvolvimento, permite que os
usuário de Hadoop se concentrem na análise dos dados e não
em desenvolvimento de programas MapReduce. A análise é
simplificada através de uma linguagem procedural de alto
nível.
Fonte :http://pig.apache.org/
Jaql
• É uma linguagem de consulta funcional e declarativa que
facilita a exploração de informações no forma JSON (Javascript
Object Notation) e arquivos semi-estruturado de texto.
Projeto iniciado na IBM, o Jaql permite fazer select, join,
group by e filtrar dados armazenados em HDFS.
Fonte :https://code.google.com/p/jaql/
• É um sistema de serialização de dados. Os projetos Hadoop
manipulam grande quantidade de dados e a serialização
destes dados tem que ser uma excelente performance. Esta
serialização pode ser de texto, json e em formato binário.
Com Avro podemos armazenar e ler dados facilmente através
de diferentes linguagens de programação.
Fonte :http://avro.apache.org
• Apache UIMA (Unstructured Information Management
Applications) É um framework para análise de grande volume
de dados não estruturados, como texto, vídeo, audio, etc,
obtendo conhecimento que pode ser relevante para uma
determinada situação.
Fonte :http://uima.apache.org/
O que é Big Data?
Segundo a Wikipedia:
“Big Data consiste em datasets que crescem em uma escala tão
grande e complexa que fica difícil de processar utilizando as
ferramentas de gerenciamento de banco de dados tradicionais.
As dificuldades incluem captura, armazenamento, busca,
compartilhamento, analise e visualização.”
O que é Big Data?
O que é Big Data?
O que é Big Data?
O que é Big Data?
Referências
• Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big
Data Problem Using Hadoop and Map Reduce.
• Kapil Bakshi (2012), Considerations for Big Data: Architecture and
Approach.
• Sachchidanand Singh(2012), Big Data Analytics.
• https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/
conhecendo_hadoop?lang=en
• http://manifestonaweb.wordpress.com/2009/06/02/entendendo-
mapreduce/
• http://mentablog.soliveirajr.com/2012/12/intro-to-parallel-
processing-with-mapreduce/
• http://static.googleusercontent.com/external_content/untrusted_dlcp/res
earch.google.com/en//archive/mapreduce-osdi04.pdf
• https://developers.google.com/appengine/docs/python/dataprocessing/o
verview#Determining_When_a_MapreducePipeline_Job_is_Complete

Mais conteúdo relacionado

PPTX
Big Data e Seus Impactos
PPTX
Era da Informação e seus impactos na empresa e sociedade
PDF
Big data: Conceitos e Desafios
PPTX
Big Data e NoSQL
PDF
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
PPT
Big data Instituto Big Data Brasil Crie
PPT
Big Data
PPT
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data e Seus Impactos
Era da Informação e seus impactos na empresa e sociedade
Big data: Conceitos e Desafios
Big Data e NoSQL
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big data Instituto Big Data Brasil Crie
Big Data
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN

Mais procurados (20)

PPTX
Big Data e Análise de Dados Massivos
PDF
Big Data, o que é isso?
PPTX
Big Data
PDF
O que é BIG DATA e como pode influenciar nossas vidas
ODP
Palestra Introdução a Big Data
PPTX
Big data
PDF
Formação em ciência de dados
PDF
Governança de Dados e Big Data
PPTX
OS CINCO Vs DO BIG DATA
PDF
Big data e mineração de dados
ODP
Big Data - Conceitos Básicos
PPTX
Inteligência Artificial, Internet das Coisas e Inovação.
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PPTX
BIG DATA
PDF
Big Data e Data Science - Tecnologia e Mercado
PPTX
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
PPT
Big Data - uma visão executiva
PPT
O que é Data Science?
Big Data e Análise de Dados Massivos
Big Data, o que é isso?
Big Data
O que é BIG DATA e como pode influenciar nossas vidas
Palestra Introdução a Big Data
Big data
Formação em ciência de dados
Governança de Dados e Big Data
OS CINCO Vs DO BIG DATA
Big data e mineração de dados
Big Data - Conceitos Básicos
Inteligência Artificial, Internet das Coisas e Inovação.
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
BIG DATA
Big Data e Data Science - Tecnologia e Mercado
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Big Data - uma visão executiva
O que é Data Science?
Anúncio

Destaque (20)

PDF
Processamento Automático da Língua Portuguesa: DevInSampa 2011
ODP
Processamento Automático da Língua Portuguesa - Campus Party Br 6
PDF
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
PDF
Mini-curso Processamento de linguagens naturais: pondo em prática
PDF
Tutorial em Processamento de Linguagem Natural
PPT
BIG DATA, de Fabiana Andrade
PDF
Cidades Inteligentes e Big Data
PDF
Big Data na Nuvem
PDF
Mongo db no mundo real slides
PDF
Hadoop, Big Data e Cloud Computing
PDF
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
PDF
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
PPTX
Big data apresentacao
PDF
TDC 2015 - Torne-se um programador melhor
PDF
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
PDF
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
PDF
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativas
PDF
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...
PDF
TDC2016POA | Trilha IoT - Iot no Mercado Publicitário
PDF
TDC2016POA | Trilha Java - Introdução ao Byteman
Processamento Automático da Língua Portuguesa: DevInSampa 2011
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Mini-curso Processamento de linguagens naturais: pondo em prática
Tutorial em Processamento de Linguagem Natural
BIG DATA, de Fabiana Andrade
Cidades Inteligentes e Big Data
Big Data na Nuvem
Mongo db no mundo real slides
Hadoop, Big Data e Cloud Computing
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big data apresentacao
TDC 2015 - Torne-se um programador melhor
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativas
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...
TDC2016POA | Trilha IoT - Iot no Mercado Publicitário
TDC2016POA | Trilha Java - Introdução ao Byteman
Anúncio

Semelhante a Big Data, JVM e Redes Sociais (20)

PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Interoperabilidade com BigData Hadoop para Windows Azure
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
iOpera artigo o que é big data como surgiu o big data para que serve o big data
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
PPTX
Big Data
PPTX
Big data e ecossistema hadoop
PPTX
Explorando os principais implementadores hadoop e o papel que eles exercem no...
PDF
Treinamento hadoop - dia4
PDF
Big Data Open Source com Hadoop
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
A importância do ecossistema Java em aplicações baseadas em Big Data
PDF
Bigadata casese opotunidades
PDF
Pentaho Hadoop Big Data e Data Lakes
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
PPTX
PDF
BIG DATA & IoT: Tecnologias e  Aplicações
PDF
BigData e internte das coisas aplicada a engenharia
Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Interoperabilidade com BigData Hadoop para Windows Azure
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
iOpera artigo o que é big data como surgiu o big data para que serve o big data
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Big Data
Big data e ecossistema hadoop
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Treinamento hadoop - dia4
Big Data Open Source com Hadoop
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
A importância do ecossistema Java em aplicações baseadas em Big Data
Bigadata casese opotunidades
Pentaho Hadoop Big Data e Data Lakes
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
BIG DATA & IoT: Tecnologias e  Aplicações
BigData e internte das coisas aplicada a engenharia

Último (20)

PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Apple Pippin Uma breve introdução. - David Glotz
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PPTX
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
PPTX
Aula sobre banco de dados com firebase db
PPTX
Émile Durkheim slide elaborado muito bom
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Aula sobre desenvolvimento de aplicativos
PPTX
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
PPTX
Curso de Java 9 - (Threads) Multitarefas.pptx
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PPTX
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Processos na gestão de transportes, TM100 Col18
Apple Pippin Uma breve introdução. - David Glotz
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
Custos e liquidação no SAP Transportation Management, TM130 Col18
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
Aula sobre banco de dados com firebase db
Émile Durkheim slide elaborado muito bom
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Aula sobre desenvolvimento de aplicativos
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
Curso de Java 9 - (Threads) Multitarefas.pptx
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
COBITxITIL-Entenda as diferença em uso governança TI
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx

Big Data, JVM e Redes Sociais

  • 1. Big Data, JVM e Redes Sociais José Renato Pequeno
  • 3. Objetivos • Explosão de dados • O que Big Data não é • O que é Big Data? • Por quê Big Data? • Estudo de Caso • Quais são as técnicas e tecnologias que envolvem Big Data? • MapReduce (Hadoop) • NoSQL (HBase) • Machine Learning (Mahout/OpenNLP) • Experimento e Resultados • Conclusão
  • 7. Explosão de Dados Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic
  • 9. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  • 10. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  • 11. Explosão de Dados Cena do Filme “Controle Absoluto” Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0
  • 15. O que Big Data não é! • Um Produto. • Uma plataforma. • Uma solução. • Algo tangível. • Data Warehouse • Business Inteligence
  • 16. Estudo de Caso Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes- 15012013-25.shl
  • 17. Estudo de Caso Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big- data/#.U0yMC8eLdPo
  • 18. Quais são as profissões, técnicas e tecnologias que envolvem Big Data? • Para extrair todas as possibilidades do big data, você precisa aprimorar suas técnicas ou mesmo desenvolver novas técnicas para conseguir desbloquear o potencial dos dados. Hoje o potencial é superior ao que havia antes, pois os dados em tempo real não estruturado é enorme. • "Qualquer tolo pode saber... o ponto é entender”, Albert Einstein. • O ponto principal é entender, para PREVER. É disso que o conhecimento se trata. Isso se chama Inteligência Preditiva.
  • 19. Uma nova Profissão – Cientista de Dados
  • 20. Uma nova Profissão – Cientista de Dados
  • 21. Uma nova Profissão – Cientista de Dados
  • 26. O Momento Big Data Fonte:http://www.gartner.com/newsroom/id/2575515
  • 27. Falta de Profissionais Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de 4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos poderá ser preenchido com as capacitações disponíveis hoje em dia. Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a- disseminacao-do-big-data-trara-para-o-mercado/ Brasil precisa formar profissionais para Big Data, diz Gartner Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil oportunidades serão geradas no País, prevê a consultoria. Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar- profissionais-para-big-data-diz-gartner/
  • 28. Quais são as profissões, técnicas e tecnologias que envolvem Big Data?
  • 29. MapReduce • Criado pela equipe do Google em 2004. • Objetivo : É uma técnica, que mapeia um problema e seus dados associados, para um grande número de computadores (paralelismo), estejam eles procurando por texto ou realizando cálculos. Os sistemas retornam os resultados (MAP) e a informação é, então, “reduzida” (Reduce) para as respostas que quem definiu o problema estava procurando.
  • 30. Hadoop • Projeto Open Source • Criado pela Yahoo em 2005 • Licenciado pela Apache • É a combinação de dois projetos : Hadoop MapReduce (HMR) Hadoop Distributed File System (HDFS)
  • 31. Hadoop Apache Hadoop é um framework que permite o processamento de grandes volumes de dados através de clusters. É um sistema distribuído usando uma arquitetura Master-Slave armazenando informações através do Hadoop Distributed File System (HDFS) e implementa algoritmos de MapReduce.
  • 32. Hadoop MapReduce (HMR) • O HMR é a implementação do Hadoop do MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu buscador. Fonte : https://developers.google.com/appengine/docs/python/dataprocessing/over view
  • 36. Hadoop Distributed File System (HDFS) • O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System.
  • 39. • Em torno do Hadoop, a comunidade Apache mantém diversos projetos relacionados, como o Hbase, que é um banco de dados NoSQL que trabalha em cima do HDFS. • Utilizado pelo Facebook para suportar seu sistema de mensagens e os seus serviços de informações analíticas em tempo real.
  • 40. • É um sistema de captura de dados e framework de análise que trabalha com o Hadoop para processar e analisar grandes volumes de logs. Possui um conjuntos de ferramentas para visualizar e monitorar os dados capturados. Fonte : http://incubator.apache.org/chukwa/
  • 41. • É um sistema distribuído para capturar de forma eficiente, agregar e mover grandes quantidades de dados de log de diferentes origens (servidores) para um repositório central, simplificando assim o processo de novas coletas dos dados para posterior análise pelo Hadoop. Flume e Chukwa são projetos parecidos, a principal diferença entre eles é que o Chukwa é utilizado para processamento batch. Fonte : http://flume.apache.org
  • 42. • É um sistema de Data Warehouse para Hadoop que facilita a agregação dos dados, queries e análise de grandes datasets armazenados no Hadoop. Hive proporciona métodos de consulta de dados com uma linguagem parecida com o SQL, chamado de HiveQL. Possui interfaces JDBC/ODBC para integração com ferramentas de BI. Fonte : http://hive.apache.org/
  • 43. • É um projeto que permite criar aprendizado automático e data mining usando Hadoop. Através do Apache Mahout, padrões podem ser descobertos através de grandes datasets. Possui algoritmos de identificação e classificação. Fonte : http://mahout.apache.org/
  • 44. • É uma ferramenta utilizada para transferir de forma eficiente grandes quantidades de dados entre o Hadoop e sistemas de armazenamento de dados estruturados, como base de dados relacionais. • Permite importar tabelas individuais ou bases de dados entre o HDFS. • Gera classes Java que permitem manipular os dados importados. Fonte : http://sqoop.apache.org
  • 45. • É um projeto Apache que proporciona uma infraestrutura centralizada de serviços que permitem a sincronização dos clusters. Fonte : http://zookeeper.apache.org
  • 46. • É uma ferramenta de desenvolvimento, permite que os usuário de Hadoop se concentrem na análise dos dados e não em desenvolvimento de programas MapReduce. A análise é simplificada através de uma linguagem procedural de alto nível. Fonte :http://pig.apache.org/
  • 47. Jaql • É uma linguagem de consulta funcional e declarativa que facilita a exploração de informações no forma JSON (Javascript Object Notation) e arquivos semi-estruturado de texto. Projeto iniciado na IBM, o Jaql permite fazer select, join, group by e filtrar dados armazenados em HDFS. Fonte :https://code.google.com/p/jaql/
  • 48. • É um sistema de serialização de dados. Os projetos Hadoop manipulam grande quantidade de dados e a serialização destes dados tem que ser uma excelente performance. Esta serialização pode ser de texto, json e em formato binário. Com Avro podemos armazenar e ler dados facilmente através de diferentes linguagens de programação. Fonte :http://avro.apache.org
  • 49. • Apache UIMA (Unstructured Information Management Applications) É um framework para análise de grande volume de dados não estruturados, como texto, vídeo, audio, etc, obtendo conhecimento que pode ser relevante para uma determinada situação. Fonte :http://uima.apache.org/
  • 50. O que é Big Data? Segundo a Wikipedia: “Big Data consiste em datasets que crescem em uma escala tão grande e complexa que fica difícil de processar utilizando as ferramentas de gerenciamento de banco de dados tradicionais. As dificuldades incluem captura, armazenamento, busca, compartilhamento, analise e visualização.”
  • 51. O que é Big Data?
  • 52. O que é Big Data?
  • 53. O que é Big Data?
  • 54. O que é Big Data?
  • 55. Referências • Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big Data Problem Using Hadoop and Map Reduce. • Kapil Bakshi (2012), Considerations for Big Data: Architecture and Approach. • Sachchidanand Singh(2012), Big Data Analytics. • https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/ conhecendo_hadoop?lang=en • http://manifestonaweb.wordpress.com/2009/06/02/entendendo- mapreduce/ • http://mentablog.soliveirajr.com/2012/12/intro-to-parallel- processing-with-mapreduce/ • http://static.googleusercontent.com/external_content/untrusted_dlcp/res earch.google.com/en//archive/mapreduce-osdi04.pdf • https://developers.google.com/appengine/docs/python/dataprocessing/o verview#Determining_When_a_MapreducePipeline_Job_is_Complete