SlideShare uma empresa Scribd logo
Introdução
Apache Hadoop
Anne Kelly
Diógenes Peçanha
Glauco Vinicius
16 de Novembro de 2010
Tópicos
Modos de representar dados
O que é NoSQL?
O que é Hadoop?
O modelo de Map/Reduce
Hive
Dúvidas
Modos de representar dados
Hierárquico: 60's ~ 70's
Grafo Orientado: 70's
Relacional: 70's ~ começo 80's
Entidade-Relacionamento: 70's
Relacional Extendido: 80's
Semântico: final de 70's ~ 80's
Orientado a Objetos: final 80's ~ começo
90's
Objeto-Relacional: final 80's ~ começo 90's
Semi-estruturado (XML): final 90's ~ final
00's
???
O que é NoSQL?
Not Only SQL
Bancos de dados não-relacionais
Pressão rumo a escalabilidade horizontal
O que é Hadoop?
Apache Hadoop é uma plataforma de
computação distribuída de código aberto,
voltado para clusters e grandes massas de
dados através de computadores 'commodity'.
Dois principais componentes
HDFS Map/Reduce
Tolerância a falhas
Processamento distribuído
Auto-recuperação
Alto consumo de banda
Armazenamento em cluster
O que torna o Hadoop especial?
Máquinas são confiáveis
Máquinas possuem identidades
Sua análise permanece em
apenas uma máquina
Como isso é possível?
Componentes
NameNode (Servidor de metadados e banco
de dados)
SecondaryNameNode (Assistente do
NameNode)
JobTracker (Agendador)
DataNodes (Blocos de armazenamento)
TaskTrackers (Executores de tarefas)
HDFS
O Modelo de Map/Reduce
Você especifica sua função de map()
Você especifica sua função de reduce()
O framework cuida do restante
Hands on
O que é Hive?
Infraestrutura para data warehouse
Permite consultas adhoc utilizando Hive QL
Permite a criação de maps e reduces
próprios
Ótimo para processamento em lote de
dados imutáveis
O que Hive não é?
Não é um sistema de baixa latência
Não pode ser comparado ao Oracle ou SQL
Server pelo tempo de resposta de datasets
pequenos
Não foi desenhado para OLTP ou real-time
Hive
Tipos de dados suportados: Inteiros,
Booleanos, Ponto Flutuante, Strings, Structs.
Suporte a DDL
Criação de 'Index' (Partitions)
Joins
Agregação
Union
Operações em Arrays
Map/Reduce Scripts Customizados
Hands on
Dúvidas?
Referências
Apache Hadoop: http://hadoop.apache.org/
Cloudera: http://www.cloudera.com/
Obrigado!

Mais conteúdo relacionado

PDF
Software livre, codigo aberto e licenças
PDF
Estudo da aplicação da arquitetura orientada a serviços em um sistema de gest...
PPT
Padrões de design orientado a objetos
PPT
Technology Radar Talks - NuGet
PDF
PPTX
O Futuro do ASP.NET
PDF
Relatório Técnico: .NET Framework, ASP.NET MVC 3 e Silverlight
Software livre, codigo aberto e licenças
Estudo da aplicação da arquitetura orientada a serviços em um sistema de gest...
Padrões de design orientado a objetos
Technology Radar Talks - NuGet
O Futuro do ASP.NET
Relatório Técnico: .NET Framework, ASP.NET MVC 3 e Silverlight

Destaque (19)

PPTX
Estudo de caso ASP.NET MVC e Silverlight
DOC
Turma 1 E 2 AvaliaçãO Fundamentos Basicos
PDF
C:\Fakepath\Brasil 2005e
PDF
Marketing digital
PDF
C:\Fakepath\Ex Ne Pe 2005
PPT
Igreja
PPS
Segredo completo
PDF
Melhorar VP Número 1 abril de 1991
PDF
Suplemento 2010 outubro
PPT
Antoniassi - Promoção Maluca!!
PDF
01 introducao-ao-moodle
PPT
Yves Behar
PPT
Influenza A
PDF
ACT Certification
PPTX
Realidad aumentada
PPT
Polo Ambiental da Zona Leste
DOC
Presentes Dia Das CriançAs Scj
PDF
PPS
Prece Amélia Rodrigues
Estudo de caso ASP.NET MVC e Silverlight
Turma 1 E 2 AvaliaçãO Fundamentos Basicos
C:\Fakepath\Brasil 2005e
Marketing digital
C:\Fakepath\Ex Ne Pe 2005
Igreja
Segredo completo
Melhorar VP Número 1 abril de 1991
Suplemento 2010 outubro
Antoniassi - Promoção Maluca!!
01 introducao-ao-moodle
Yves Behar
Influenza A
ACT Certification
Realidad aumentada
Polo Ambiental da Zona Leste
Presentes Dia Das CriançAs Scj
Prece Amélia Rodrigues
Anúncio

Semelhante a Apache Hadoop - Introdução (20)

PDF
Introdução ao Apache Hadoop
PPTX
BrunoSQLSaturday424
PDF
Interoperabilidade com BigData Hadoop para Windows Azure
PDF
Big Data - Uma Introdução
PDF
Big Data - O que é o hadoop, map reduce, hdfs e hive
ODP
Seminário Hadoop
PDF
Filesystem distribuído com hadoop!!!
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Tecnologias para mineração de dados nas nuvens
PPTX
Hadoop - Mãos à massa! Qcon2014
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
Big Data Open Source com Hadoop
PPTX
Big data e ecossistema hadoop
PDF
Big data para programadores convencionais
PPTX
Big Data, JVM e Redes Sociais
PPTX
PDF
TDC 2014 - Hadoop Hands ON
Introdução ao Apache Hadoop
BrunoSQLSaturday424
Interoperabilidade com BigData Hadoop para Windows Azure
Big Data - Uma Introdução
Big Data - O que é o hadoop, map reduce, hdfs e hive
Seminário Hadoop
Filesystem distribuído com hadoop!!!
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Tecnologias para mineração de dados nas nuvens
Hadoop - Mãos à massa! Qcon2014
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Big Data Open Source com Hadoop
Big data e ecossistema hadoop
Big data para programadores convencionais
Big Data, JVM e Redes Sociais
TDC 2014 - Hadoop Hands ON
Anúncio

Último (20)

PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PPTX
Aula sobre desenvolvimento de aplicativos
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Émile Durkheim slide elaborado muito bom
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PPTX
Aula sobre banco de dados com firebase db
PPTX
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
PPTX
Curso de Java 9 - (Threads) Multitarefas.pptx
PPTX
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Processos na gestão de transportes, TM100 Col18
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Aula sobre desenvolvimento de aplicativos
COBITxITIL-Entenda as diferença em uso governança TI
Émile Durkheim slide elaborado muito bom
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
Aula sobre banco de dados com firebase db
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
Curso de Java 9 - (Threads) Multitarefas.pptx
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Custos e liquidação no SAP Transportation Management, TM130 Col18

Apache Hadoop - Introdução

  • 1. Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010
  • 2. Tópicos Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas
  • 3. Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo 90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final 00's ???
  • 4. O que é NoSQL? Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal
  • 5. O que é Hadoop? Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de dados através de computadores 'commodity'.
  • 6. Dois principais componentes HDFS Map/Reduce Tolerância a falhas Processamento distribuído Auto-recuperação Alto consumo de banda Armazenamento em cluster
  • 7. O que torna o Hadoop especial?
  • 10. Sua análise permanece em apenas uma máquina
  • 11. Como isso é possível?
  • 12. Componentes NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)
  • 13. HDFS
  • 14. O Modelo de Map/Reduce Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante
  • 16. O que é Hive? Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces próprios Ótimo para processamento em lote de dados imutáveis
  • 17. O que Hive não é? Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time
  • 18. Hive Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados