SlideShare uma empresa Scribd logo
Pentaho, Hadoop, Big Data e Data Lakes.
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
   
Ecosistema da Ambiente
Livre
Agenda
● Conceitos de Big Data
● Conceitos de Hadoop
● Conceitos de Data Lakes
● Pentaho Orquestrando seus Data Lakes
2005 na apresentação do Papa Bento XVI
 2013 na apresentação do Papa Francisco
   
   
Big Data
   
O momento é agora
   
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
   
Ferramentas de Big Data
Software Livre
Muitos das melhores e mais 
conhecidas ferramentas de 
dados disponíveis são 
grandes projetos de código 
aberto. O  mais conhecido 
deles é o Hadoop, o que 
está gerando toda uma 
indústria de serviços e 
produtos relacionados. 
   
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
   
Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
Ecosistema - Hadoop
   
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
   
Características do HDFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
● Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.
   Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
   
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
   
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
   
Programação Distribuída
   
MapReduce by “Subway”
   
MapReduce
Map Reduce
   
O Profissional
“data scientist”
Novo profissional: Cientista de Dados
   
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
   
Tendências
Citizen Data Scientist
   
O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at
Pentaho ) introduziu os conceitos de Data
Lake em pequeno artigo em seu Blog.
   
Os velho Datawarehouse
● Elaborado na Década de 80
● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-
determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade
para os níveis mais baixos é perdida
   
Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro,
Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou semi-
estruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs,
Social/online Media, Eventos de Telecoms ) ou não transacional
(Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.
● Há muitas perguntas desconhecidos que surgirão no futuro.
● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.
   
Data LakeData Lake
   
Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.
   
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
   
Formato Tradicional de BI
Data Mart(s)
Data Source
   
Arquitetura de Big Data
Data Mart(s)
Data 
Source
Data Lake(s)
ad­hoc Datawarehouse
   
Big Data não Substitui os
DataMarts
● Big Data não é um Banco de Dados
● Alta latência
● Otimizado para “triturar” massiva os dados
● Base de dados são imaturas
● Banco de Dados são noSQL
   
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend com CTools
● Implementamos Backends e endPoints com
PDI
   
   
   
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”
   
Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Mais conteúdo relacionado

PDF
Carreira Profissional e Certificação de um Analista de BI Pentaho
PDF
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
KEY
Pentaho
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
Oficina Pentaho
PDF
Pentaho: inteligência de negócios utilizando software livre
PDF
Curso de Criação de Dashboards com o Pentaho (BI Open Source)
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
Carreira Profissional e Certificação de um Analista de BI Pentaho
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Oficina Pentaho
Pentaho: inteligência de negócios utilizando software livre
Curso de Criação de Dashboards com o Pentaho (BI Open Source)
Cientista de Dados – Dominando o Big Data com Software Livre

Mais procurados (20)

PDF
Criando Indicadores de Negócios com o Pentaho na Globo.com
PDF
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
PDF
Negócios em FLOSS
PDF
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
PDF
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
Aula 01-Tutorial ETL com PDI
PPTX
Metodologia Ágil para Projetos de BI - Pentaho Day
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PPTX
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
PDF
Master Data Management & Virtualização de Dados em SOA
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PDF
[DTC21] André Marques - Jornada do Engenheiro de Dados
PPT
Palestra Pentaho Multi Tenancy - Pentaho Day 2014
PDF
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Criando Indicadores de Negócios com o Pentaho na Globo.com
Palestra na FEA USP - Pentaho: Fazendo mais com menos - Evento ComTycho Day 2012
Negócios em FLOSS
Pentaho: Implementando um Projeto de BI baseado em ferramentas livres em inst...
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Pentaho, Hadoop , Big Data e Data Lakes
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Aula 01-Tutorial ETL com PDI
Metodologia Ágil para Projetos de BI - Pentaho Day
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Pentaho Day 2015 - Universidade Positivo - Preparação de ambiente pentaho 5.3
Master Data Management & Virtualização de Dados em SOA
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] André Marques - Jornada do Engenheiro de Dados
Palestra Pentaho Multi Tenancy - Pentaho Day 2014
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Anúncio

Destaque (20)

PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PPTX
Big Data e NoSQL
PPTX
Big Data e Seus Impactos
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
PDF
Apostila sobre Big Data
PDF
Governança de Dados e Big Data
PDF
O que é BIG DATA e como pode influenciar nossas vidas
PPTX
Lançamento TOTVS V12 Linha RM - Construção & Projetos
PPTX
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
PDF
Data mining: Auxiliando as empresas na tomada de decisão
PDF
Exercícios - Tutorial ETL com Pentaho Data Integration
PPTX
Final pre power_group_executing bpm processes with Camunda
PPTX
Data Mining e Data Warehouse
PDF
Aula 02-Tutorial ETL com PDI
PDF
Mantendo seu Tempo a salvo com Python e Git
PPTX
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
PDF
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
ODP
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
PPTX
De dev para data scientist 3 coisas que aprendi
PDF
Mineração de dados e novas oportunidades de análise para sistemas de informação
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data e NoSQL
Big Data e Seus Impactos
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Apostila sobre Big Data
Governança de Dados e Big Data
O que é BIG DATA e como pode influenciar nossas vidas
Lançamento TOTVS V12 Linha RM - Construção & Projetos
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Data mining: Auxiliando as empresas na tomada de decisão
Exercícios - Tutorial ETL com Pentaho Data Integration
Final pre power_group_executing bpm processes with Camunda
Data Mining e Data Warehouse
Aula 02-Tutorial ETL com PDI
Mantendo seu Tempo a salvo com Python e Git
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
De dev para data scientist 3 coisas que aprendi
Mineração de dados e novas oportunidades de análise para sistemas de informação
Anúncio

Semelhante a Pentaho Hadoop Big Data e Data Lakes (20)

PDF
TDC2016SP - Trilha BigData
PPT
BIGDATA: Da teoria à Pratica
ODP
Big Data Latinoware 2014
PPTX
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
PDF
Treinamento hadoop - dia4
PDF
Palestra Big Data SCTI
PPTX
Big Data, JVM e Redes Sociais
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
PDF
Big Data e Data Science - Tecnologia e Mercado
PDF
Palestra garimpando com pentaho data mining latinoware
ODP
Big Data - Conceitos Básicos
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
Treinamento hadoop - dia3
PDF
Big Data Open Source com Hadoop
PDF
Qual é o futuro da estratégia de dados?
PDF
Business Analytics
ODP
Palestra Introdução a Big Data
PDF
Big data e mineração de dados
TDC2016SP - Trilha BigData
BIGDATA: Da teoria à Pratica
Big Data Latinoware 2014
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
Treinamento hadoop - dia4
Palestra Big Data SCTI
Big Data, JVM e Redes Sociais
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Big Data e Data Science - Tecnologia e Mercado
Palestra garimpando com pentaho data mining latinoware
Big Data - Conceitos Básicos
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Treinamento hadoop - dia3
Big Data Open Source com Hadoop
Qual é o futuro da estratégia de dados?
Business Analytics
Palestra Introdução a Big Data
Big data e mineração de dados

Mais de Ambiente Livre (18)

PDF
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
PDF
Apache Flink a Quarta Geração do Big Data
PDF
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
PDF
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
PDF
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
PDF
Metodologia Hacker de Ensino na Ambiente Livre
PDF
Integrando o Drupal com o ECM Alfresco usando CMIS
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
PDF
Suporte a Geo-Mapping no Pentaho Report
PDF
Big Data, o que é isso?
PDF
Moodle - Sistema de Gestão da Aprendizagem Open Source
PDF
Programação de Macros com LibreOffice Basic
PDF
Apresentação Executiva do Iguana BI for SugarCRM
PDF
Criando e consumindo webservice REST com PHP e JSON
PDF
Desenvolvendo Produtos sobre a Plataforma Pentaho
PDF
Gerenciamento de Projetos com dotProject
PDF
Customizando uma plataforma de CRM Open Source - SugarCRM
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Apache Flink a Quarta Geração do Big Data
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
Metodologia Hacker de Ensino na Ambiente Livre
Integrando o Drupal com o ECM Alfresco usando CMIS
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Suporte a Geo-Mapping no Pentaho Report
Big Data, o que é isso?
Moodle - Sistema de Gestão da Aprendizagem Open Source
Programação de Macros com LibreOffice Basic
Apresentação Executiva do Iguana BI for SugarCRM
Criando e consumindo webservice REST com PHP e JSON
Desenvolvendo Produtos sobre a Plataforma Pentaho
Gerenciamento de Projetos com dotProject
Customizando uma plataforma de CRM Open Source - SugarCRM

Último (19)

PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PDF
Aula04-Academia Heri- Tecnologia Geral 2025
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PPTX
Aula 18 - Manipulacao De Arquivos python
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PDF
Apple Pippin Uma breve introdução. - David Glotz
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Processos na gestão de transportes, TM100 Col18
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Aula04-Academia Heri- Tecnologia Geral 2025
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Custos e liquidação no SAP Transportation Management, TM130 Col18
Aula 18 - Manipulacao De Arquivos python
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Apple Pippin Uma breve introdução. - David Glotz
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
COBITxITIL-Entenda as diferença em uso governança TI
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express

Pentaho Hadoop Big Data e Data Lakes

  • 1. Pentaho, Hadoop, Big Data e Data Lakes. Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  • 3.     Ecosistema da Ambiente Livre
  • 4. Agenda ● Conceitos de Big Data ● Conceitos de Hadoop ● Conceitos de Data Lakes ● Pentaho Orquestrando seus Data Lakes
  • 9.     O momento é agora
  • 10.     Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 14.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 15.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  • 16.     Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  • 17.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é lider e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 19.     O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  • 20.     Características do HDFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade ● Projetado para escalar a petabytes de armazenamento, executa em cima dos sistemas de arquivos do sistema operacional subjacente.
  • 22.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 23.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  • 25.     MapReduce by “Subway”
  • 27.     O Profissional “data scientist” Novo profissional: Cientista de Dados
  • 28.     Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 29.     Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  • 31.     O Termo Data Lake ● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.
  • 32.     Os velho Datawarehouse ● Elaborado na Década de 80 ● Apenas um subconjunto dos atributos são examinados, para que apenas perguntas pré- determinadas podem ser respondidas. ● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida
  • 33.     Cenários ● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs ) ● Muitas empresas estão lidando com dados estruturados ou semi- estruturados (não desestruturada). ● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ). ● Há algumas perguntas conhecidos para perguntar dos dados. ● Há muitas perguntas desconhecidos que surgirão no futuro. ● Os dados são de uma escala ou volume diário de tal forma que ele não vão caber técnica e / ou economicamente em um RDBMS.
  • 35.     Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 36.     Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo
  • 37.     Formato Tradicional de BI Data Mart(s) Data Source
  • 38.     Arquitetura de Big Data Data Mart(s) Data  Source Data Lake(s) ad­hoc Datawarehouse
  • 39.     Big Data não Substitui os DataMarts ● Big Data não é um Banco de Dados ● Alta latência ● Otimizado para “triturar” massiva os dados ● Base de dados são imaturas ● Banco de Dados são noSQL
  • 40.     ● Solução de BI Open Source. ● Community Edition ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 42.     Pentaho Data Integration
  • 43.     Sparkl ● CTools e Pentaho Data Integration (PDI) ● Desenvolve frontend com CTools ● Implementamos Backends e endPoints com PDI
  • 44.    
  • 45.    
  • 46.     Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 47.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 48.     Big Data ● “Big Data hoje é o que era a Linux em 1991. ● Sabemos que será algo revolucionário, mas não sabemos o quanto...”
  • 49.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre