SlideShare uma empresa Scribd logo
BI Sobre Big Data – Como Fazer?
Leandro Mendes Ferreira
INTRODUÇÃO E CONTEXTUALIZAÇÃO
AGENDA
01
02
03
04
O QUE NÃO FAZER
O QUE FAZER
COMO FAZER
Quem sou eu?
• Formado em Processamento de Dados pela
FATEC Sorocaba
• MBA em BI pela FIAP
• Mestrando pela Politécnica - USP
• Especialista em Sistemas – Big Data na everis
• Trabalho com Big Data a Cerca de 3 anos
• Certificado Apache Cassandra Developer
• A everis, uma empresa do grupo NTT DATA
• Atualmente tem 13.000 profissionais em 14 países
Linhas de Negócios:
• Consultoria de negócios
• Serviços de tecnologia da informação
• Outsourcing
• Business Process Outsourcing (BPO)
• Soluções SAP
• Iniciativas & Inovação
O que é a everis?
INTRODUÇÃO E CONTEXTUALIZAÇÃO01
02
03
04
O QUE NÃO FAZER
O QUE FAZER
COMO FAZER
INTRODUÇÃO
É possível criar um ambiente de analytics sobre a arquitetura
tradicional de BI com ferramentas de Big Data? Como fazer isso?
Porquê BI Sobre Big Data?
1000x poder de processamento com 10% do custo
Vantagens
• Menor custo de ETL
• Redução com custos em hardware específicos
• Redução de custos com de licenciamento em visualização de dados ***
• Disponibilizar informações em tempo real sem custos adicionais
• Projetos de BI sobre arquitetura de Big Data são de desenvolvimento mais rápido
do que em arquitetura tradicionais
Arquitetura Padrão de Projeto de BI
DATA SOURCE INTEGRAÇÃO - ETL DATA WAREHOUSE
VISUALIZAÇÃO DE
DADOS
A “solução” para projetos de BI em Big Data
DATA SOURCE INTEGRAÇÃO - ETL DATA WAREHOUSE
VISUALIZAÇÃO DE
DADOS
Contexto através do tempo
BI sobre o ecossistema de Big Data
• 2014/2015 – Era necessário convencer as pessoas
que não valia mais a penas usar banco de dados
relacionais para fazer BI
• 2017 – Estamos convencendo as pessoas a não
fazerem da maneira ERRADA!
Perguntas básicas a serem feitas
Tendo em vista o início de um projeto de BI em ambiente de
Big Data:
• Quais ferramentas podem ser utilizados e como?
• A modelagem de dados é a mesma?
• Kimball e Imon ainda valem?
• Fazemos a mesma ETL?
• Visualizamos do mesmo jeito os dados?
• Quais são a possibilidades que podemos alcançar com o novo paradigma?
INTRODUÇÃO E CONTEXTUALIZAÇÃO01
02
03
04
O QUE NÃO FAZER
O QUE FAZER
COMO FAZER
ETL
Faça ingestão dos dados, não faça ETL
Por que?
• Complexidade de projeto
• Não existe mais restrição de armazenamento de dados
“no mundo ideal”
• Seu cientista de dados talvez precisa dessa informação
que seria deixada para trás
• O cliente sempre gosta de “trazer tudo”
Star Schema
Faça ingestão dos dados, não faça ETL
Por que?
• Relacionamentos são custosos
• Processamento é mais caro que armazenamento
• Esperar um processamento é mais caro ainda
• Quanto mais junções mais lento será sua consutla
Planilhas de Excel
Você já deveria não estar fazendo isso
Por que?
• Você já sabe o Porquê.
Consultas Ad-hoc sobre 1 bilhão de linhas
Hive/Impala não são bancos de dados.
Por que?
• Operações de Mapreduce são custosas
• É irreal acreditar que consultas dessa magnitude
serão respondidas em milesegundos
Opinião pessoal!!!!
Não use Hadoop para dados estruturados!
INTRODUÇÃO E CONTEXTUALIZAÇÃO01
02
03
04
O QUE NÃO FAZER
O QUE FAZER
COMO FAZER
Questões relevantes
Tendo em vista o início de um projeto de BI em ambiente de
Big Data:
• Quais ferramentas podem ser utilizados e como? (ARQUITETURA)
• A modelagem de dados é a mesma? (MODELAGEM)
• Kimball e Imon ainda valem?
• Fazemos a mesma ETL? (INTEGRAÇÃO)
• Visualizamos do mesmo jeito os dados? (VISUALIZAÇÃO)
• Quais são a possibilidades que podemos alcançar com o novo paradigma? (PROCESSOS)
Data WarehouseIngestion
Processing Memory Layer
Data Lake Star Tables
Transformation Processing Sandbox Area
Dashboard Ad-Hoc
Presentation Layer
OLAP
Uma proposta de arquitetura
Quais ferramentas Posso Usar
Integração
• Flume/Sqoop
• NIFI
• Cask Data Application Platform (Hydrator)
• KNIME Spark Executor
• Streamsets
Quais ferramentas Posso Usar
Process Memory Layer
Data Warehouse
• Apache Drill
• Apache Phonix
• Apache Ignite
• Impala
• PrestoDB
Processadores
• Storm/Flink/Sanza
• KafkaStream
• Datatorrent
• Spark
Quais ferramentas Posso Usar
Visualização
• Pentho
• Redash
• Superset
Data WarehouseIngestion
Processing Memory Layer
Data Lake Star Tables
Transformation Processing Sandbox Area
Dashboard Ad-Hoc
Presentation Layer
OLAP
Uma proposta de arquitetura
Modelagem
Star Schema Star Table
INTRODUÇÃO E CONTEXTUALIZAÇÃO01
02
03
04
O QUE NÃO FAZER
O QUE FAZER
COMO FAZER
Use um NoSQL Colunar
Cassandra + PrestoDB
• Slow Change Dimension
• Não é problema com Cassandra
• Vantagens de compactação
• Simplificação
• Segurança http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
Se for usar Hive
Use ORC + Snappy + Transactions + Streaming Data Ingest
1. The following settings are required in hive-site.xml to enable ACID support for streaming:
2. “stored as orc” must be specified during table creation.
3. tblproperties("transactional"="true") must be set on the table during creation.
4. The Hive table must be bucketed, but not sorted.
https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest
Pense nas partições e na clusterização
• Garante a distribuição dos dados
• Evolui no modelo
• Aumenta a performance
Performance aprimorada exponencialmente
só pensando nisso
DDL (Hive e Cassandra com Cluster e Partition)
CASSANDRA
CREATE TABLE table_name (
dt timestamp,
country text,
id int,
name text,
PRIMARY KEY ((country, dt),id)
)
WITH CLUSTERING ORDER BY (id
DESC);
HIVE
CREATE TABLE table_name (
id int,
name string
)
PARTITIONED BY(dt STRING, country
STRING)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES ("transactional"="true)
Demonstração
Thanks, we are
delighted to have the
opportunity to
transform with you

Mais conteúdo relacionado

PDF
Bi sobre Big Data - Como fazer?
PDF
Processamento de Eventos Complexos com Spark
PPTX
SQL Server Heterogêneo: SQL Server + BigData
PPTX
Metodologia Ágil para Projetos de BI - Pentaho Day
PPTX
Palestra sql saturday 361
PPTX
Tirando leite de pedra
PPTX
Power bi na prática 2016
PDF
Carreira de Desenvolvimento
Bi sobre Big Data - Como fazer?
Processamento de Eventos Complexos com Spark
SQL Server Heterogêneo: SQL Server + BigData
Metodologia Ágil para Projetos de BI - Pentaho Day
Palestra sql saturday 361
Tirando leite de pedra
Power bi na prática 2016
Carreira de Desenvolvimento

Semelhante a TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at - BI sobre big data - Como fazer? (20)

PPTX
Comprei um SQL Server e agora?
PPTX
Uma perspectiva histórica e o cenário atual das ferramentas de desenvolviment...
PDF
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
PDF
Expremendo performance do sql server
PDF
Conceitos DW
PDF
MySQL e Big Data
PDF
Planejamento de Capacidade Técnicas e Ferramentas
PPT
Introduction to the Cloud
PDF
Como Implementar a Análise de Dados em Tempo Real
PDF
BigQuery Performance Improvements Storage API
PPTX
Flavio Roberto: Monitorando Serviços e Negócios
PPTX
Aula 1 semana
PDF
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
PPTX
Monitorando Bancos Oracle - 2º ZABBIX MEETUP DO INTERIOR-SP
PPTX
Matando web forms e modernizando um grande varejista
PDF
Pangea - Plataforma digital com Google Cloud Platform
PPTX
Cenário das Plataformas de Dados 2017/2018
PPT
Tesi Dados Final
PDF
Escalando para os primeiros 10 milhoes de usuarios
PDF
Qual é o futuro da estratégia de dados?
Comprei um SQL Server e agora?
Uma perspectiva histórica e o cenário atual das ferramentas de desenvolviment...
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Expremendo performance do sql server
Conceitos DW
MySQL e Big Data
Planejamento de Capacidade Técnicas e Ferramentas
Introduction to the Cloud
Como Implementar a Análise de Dados em Tempo Real
BigQuery Performance Improvements Storage API
Flavio Roberto: Monitorando Serviços e Negócios
Aula 1 semana
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Monitorando Bancos Oracle - 2º ZABBIX MEETUP DO INTERIOR-SP
Matando web forms e modernizando um grande varejista
Pangea - Plataforma digital com Google Cloud Platform
Cenário das Plataformas de Dados 2017/2018
Tesi Dados Final
Escalando para os primeiros 10 milhoes de usuarios
Qual é o futuro da estratégia de dados?
Anúncio

Mais de tdc-globalcode (20)

PDF
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
PDF
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
PDF
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
PDF
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
PDF
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
PDF
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
PDF
TDC2019 Intel Software Day - Inferencia de IA em edge devices
PDF
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
PPT
Trilha .Net - Programacao funcional usando f#
PDF
TDC2018SP | Trilha Go - Case Easylocus
PDF
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
PDF
TDC2018SP | Trilha Go - Clean architecture em Golang
PDF
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
PDF
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
PDF
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
PDF
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
PDF
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
PDF
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
PDF
TDC2018SP | Trilha .Net - .NET funcional com F#
PDF
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade
TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...
TDC2019 Intel Software Day - ACATE - Cases de Sucesso
TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA
TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino
TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...
TDC2019 Intel Software Day - Inferencia de IA em edge devices
Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica
Trilha .Net - Programacao funcional usando f#
TDC2018SP | Trilha Go - Case Easylocus
TDC2018SP | Trilha Modern Web - Para onde caminha a Web?
TDC2018SP | Trilha Go - Clean architecture em Golang
TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA
TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia
TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service
TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET
TDC2018SP | Trilha .Net - Novidades do C# 7 e 8
TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...
TDC2018SP | Trilha .Net - .NET funcional com F#
TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core
Anúncio

Último (20)

PPTX
HISTÓRIA DO BRASIL - anos de Democracia.pptx
PPT
História e Evolução dos Computadores domésticos
PPTX
Slide_Macronutrientes e Antinutrientes da Dieta Humana.pptx
PDF
ESPELHOS DA ALMA A PSICOLOGIA POR TRÁS DOS CONTOS DE FADAS.pdf
PPTX
Aula 13 - Tópico Frasal - Argumentação.pptx
PPTX
Trabalho Cidades sustentáveis ou Utopia.pptx
PDF
FLUXOGRAMA CLASSE lll - Acesso estritamente proximal.pdf
PDF
aulademeiodetransporteemlibras-120304202807-phpapp01_removed.pdf
PDF
A relação entre funções executivas e desempenho acadêmico em crianças com Tra...
PDF
manual-orientacao-asb_5a8d6d8d87160aa636f63a5d0.pdf
PPTX
ELEMENTOS E FUNÇÕES DE LINGUAGEM (EMOTIVA, REFERENCIAL, CONATIVA, POÉTICA, FÁ...
PDF
Metabolismo_energético_3ano_pre_vest_2026.pdf
PDF
Cantores.pdf-Deslandes, Tinoco e Zambujo
PDF
Organizador Curricular da Educação em Tempo Integral.pdf
PPTX
Ciências da Natureza e suas áreas de desenvolvimento
PPTX
INDÚSTRIA_ Histórico da industrialização.pptx
PPTX
16. MODERNISMO - PRIMEIRA GERAÇÃO - EDIÇÃO 2021 (1).pptx
PPTX
Filosofia Ocidental Antiga 2025 - versão atualizada
PDF
Ementa 2 semestre PEI Orientação de estudo
PPTX
ACIDOS NUCLEICOS - REPLICAÇÃO DO DNA - E.M.
HISTÓRIA DO BRASIL - anos de Democracia.pptx
História e Evolução dos Computadores domésticos
Slide_Macronutrientes e Antinutrientes da Dieta Humana.pptx
ESPELHOS DA ALMA A PSICOLOGIA POR TRÁS DOS CONTOS DE FADAS.pdf
Aula 13 - Tópico Frasal - Argumentação.pptx
Trabalho Cidades sustentáveis ou Utopia.pptx
FLUXOGRAMA CLASSE lll - Acesso estritamente proximal.pdf
aulademeiodetransporteemlibras-120304202807-phpapp01_removed.pdf
A relação entre funções executivas e desempenho acadêmico em crianças com Tra...
manual-orientacao-asb_5a8d6d8d87160aa636f63a5d0.pdf
ELEMENTOS E FUNÇÕES DE LINGUAGEM (EMOTIVA, REFERENCIAL, CONATIVA, POÉTICA, FÁ...
Metabolismo_energético_3ano_pre_vest_2026.pdf
Cantores.pdf-Deslandes, Tinoco e Zambujo
Organizador Curricular da Educação em Tempo Integral.pdf
Ciências da Natureza e suas áreas de desenvolvimento
INDÚSTRIA_ Histórico da industrialização.pptx
16. MODERNISMO - PRIMEIRA GERAÇÃO - EDIÇÃO 2021 (1).pptx
Filosofia Ocidental Antiga 2025 - versão atualizada
Ementa 2 semestre PEI Orientação de estudo
ACIDOS NUCLEICOS - REPLICAÇÃO DO DNA - E.M.

TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at - BI sobre big data - Como fazer?

  • 1. BI Sobre Big Data – Como Fazer? Leandro Mendes Ferreira
  • 2. INTRODUÇÃO E CONTEXTUALIZAÇÃO AGENDA 01 02 03 04 O QUE NÃO FAZER O QUE FAZER COMO FAZER
  • 3. Quem sou eu? • Formado em Processamento de Dados pela FATEC Sorocaba • MBA em BI pela FIAP • Mestrando pela Politécnica - USP • Especialista em Sistemas – Big Data na everis • Trabalho com Big Data a Cerca de 3 anos • Certificado Apache Cassandra Developer
  • 4. • A everis, uma empresa do grupo NTT DATA • Atualmente tem 13.000 profissionais em 14 países Linhas de Negócios: • Consultoria de negócios • Serviços de tecnologia da informação • Outsourcing • Business Process Outsourcing (BPO) • Soluções SAP • Iniciativas & Inovação O que é a everis?
  • 5. INTRODUÇÃO E CONTEXTUALIZAÇÃO01 02 03 04 O QUE NÃO FAZER O QUE FAZER COMO FAZER
  • 6. INTRODUÇÃO É possível criar um ambiente de analytics sobre a arquitetura tradicional de BI com ferramentas de Big Data? Como fazer isso?
  • 7. Porquê BI Sobre Big Data? 1000x poder de processamento com 10% do custo Vantagens • Menor custo de ETL • Redução com custos em hardware específicos • Redução de custos com de licenciamento em visualização de dados *** • Disponibilizar informações em tempo real sem custos adicionais • Projetos de BI sobre arquitetura de Big Data são de desenvolvimento mais rápido do que em arquitetura tradicionais
  • 8. Arquitetura Padrão de Projeto de BI DATA SOURCE INTEGRAÇÃO - ETL DATA WAREHOUSE VISUALIZAÇÃO DE DADOS
  • 9. A “solução” para projetos de BI em Big Data DATA SOURCE INTEGRAÇÃO - ETL DATA WAREHOUSE VISUALIZAÇÃO DE DADOS
  • 10. Contexto através do tempo BI sobre o ecossistema de Big Data • 2014/2015 – Era necessário convencer as pessoas que não valia mais a penas usar banco de dados relacionais para fazer BI • 2017 – Estamos convencendo as pessoas a não fazerem da maneira ERRADA!
  • 11. Perguntas básicas a serem feitas Tendo em vista o início de um projeto de BI em ambiente de Big Data: • Quais ferramentas podem ser utilizados e como? • A modelagem de dados é a mesma? • Kimball e Imon ainda valem? • Fazemos a mesma ETL? • Visualizamos do mesmo jeito os dados? • Quais são a possibilidades que podemos alcançar com o novo paradigma?
  • 12. INTRODUÇÃO E CONTEXTUALIZAÇÃO01 02 03 04 O QUE NÃO FAZER O QUE FAZER COMO FAZER
  • 13. ETL Faça ingestão dos dados, não faça ETL Por que? • Complexidade de projeto • Não existe mais restrição de armazenamento de dados “no mundo ideal” • Seu cientista de dados talvez precisa dessa informação que seria deixada para trás • O cliente sempre gosta de “trazer tudo”
  • 14. Star Schema Faça ingestão dos dados, não faça ETL Por que? • Relacionamentos são custosos • Processamento é mais caro que armazenamento • Esperar um processamento é mais caro ainda • Quanto mais junções mais lento será sua consutla
  • 15. Planilhas de Excel Você já deveria não estar fazendo isso Por que? • Você já sabe o Porquê.
  • 16. Consultas Ad-hoc sobre 1 bilhão de linhas Hive/Impala não são bancos de dados. Por que? • Operações de Mapreduce são custosas • É irreal acreditar que consultas dessa magnitude serão respondidas em milesegundos
  • 17. Opinião pessoal!!!! Não use Hadoop para dados estruturados!
  • 18. INTRODUÇÃO E CONTEXTUALIZAÇÃO01 02 03 04 O QUE NÃO FAZER O QUE FAZER COMO FAZER
  • 19. Questões relevantes Tendo em vista o início de um projeto de BI em ambiente de Big Data: • Quais ferramentas podem ser utilizados e como? (ARQUITETURA) • A modelagem de dados é a mesma? (MODELAGEM) • Kimball e Imon ainda valem? • Fazemos a mesma ETL? (INTEGRAÇÃO) • Visualizamos do mesmo jeito os dados? (VISUALIZAÇÃO) • Quais são a possibilidades que podemos alcançar com o novo paradigma? (PROCESSOS)
  • 20. Data WarehouseIngestion Processing Memory Layer Data Lake Star Tables Transformation Processing Sandbox Area Dashboard Ad-Hoc Presentation Layer OLAP Uma proposta de arquitetura
  • 21. Quais ferramentas Posso Usar Integração • Flume/Sqoop • NIFI • Cask Data Application Platform (Hydrator) • KNIME Spark Executor • Streamsets
  • 22. Quais ferramentas Posso Usar Process Memory Layer Data Warehouse • Apache Drill • Apache Phonix • Apache Ignite • Impala • PrestoDB Processadores • Storm/Flink/Sanza • KafkaStream • Datatorrent • Spark
  • 23. Quais ferramentas Posso Usar Visualização • Pentho • Redash • Superset
  • 24. Data WarehouseIngestion Processing Memory Layer Data Lake Star Tables Transformation Processing Sandbox Area Dashboard Ad-Hoc Presentation Layer OLAP Uma proposta de arquitetura
  • 26. INTRODUÇÃO E CONTEXTUALIZAÇÃO01 02 03 04 O QUE NÃO FAZER O QUE FAZER COMO FAZER
  • 27. Use um NoSQL Colunar Cassandra + PrestoDB • Slow Change Dimension • Não é problema com Cassandra • Vantagens de compactação • Simplificação • Segurança http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
  • 28. Se for usar Hive Use ORC + Snappy + Transactions + Streaming Data Ingest 1. The following settings are required in hive-site.xml to enable ACID support for streaming: 2. “stored as orc” must be specified during table creation. 3. tblproperties("transactional"="true") must be set on the table during creation. 4. The Hive table must be bucketed, but not sorted. https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest
  • 29. Pense nas partições e na clusterização • Garante a distribuição dos dados • Evolui no modelo • Aumenta a performance Performance aprimorada exponencialmente só pensando nisso
  • 30. DDL (Hive e Cassandra com Cluster e Partition) CASSANDRA CREATE TABLE table_name ( dt timestamp, country text, id int, name text, PRIMARY KEY ((country, dt),id) ) WITH CLUSTERING ORDER BY (id DESC); HIVE CREATE TABLE table_name ( id int, name string ) PARTITIONED BY(dt STRING, country STRING) CLUSTERED BY (id) INTO 2 BUCKETS STORED AS ORC TBLPROPERTIES ("transactional"="true)
  • 32. Thanks, we are delighted to have the opportunity to transform with you