SlideShare uma empresa Scribd logo
AEL
Adaptive Execution Layer
on Spark Cluster with
Pentaho Data Integration
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
Prof. MBA Universidade Positivo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-cv
●
17 anos de experiência em informática, vivência em desenvolvimento e análise de
sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: FISL, LATINOWARE,Campus Party, Pentaho Day,
TDC e agora Ticnova :)
●
Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014.
●
CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
●
Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na
IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura,
Embraer entre outras.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho - Hitachi Vantara
●
Plataforma abrangente para integração de dados e Business
Analytics. 3 Pilares do Pentaho
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho Data Integration - PDI
Data Integration
• Pentaho Data Integration (PDI, também chamado Kettle) é um componente da
suíte do Pentaho responsável pelos processos de Extração, Transformação e
Carga (ETL).
ETL
• ETL - Extract, transform, load.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Pentaho Data Integration - Funcionalidades
Funcionalidades Tradicionais
• Usadas em projetos de data warehouse
Funcionalidades Adicionais
• Migração de dados entre aplicações/banco de dados
• Exportar dados de banco de dados para arquivos texto
• Carregar massivamente dados em banco de dados
• Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse
• Integração de aplicações.
• Gerenciamento de Filesystem ( File management )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que é uma Transformação?
Definição
• Rotina com coleção de passos interligados
• Os primeiros são a fonte de dados.
• O último representa a saída de dados.
• Pode ser colocadas varias fontes de dados e saídas ou entrada
• É recomendado 1 transformação para cada dimensão ou tabela fato
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que são Steps?
Definição de Steps
• Um passo é uma unidade mínima dentro de uma transformação.
• Grande variedade de passos
• Agrupada em categorias ( input , Output, etc )
• Os tipos básicos são :
Entrada, Transformação, Saída.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O que são Hops?
Definição
• Representação gráfica do fluxo de dados entre dois passos (conexão)
• Um deles Origem e outro Destino.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
O que são Jobs?
Definição
• É uma rotina de execução
• Pode executar uma ou mais transformações
• Utilizado para cargas de tabelas fatos
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
A História de um Pedro!
●
Pedro queria trabalhar com TI mas
ainda não tem uma especialidade.
●
Pedro “ama dados”
●
Pedro é muito estudioso!
●
Pedro é “brasileiro e não desiste
nunca”!!!
●
Pedro leu que Data Scientist e um dos
cargos mais “Sexys do Mundo”
Pedro
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
A História do Matt!
●
Matt trabalha com dados a 20 anos
●
Matt desenvolve open sources e
software livres.
●
Matt tem diversos apoiadores em seus
projetos que colaboram com ideia,
revisões, documentações, e melhorias.
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pedro e Matt!
●
Pedro conheceu matt de um blog
●
Pedro se inspira em Matt e tenta
aprender sobre tudo que Matt fala
em seu blog...
●
Mas Matt não está sozinho...
Pedro
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pedro e Matt!
●
Matt está usando Hadoop
MapReduce e Programando em
Java, Pig, manipulando com Hive
Matt
● Pedro compra tudo sobre
Java Mapreduce e Hadoop e
começa a estudar
Pedro
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Pedro e Matt!
●
Hadoop Mapreduce 100% mais
lendo que Spark Java verboso...
●
Agora e Spark e Scala!!! diz Matt
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Pedro e Matt!
●
Streaming, Real Time, Kafka, Nifi,
Cloud, ORC, parquet, Apex, Flume,
Knox, Tez, Deap Learning..
●
Matt esta postando muito muito
mesmo em 2016...
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Pedro e Matt!
●
Matt apresenta a stack de Big
Data, Data Science 2017
Matt
Pedro
●
Pedro entra na Faculdade de
Administração!
●
Biblioteca da cidade do Pedro
recebe a maior doação de
Livros da sua história
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Pedro e Matt!
●
Matt perde seu mais fiel seguidor
●
E não deu tempo de avisar que Spark já não e
mais tendência e agora e Apache Flink e ele
poderia reusar o conhecimento de Java e
Scala...
●
E surge uma ideia!
●
Porque não encapsular seus conhecimento em
um “framework” de trabalho que caso a
tecnologia mude possamos manter os mesmos
processo de trabalho com uma curva baixa de
implementação e aprendizado, alias o que o
Pedro gosta e dos dados!
Matt
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Pentaho Data Integration - PDI
●
Processa em Paralelo Cluster Apache Spark
●
Acessar dados diretamente (DW opcional)
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dashboards com uso integrado do Pentaho Server.
●
“Programação e Fluxo Visual” com aproximadamente 350
steps/funções diferentes + plugins
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Modos de Execução do PDI
●
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Quem é o Apache Spark?
●
É um Mecanismo de análise unificada para processamento de
dados em larga escala.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Evolução do Apache Spark
●
Hoje podemos processar dados executando comando “SQL” no
Spark, mas nem sempre foi assim!
●
Cada vez mais conceitos estão sendo “encapsulados” e ficando
mais faceis para os desenvolvedores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Como usamos Spark Tradicionalmente
●
Carregamos datasets do HDFS, Hive, Cassandra, Hbase,
Streaming, etc.
●
Criamos RDDs e DataFrames.
●
Processamos os Dados usando SparkSQL, Dataframes, Maps,
Reduces, etc
●
Os resultados gerar novos dados (Dataframes , RDDs etc)
●
E segue o pipeline de processamento…
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
AEL - Adaptive Execution Layer
●
O Pentaho usa a AEL) para executar transformações em
diferentes mecanismos.
●
Adapta etapas da transformação que você desenvolveu no PDI
para operadores nativos no mecanismo selecionado para seu
ambiente (Spark, Hadoop, Flink).
●
O motor de Spark é mais adequado para a execução de grandes
transformações de dados em um cluster Hadoop (Hoje!).
●
Selecionando o mecanismo Spark para executar sua
transformação, a AEL compara as etapas de sua transformação
aos operadores nativos do Spark.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
AEL - Adaptive Execution Layer
●
Exemplo: se sua transformação contiver uma etapa de Entrada
de Arquivo do Hadoop, a AEL usará um operador Spark
equivalente.
●
A AEL cria uma definição de transformação para o Spark, que
move a execução diretamente para o cluster, aproveitando a
capacidade do Spark de coordenar uma grande quantidade de
dados em vários nós.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
AEL – A ideia original
●
Começamos por Driver PDI para Spark a partir
de uma instância PDI, ponto de partida
importante porque usando esta metodologia
garantimos que qualquer plug-in que
tenhamos desenvolvido / instalado funcionará
quando executarmos a transformação
(extensibilidade do Pentaho).
●
O driver é instalado em um “edge node” do
cluster responsável pela execução da
transformação. Ao usar a spark, aproveitamos
todas as suas características, podenddo
executar standalone ou yarn mode/ cluster
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
AEL
●
Disponível no Pentaho deste Maio/2017 – já estamos na segunda
onda de melhorias ( agora Streaming, Kafka, etc) .
●
Enviei 4 vezes a proposta disso a 3 eventos diferentes, nunca
ninguém entendeu a proposta da AEL!
●
“Obrigado TDC Florianópolis” e os coodenadores por me
entenderem
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Spark - RDD
●
O Spark trabalha com datasets chamado RDD
●
Uma transformação (não é o mesmo que uma transformação PDI)
descreve como produzir um novo RDD de um anterior:
●
Uma ação executa um conjunto de transformações para produzir
um resultado.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Spark - RDD
●
O executor é o “trabalhador” no Spark
●
Um RDD representa um dataset inteiro, que é dividido em partitions
●
As divisões de arquivos do Hadoop geralmente definem o
particionamento para RDD baseado em arquivo.
●
Dados paralelizados pelo Spark Driver são divididos entre os
executores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Spark - Tasks
●
Representa a execução de transformações do Spark em uma partição
de dados
●
Cores especificam o número máximo de tarefas simultâneas a serem
executadas
●
Efetivamente, o número máximo de threads de processamento por
executor
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
AEL – Arquitetura – Visão Geral
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Spark – Directed Acyclic Graph (DAG)
●
Dirigido = Arestas podem ser percorridos em uma única direção
●
Acíclico = Não há ciclos no grafos (você não pode visitar novamente
um vértice)
●
Grafos = Coleção de Vértices e Arestas
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Transformações PDI como Spark DAGs
●
Cada step executada como uma ou mais transformações do Spark
●
A maioria dos steps são executados como transformações Spark
- Utiliza o método processRow() do Kettle StepInterface
- O mecanismo do PDI não executada no contexto do Spark, e sim
como PMR (Pentaho MapReduce)
- Muitas implementações processRow() existentes podem ser
executadas em paralelo
RDD’ = RDD.mapPartitions( processRow() )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Exemplo
●
Hadoop File Input = Built-in Spark Input (Partitions data)
●
Calculator = Generic Kettle Step (Partitioned)
●
Sort rows = Built-in Spark Sort
●
Hadoop File Output = Built-in Spark Output
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
AEL – Kettle Engine
●
Cada step é executado dentro de uma thread
- As threads chamam um metodo chamado processRow()
●
Ao executar, as linhas são roteadas pela transformação
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
AEL – Kettle Engine - Paralelismo
●
Podemos configurar o numero de copias para inicialização
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Querys simples e implementação fácil
●
Cloudera usa Hive on Spark com Hive2
●
Hortonworks use SparkSQL via Simba
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Steps que não tem paralelização
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Dataset Coalescing
Coalesce(1)●
A operação de Coalescing
pode ser usada para mesclar
as partições de um RDD
●
Alguns ids de etapa são
definidos na lista
forceCoalesceSteps
●
Configurável em
org.pentaho.pdi.engine.spark
.cfg
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
AEL – Arquitetura e Tecnologias
●
Implementação em Spark
●
O que é o Daemon?
- Servidor web Lightweight
Spring Boot
- Orquestra as transformações
em execução
●
O que temos do Daemon?
●
- Karaf / OSGi
- Spark Modes
- Rede DMZ
- Menos configurações para
o desenvolvedor do PDI
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Websockets (JSR 356)
●
Uso de padrões
●
comunicação de 2 vias
●
Interface e API orientada para anotações
●
Mensagens leves
●
Protegido pelo Spring Security (JAAS / Kerberos)
●
Pode ser balanceado a carga
●
Expansível para futuros recursos
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Segurança
●
SSL(SecureSockets Layer)
- Criptografar dados enviados pela rede
●
Kerberos
- Mecanismo de autenticação
- Alavancar o KDC (Key Distribution Center) existente
- Servidor Spoon / Pentaho para Daemon & Daemon -> Spark
●
Proxy User
- Usado quando conectado ao servidor Pentaho
- Permite um usuário Pentaho executar jobs como esse usuário.
●
Configuração simplificada
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Compatibilidade e Suporte da AEL (Pentaho 8.0)
●
Cloudera version 5.10 ou superior
●
Hortonworks 2.5 ou superior
●
MapR Spark 2.1
●
Ou seu Cluster 100% Apache!
●
Spark Client 2x.
●
Microsoft Azure HD Insights shim
●
Ranger support
●
Kerberos Impersonation (Hortonworks) – Somente na EE
●
Spark Streaming
●
Kafka
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Machine Learning e Data Science
inclusive R, Python, WEKA com Spark
●
Automação e orquestração do fluxo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Orquestraçao total com Pentaho
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Resumo AEL
●
Pentaho Data Integration
Hadoop
Map Reduce
E Java
Apache Spark e
Scala,Python,Java
Apache Flink
Java e Scala
Quem
é o próximo?
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Setup AEL
●
Step-by-Step
https://help.pentaho.com/Documentation/8.0/Setup/Configuration/Adaptive_Execution_Layer
●
Download Pentaho Data Integration
https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/client-tools/
●
Download Apache Spark
http://spark.apache.org/downloads.html
●
Download Pentaho Shmis
https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/shims/
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Referências
●
Pentaho World 2017
- Dev-by-Dev: PDI Engine and Adaptive Execution, Under the Hood
- Design Patterns Leveraging Spark in PDI
- Parallelism with the PDI AEL Spark Engine
●
Blog Pedro Alves -
http://pedroalves-bi.blogspot.com.br/2017/05/pentaho-7.1.html
●
Pentaho Day 2017.
Pentaho 7, Visão e Roadmap
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
https://www.linkedin.com/in/mvieira1/
Slide da Palestra será publicada em:
Linkedin….: https://www.linkedin.com/in/mvieira1/
SlideShare: http://slideshare.net/ambientelivre/
Blog……...: http://blogs.ambientelivre.com.br/marcio/
- Pedro está feliz de novo!
- E voltou a seguir Matt!
- É usuário Pentaho fiel!
- Pedro e um Data Scientist

Mais conteúdo relacionado

PDF
Apache Flink a Quarta Geração do Big Data
PDF
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
PDF
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
PDF
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Pentaho, Hadoop , Big Data e Data Lakes
Apache Flink a Quarta Geração do Big Data
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Pentaho, Hadoop , Big Data e Data Lakes

Mais procurados (18)

ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
PDF
Data Science - A arte de estudar e analisar dados
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PPT
BIGDATA: Da teoria à Pratica
PDF
Treinamento hadoop - dia1
PDF
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
PDF
Negócios em FLOSS
PDF
Treinamento hadoop - dia3
PDF
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
PPTX
Arquitetura para solução Big Data – open source
PDF
Treinamento hadoop - dia4
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
PDF
Treinamento Hadoop - dia2
PPTX
Hadoop - Mãos à massa! Qcon2014
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Data Science - A arte de estudar e analisar dados
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
BIGDATA: Da teoria à Pratica
Treinamento hadoop - dia1
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
Negócios em FLOSS
Treinamento hadoop - dia3
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
Arquitetura para solução Big Data – open source
Treinamento hadoop - dia4
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Treinamento Hadoop - dia2
Hadoop - Mãos à massa! Qcon2014
Anúncio

Semelhante a AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration (20)

PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
TDC2016SP - Trilha BigData
PDF
Pentaho data integration
PDF
Data Lakes com Hadoop e Spark: Agile Analytics na prática
PDF
Qcon Rio 2015 - Data Lakes Workshop
PPTX
GS1-Data_Archtecture v2.pptx
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
PDF
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
PDF
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PDF
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
PDF
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
PPTX
SQL SAT Salvador - Arquitetando Data Lake Multicloud
PPTX
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
PPTX
AWS Initiate - Construindo Data Lakes e Analytics com AWS
PDF
[DEVFEST] Apache Spark Casos de Uso e Escalabilidade
PDF
Apache Spark: Casos de uso e escalabilidade
PPTX
Desbravando o Azure Data Factory - The Developers
Pentaho Hadoop Big Data e Data Lakes
TDC2016SP - Trilha BigData
Pentaho data integration
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Qcon Rio 2015 - Data Lakes Workshop
GS1-Data_Archtecture v2.pptx
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration (Kettle) Integração e Migração de Dados com ETL Open...
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
SQL SAT Salvador - Arquitetando Data Lake Multicloud
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
AWS Initiate - Construindo Data Lakes e Analytics com AWS
[DEVFEST] Apache Spark Casos de Uso e Escalabilidade
Apache Spark: Casos de uso e escalabilidade
Desbravando o Azure Data Factory - The Developers
Anúncio

Mais de Ambiente Livre (15)

PDF
Metodologia Hacker de Ensino na Ambiente Livre
PDF
Integrando o Drupal com o ECM Alfresco usando CMIS
PDF
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
PDF
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
PDF
Carreira Profissional e Certificação de um Analista de BI Pentaho
PDF
Suporte a Geo-Mapping no Pentaho Report
PDF
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
PDF
Big Data, o que é isso?
PDF
Moodle - Sistema de Gestão da Aprendizagem Open Source
PDF
Programação de Macros com LibreOffice Basic
PDF
Apresentação Executiva do Iguana BI for SugarCRM
PDF
Criando e consumindo webservice REST com PHP e JSON
PDF
Desenvolvendo Produtos sobre a Plataforma Pentaho
PDF
Gerenciamento de Projetos com dotProject
PDF
Customizando uma plataforma de CRM Open Source - SugarCRM
Metodologia Hacker de Ensino na Ambiente Livre
Integrando o Drupal com o ECM Alfresco usando CMIS
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
Carreira Profissional e Certificação de um Analista de BI Pentaho
Suporte a Geo-Mapping no Pentaho Report
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Big Data, o que é isso?
Moodle - Sistema de Gestão da Aprendizagem Open Source
Programação de Macros com LibreOffice Basic
Apresentação Executiva do Iguana BI for SugarCRM
Criando e consumindo webservice REST com PHP e JSON
Desenvolvendo Produtos sobre a Plataforma Pentaho
Gerenciamento de Projetos com dotProject
Customizando uma plataforma de CRM Open Source - SugarCRM

Último (20)

PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PPTX
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
PPTX
Émile Durkheim slide elaborado muito bom
PDF
Apple Pippin Uma breve introdução. - David Glotz
PPTX
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Aula sobre desenvolvimento de aplicativos
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PPTX
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx
PPTX
Aula sobre banco de dados com firebase db
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
Émile Durkheim slide elaborado muito bom
Apple Pippin Uma breve introdução. - David Glotz
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
Custos e liquidação no SAP Transportation Management, TM130 Col18
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
COBITxITIL-Entenda as diferença em uso governança TI
Aula sobre desenvolvimento de aplicativos
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx
Aula sobre banco de dados com firebase db

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration

  • 1. AEL Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  • 2. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-cv ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: FISL, LATINOWARE,Campus Party, Pentaho Day, TDC e agora Ticnova :) ● Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014. ● CEO da Ambiente Livre, Prof de MBA em Big Data da Univ. Positivo. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas. ● Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura, Embraer entre outras.
  • 3. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  • 5. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho Data Integration - PDI Data Integration • Pentaho Data Integration (PDI, também chamado Kettle) é um componente da suíte do Pentaho responsável pelos processos de Extração, Transformação e Carga (ETL). ETL • ETL - Extract, transform, load.
  • 6. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Pentaho Data Integration - Funcionalidades Funcionalidades Tradicionais • Usadas em projetos de data warehouse Funcionalidades Adicionais • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para arquivos texto • Carregar massivamente dados em banco de dados • Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse • Integração de aplicações. • Gerenciamento de Filesystem ( File management )
  • 7. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que é uma Transformação? Definição • Rotina com coleção de passos interligados • Os primeiros são a fonte de dados. • O último representa a saída de dados. • Pode ser colocadas varias fontes de dados e saídas ou entrada • É recomendado 1 transformação para cada dimensão ou tabela fato
  • 8. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que são Steps? Definição de Steps • Um passo é uma unidade mínima dentro de uma transformação. • Grande variedade de passos • Agrupada em categorias ( input , Output, etc ) • Os tipos básicos são : Entrada, Transformação, Saída.
  • 9. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O que são Hops? Definição • Representação gráfica do fluxo de dados entre dois passos (conexão) • Um deles Origem e outro Destino.
  • 10. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 O que são Jobs? Definição • É uma rotina de execução • Pode executar uma ou mais transformações • Utilizado para cargas de tabelas fatos
  • 11. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 A História de um Pedro! ● Pedro queria trabalhar com TI mas ainda não tem uma especialidade. ● Pedro “ama dados” ● Pedro é muito estudioso! ● Pedro é “brasileiro e não desiste nunca”!!! ● Pedro leu que Data Scientist e um dos cargos mais “Sexys do Mundo” Pedro
  • 12. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 A História do Matt! ● Matt trabalha com dados a 20 anos ● Matt desenvolve open sources e software livres. ● Matt tem diversos apoiadores em seus projetos que colaboram com ideia, revisões, documentações, e melhorias. Matt
  • 13. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pedro e Matt! ● Pedro conheceu matt de um blog ● Pedro se inspira em Matt e tenta aprender sobre tudo que Matt fala em seu blog... ● Mas Matt não está sozinho... Pedro Matt
  • 14. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pedro e Matt! ● Matt está usando Hadoop MapReduce e Programando em Java, Pig, manipulando com Hive Matt ● Pedro compra tudo sobre Java Mapreduce e Hadoop e começa a estudar Pedro
  • 15. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pedro e Matt! ● Hadoop Mapreduce 100% mais lendo que Spark Java verboso... ● Agora e Spark e Scala!!! diz Matt Matt
  • 16. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Pedro e Matt! ● Streaming, Real Time, Kafka, Nifi, Cloud, ORC, parquet, Apex, Flume, Knox, Tez, Deap Learning.. ● Matt esta postando muito muito mesmo em 2016... Matt
  • 17. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Pedro e Matt! ● Matt apresenta a stack de Big Data, Data Science 2017 Matt Pedro ● Pedro entra na Faculdade de Administração! ● Biblioteca da cidade do Pedro recebe a maior doação de Livros da sua história
  • 18. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Pedro e Matt! ● Matt perde seu mais fiel seguidor ● E não deu tempo de avisar que Spark já não e mais tendência e agora e Apache Flink e ele poderia reusar o conhecimento de Java e Scala... ● E surge uma ideia! ● Porque não encapsular seus conhecimento em um “framework” de trabalho que caso a tecnologia mude possamos manter os mesmos processo de trabalho com uma curva baixa de implementação e aprendizado, alias o que o Pedro gosta e dos dados! Matt
  • 19. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Pentaho Data Integration - PDI ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (DW opcional) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dashboards com uso integrado do Pentaho Server. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes + plugins
  • 20. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Modos de Execução do PDI ●
  • 21. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Quem é o Apache Spark? ● É um Mecanismo de análise unificada para processamento de dados em larga escala.
  • 22. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Evolução do Apache Spark ● Hoje podemos processar dados executando comando “SQL” no Spark, mas nem sempre foi assim! ● Cada vez mais conceitos estão sendo “encapsulados” e ficando mais faceis para os desenvolvedores
  • 23. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Como usamos Spark Tradicionalmente ● Carregamos datasets do HDFS, Hive, Cassandra, Hbase, Streaming, etc. ● Criamos RDDs e DataFrames. ● Processamos os Dados usando SparkSQL, Dataframes, Maps, Reduces, etc ● Os resultados gerar novos dados (Dataframes , RDDs etc) ● E segue o pipeline de processamento…
  • 24. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 AEL - Adaptive Execution Layer ● O Pentaho usa a AEL) para executar transformações em diferentes mecanismos. ● Adapta etapas da transformação que você desenvolveu no PDI para operadores nativos no mecanismo selecionado para seu ambiente (Spark, Hadoop, Flink). ● O motor de Spark é mais adequado para a execução de grandes transformações de dados em um cluster Hadoop (Hoje!). ● Selecionando o mecanismo Spark para executar sua transformação, a AEL compara as etapas de sua transformação aos operadores nativos do Spark.
  • 25. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 AEL - Adaptive Execution Layer ● Exemplo: se sua transformação contiver uma etapa de Entrada de Arquivo do Hadoop, a AEL usará um operador Spark equivalente. ● A AEL cria uma definição de transformação para o Spark, que move a execução diretamente para o cluster, aproveitando a capacidade do Spark de coordenar uma grande quantidade de dados em vários nós.
  • 26. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 AEL – A ideia original ● Começamos por Driver PDI para Spark a partir de uma instância PDI, ponto de partida importante porque usando esta metodologia garantimos que qualquer plug-in que tenhamos desenvolvido / instalado funcionará quando executarmos a transformação (extensibilidade do Pentaho). ● O driver é instalado em um “edge node” do cluster responsável pela execução da transformação. Ao usar a spark, aproveitamos todas as suas características, podenddo executar standalone ou yarn mode/ cluster
  • 27. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 AEL ● Disponível no Pentaho deste Maio/2017 – já estamos na segunda onda de melhorias ( agora Streaming, Kafka, etc) . ● Enviei 4 vezes a proposta disso a 3 eventos diferentes, nunca ninguém entendeu a proposta da AEL! ● “Obrigado TDC Florianópolis” e os coodenadores por me entenderem
  • 28. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Spark - RDD ● O Spark trabalha com datasets chamado RDD ● Uma transformação (não é o mesmo que uma transformação PDI) descreve como produzir um novo RDD de um anterior: ● Uma ação executa um conjunto de transformações para produzir um resultado.
  • 29. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Spark - RDD ● O executor é o “trabalhador” no Spark ● Um RDD representa um dataset inteiro, que é dividido em partitions ● As divisões de arquivos do Hadoop geralmente definem o particionamento para RDD baseado em arquivo. ● Dados paralelizados pelo Spark Driver são divididos entre os executores
  • 30. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Spark - Tasks ● Representa a execução de transformações do Spark em uma partição de dados ● Cores especificam o número máximo de tarefas simultâneas a serem executadas ● Efetivamente, o número máximo de threads de processamento por executor
  • 31. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 AEL – Arquitetura – Visão Geral
  • 32. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Spark – Directed Acyclic Graph (DAG) ● Dirigido = Arestas podem ser percorridos em uma única direção ● Acíclico = Não há ciclos no grafos (você não pode visitar novamente um vértice) ● Grafos = Coleção de Vértices e Arestas
  • 33. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Transformações PDI como Spark DAGs ● Cada step executada como uma ou mais transformações do Spark ● A maioria dos steps são executados como transformações Spark - Utiliza o método processRow() do Kettle StepInterface - O mecanismo do PDI não executada no contexto do Spark, e sim como PMR (Pentaho MapReduce) - Muitas implementações processRow() existentes podem ser executadas em paralelo RDD’ = RDD.mapPartitions( processRow() )
  • 34. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Exemplo ● Hadoop File Input = Built-in Spark Input (Partitions data) ● Calculator = Generic Kettle Step (Partitioned) ● Sort rows = Built-in Spark Sort ● Hadoop File Output = Built-in Spark Output
  • 35. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 AEL – Kettle Engine ● Cada step é executado dentro de uma thread - As threads chamam um metodo chamado processRow() ● Ao executar, as linhas são roteadas pela transformação
  • 36. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 AEL – Kettle Engine - Paralelismo ● Podemos configurar o numero de copias para inicialização
  • 37. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Querys simples e implementação fácil ● Cloudera usa Hive on Spark com Hive2 ● Hortonworks use SparkSQL via Simba
  • 38. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Steps que não tem paralelização
  • 39. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Dataset Coalescing Coalesce(1)● A operação de Coalescing pode ser usada para mesclar as partições de um RDD ● Alguns ids de etapa são definidos na lista forceCoalesceSteps ● Configurável em org.pentaho.pdi.engine.spark .cfg
  • 40. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 AEL – Arquitetura e Tecnologias ● Implementação em Spark ● O que é o Daemon? - Servidor web Lightweight Spring Boot - Orquestra as transformações em execução ● O que temos do Daemon? ● - Karaf / OSGi - Spark Modes - Rede DMZ - Menos configurações para o desenvolvedor do PDI
  • 41. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Websockets (JSR 356) ● Uso de padrões ● comunicação de 2 vias ● Interface e API orientada para anotações ● Mensagens leves ● Protegido pelo Spring Security (JAAS / Kerberos) ● Pode ser balanceado a carga ● Expansível para futuros recursos
  • 42. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Segurança ● SSL(SecureSockets Layer) - Criptografar dados enviados pela rede ● Kerberos - Mecanismo de autenticação - Alavancar o KDC (Key Distribution Center) existente - Servidor Spoon / Pentaho para Daemon & Daemon -> Spark ● Proxy User - Usado quando conectado ao servidor Pentaho - Permite um usuário Pentaho executar jobs como esse usuário. ● Configuração simplificada
  • 43. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Compatibilidade e Suporte da AEL (Pentaho 8.0) ● Cloudera version 5.10 ou superior ● Hortonworks 2.5 ou superior ● MapR Spark 2.1 ● Ou seu Cluster 100% Apache! ● Spark Client 2x. ● Microsoft Azure HD Insights shim ● Ranger support ● Kerberos Impersonation (Hortonworks) – Somente na EE ● Spark Streaming ● Kafka
  • 44. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Machine Learning e Data Science inclusive R, Python, WEKA com Spark ● Automação e orquestração do fluxo
  • 45. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Orquestraçao total com Pentaho
  • 46. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Resumo AEL ● Pentaho Data Integration Hadoop Map Reduce E Java Apache Spark e Scala,Python,Java Apache Flink Java e Scala Quem é o próximo?
  • 47. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Setup AEL ● Step-by-Step https://help.pentaho.com/Documentation/8.0/Setup/Configuration/Adaptive_Execution_Layer ● Download Pentaho Data Integration https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/client-tools/ ● Download Apache Spark http://spark.apache.org/downloads.html ● Download Pentaho Shmis https://sourceforge.net/projects/pentaho/files/Pentaho%208.0/shims/
  • 48. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Referências ● Pentaho World 2017 - Dev-by-Dev: PDI Engine and Adaptive Execution, Under the Hood - Design Patterns Leveraging Spark in PDI - Parallelism with the PDI AEL Spark Engine ● Blog Pedro Alves - http://pedroalves-bi.blogspot.com.br/2017/05/pentaho-7.1.html ● Pentaho Day 2017. Pentaho 7, Visão e Roadmap
  • 49. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/ - Pedro está feliz de novo! - E voltou a seguir Matt! - É usuário Pentaho fiel! - Pedro e um Data Scientist