SlideShare uma empresa Scribd logo
TRILHA BIG DATA E NOSQL
Stream de Dados em
Data Lake com
Debezium, Delta Lake e EMR
QUEM SOMOS
Cícero Moura Marco Nogueira
Engenheiro de Dados
Engenheiro de Dados
Tech Lead
Especialista em Big Data
e Machine Learning
Sprinter (DataSprints) Sprinter (DataSprints)
Graduado em Ciência
da Computação
3
Sobre o que vamos conversar?
○ Big Data e Data Lake
○ Streaming de Dados
○ Debezium
○ Spark e EMR
○ Delta Lake
○ Hands-On
4
Código fonte
do hands-on
Objetivo
5
“Integrar dados de diversas fontes relacionais em tempo real para
Big Data e possibilitar a análise dos mesmos pelo negócio”.
Big Data?
6
Data Lake
7
https://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/
“Data Lake é um repositório centralizado para dados estruturados e não
estruturados com alta escalabilidade, permitindo assim análise e
processamento dos dados”.
8
https://www.oreilly.com/library/view/data-lake-for/9781787281349/063e9f2b-c0c7-481c-b516-cf76cb9be685.xhtml
Data Lake
Arquitetura
9
Data Lake
Estrutura do Armazenamento
Streaming de Dados
10
Ferramentas
11
12
Debezium
● Ferramenta Open Source;
● Mantida pela RedHat;
● Captura eventos de logs de bancos de dados (SQL e NoSQL);
● Possui alguns plugins pagos;
● Permite integrar dados com outras fontes;
13
Debezium
“Nada mais nada menos do que o Kafka e Kafka Connect juntos”.
14
Debezium
Kafka
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01
15
Debezium
Kafka Connect
https://www.slideshare.net/ConfluentInc/apache-kafka-meetupzurichatswissrefromzerotoherowithkafkaconnect20190826v01
16
Debezium
Arquitetura
https://debezium.io/documentation/reference/1.5/architecture.html
17
Debezium
E qual a vantagem?
● Unificação entre Kafka + Kafka Connect;
● Conectores personalizados e prontos;
● Debezium vs AWS DMS?
18
Apache Spark
● Ferramenta Open-Source;
● Processamento distribuído e escalável;
● Pode ser utilizado SQL, Python, Scala, R e Java.
https://spark.apache.org/docs/latest/cluster-overview.html
19
Amazon EMR
https://aws.amazon.com/pt/emr/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
● “Execute e escale facilmente o Apache Spark, o Hive, o Presto e outras
ferramentas de big data”.
● Ferramenta gerenciada da AWS;
20
Delta Lake
● Framework para Spark;
● Proprietário da Data Bricks e versão Community;
● Formato de armazenamento aberto para dados;
● Trabalha com Batch e Streaming de Dados;
● Trabalha em todas as camadas de uma Data Lake.
https://databricks.com/product/delta-lake-on-databricks
21
● Transações ACID;
● Unificação de dados de Streaming e Batch;
● Evolução e adaptação de schemas de dados;
● Operações de UPSERT;
● Segurança, confiabilidade e escalabilidade.
https://docs.delta.io/latest/quick-start.html
Delta Lake
Caracteristicas
22
https://docs.delta.io
Apache Spark
Arquitetura
Cases Reais
23
24
Case com Debezium
Delhivery
Empresa Indiana
https://debezium.io/blog/2020/02/25/lessons-learned-running-debezium-with-postgresql-on-rds/
25
https://developer.nvidia.com/blog/merging-telemetry-and-logs-from-microservices-at-scale-with-apache-spark/
Case com Delta Lake
NVidia
Hands-on
26
27
Código fonte
do hands-on
Código Completo da Talk
28
código fonte
do hands-on
29
● Em um ambiente produtivo o Banco de dados pode apresentar erros;
● Utilizar todas as configurações necessárias do Debezium;
● Não deixar replication slots inativos;
Lições Aprendidas
cicerojmm
/in/cicero-moura
@cicerojmm
cicerojmm
Cícero Moura Marco Nogueira
marcaoandradenogueira
/in/marco-antônio-andrad
e-nogueira-48b856129/
Marcaoandradenogueira
Obrigado pela presença!

Mais conteúdo relacionado

PDF
Introduction to Azure Data Lake
PDF
Databricks Delta Lake and Its Benefits
PPTX
Azure datafactory
PPTX
Apache NiFi in the Hadoop Ecosystem
PDF
The Google File System (GFS)
PDF
Delta from a Data Engineer's Perspective
PPTX
End-to-end Data Governance with Apache Avro and Atlas
PDF
Data Security at Scale through Spark and Parquet Encryption
Introduction to Azure Data Lake
Databricks Delta Lake and Its Benefits
Azure datafactory
Apache NiFi in the Hadoop Ecosystem
The Google File System (GFS)
Delta from a Data Engineer's Perspective
End-to-end Data Governance with Apache Avro and Atlas
Data Security at Scale through Spark and Parquet Encryption

Mais procurados (20)

PPTX
Kafka 101
PDF
20명 규모의 팀에서 Vault 사용하기
PDF
Arbitrary Stateful Aggregations using Structured Streaming in Apache Spark
PDF
Azure+Databricks+Course+Slide+Deck+V4.pdf
PDF
Streaming Data Lakes using Kafka Connect + Apache Hudi | Vinoth Chandar, Apac...
PPTX
Snowflake Automated Deployments / CI/CD Pipelines
PDF
Azure Event Hubs - Behind the Scenes With Kasun Indrasiri | Current 2022
PPTX
Azure Data Factory Data Flow
PPTX
Building Reliable Lakehouses with Apache Flink and Delta Lake
PPTX
Apache Ranger
PDF
Data ingestion and distribution with apache NiFi
PPTX
OpenStack Glance
PDF
Write Faster SQL with Trino.pdf
PPTX
Azure Data Factory ETL Patterns in the Cloud
PPTX
Gcp dataflow
PDF
디지털 해적들로부터 영상 콘텐츠 보호하기 – 황윤상 AWS 솔루션즈 아키텍트, 김준호 잉카엔트웍스 매니저:: AWS Cloud Week ...
PDF
Kafka and Storm - event processing in realtime
PDF
Introduction to Apache Flink
PDF
Deploying Flink on Kubernetes - David Anderson
PDF
CDC Stream Processing with Apache Flink
Kafka 101
20명 규모의 팀에서 Vault 사용하기
Arbitrary Stateful Aggregations using Structured Streaming in Apache Spark
Azure+Databricks+Course+Slide+Deck+V4.pdf
Streaming Data Lakes using Kafka Connect + Apache Hudi | Vinoth Chandar, Apac...
Snowflake Automated Deployments / CI/CD Pipelines
Azure Event Hubs - Behind the Scenes With Kasun Indrasiri | Current 2022
Azure Data Factory Data Flow
Building Reliable Lakehouses with Apache Flink and Delta Lake
Apache Ranger
Data ingestion and distribution with apache NiFi
OpenStack Glance
Write Faster SQL with Trino.pdf
Azure Data Factory ETL Patterns in the Cloud
Gcp dataflow
디지털 해적들로부터 영상 콘텐츠 보호하기 – 황윤상 AWS 솔루션즈 아키텍트, 김준호 잉카엔트웍스 매니저:: AWS Cloud Week ...
Kafka and Storm - event processing in realtime
Introduction to Apache Flink
Deploying Flink on Kubernetes - David Anderson
CDC Stream Processing with Apache Flink
Anúncio

Semelhante a Stream de dados e Data Lake com Debezium, Delta Lake e EMR (20)

PDF
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
TDC2016SP - Trilha BigData
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PPTX
GS1-Data_Archtecture v2.pptx
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PPTX
AWS Initiate - Construindo Data Lakes e Analytics com AWS
PDF
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
PDF
Data Lakes com Hadoop e Spark: Agile Analytics na prática
PDF
Qcon Rio 2015 - Data Lakes Workshop
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
PDF
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
PPTX
SQL SAT Salvador - Arquitetando Data Lake Multicloud
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
PDF
Ferramentas e Aplicações em Big Data
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
Pentaho Hadoop Big Data e Data Lakes
TDC2016SP - Trilha BigData
Pentaho, Hadoop , Big Data e Data Lakes
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
GS1-Data_Archtecture v2.pptx
Cientista de Dados – Dominando o Big Data com Software Livre
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Qcon Rio 2015 - Data Lakes Workshop
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
SQL SAT Salvador - Arquitetando Data Lake Multicloud
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
TDC2017 - Misturando dados com Pentaho para insights mais significativos
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Ferramentas e Aplicações em Big Data
Anúncio

Mais de Cicero Joasyo Mateus de Moura (17)

PDF
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
PDF
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
PDF
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
PDF
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
PDF
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
PDF
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
PDF
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
PDF
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
PDF
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
PDF
Big Data na prática: como construir um Data Lake para análise de dados
PDF
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
PDF
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
PDF
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
PDF
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
PDF
Joincommunity - Goiânia 2018
PDF
IoT: construindo ideias com nodeMCU e MQTT
PDF
PHP: Como não programar em POG
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data na prática: como construir um Data Lake para análise de dados
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
IoT e TA: Soluções Com Potencial Para Melhorar a Vida das Pessoas
Joincommunity - Goiânia 2018
IoT: construindo ideias com nodeMCU e MQTT
PHP: Como não programar em POG

Último (8)

PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PDF
Manejo integrado de pragas na cultura do algodão
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PPTX
Arquitetura de computadores - Memórias Secundárias
PPTX
Mecânico de Manutenção de Equipamentos.pptx
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Manejo integrado de pragas na cultura do algodão
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Viasol Energia Solar -Soluções para geração e economia de energia
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Arquitetura de computadores - Memórias Secundárias
Mecânico de Manutenção de Equipamentos.pptx

Stream de dados e Data Lake com Debezium, Delta Lake e EMR