SlideShare uma empresa Scribd logo
Implementação de Data Lakes
Luiz Henrique Zambom Santana, D.Sc.
INE | CTC
Motivação
Imagine que uma empresa já possui um DW mas um produto novo
gerou um aumento de 100x no volume de dados e os relatórios
estão ficando muito lentos e caros. Além disso, foi criada uma
área de Data Science que deve gerar insights contínuos para as
equipes comerciais. A gestão decidiu que irá construir um DL
para substituir o DW.
Quais cuidados devemos ter ao
migrar de um DW para um DL?
UFSC - Data Lakes Technlogies & Implementation - 2025
UFSC - Data Lakes Technlogies & Implementation - 2025
Quais problemas podem
aparecer com essa mudança
de paradigma?
UFSC - Data Lakes Technlogies & Implementation - 2025
UFSC - Data Lakes Technlogies & Implementation - 2025
● Data lake
○ Dados normalmente armazenados em arquivos (Avro,
Parquet, JSON, etc)
○ Conjunto de camadas para facilitar a manipulação
○ Funcionalidades como time travel
● Existem produtos que apoiam essa criação:
○ Apache Hudi
○ Apache Iceberg
○ Delta Lake (Databricks)
○ Snowflake
Implementação
Apache Hudi (ELT)
Apache Hudi (Storage Layer)
Apache Hudi - Time travel
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
Apache Parquet
UFSC - Data Lakes Technlogies & Implementation - 2025
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
https://medium.com/snowflake/understanding-iceberg-table-metadata-b1209fbcc7c3
UFSC - Data Lakes Technlogies & Implementation - 2025
UFSC - Data Lakes Technlogies & Implementation - 2025
UFSC - Data Lakes Technlogies & Implementation - 2025
UFSC - Data Lakes Technlogies & Implementation - 2025
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
https://www.linkedin.com/pulse/lake
house-convergence-data-warehous
ing-science-dr-mahendra
Exemplo prático
https://colab.research.google.com/d
rive/1jZuD5sRYvO5uJz0hgXqx2Pd
EMHNM4fr6?usp=sharing
Imagine um sistema de vendas que registra novas transações e
atualizações diárias. Podemos criar um data lake que use o
Apache Hudi, que possibilite versionamento e consultas
incrementais.
UFSC - Data Lakes Technlogies & Implementation - 2025
Obrigado!

Mais conteúdo relacionado

PDF
Federal University of Santa Catarina (UFSC) - PySpark Tutorial
PDF
Perspectives on the use of data in Agriculture - Luiz Santana - Leaf Agricult...
PDF
Apache Sedona: how to process petabytes of agronomic data with Spark
PDF
De Arquiteto para Gerente: como debugar uma equipe
PDF
VoltDB: as vantagens e os desafios dos banco de dados NewSQL
PDF
IBM Watson, Apache Spark ou TensorFlow?
PDF
Uma visão sobre Fast-Data: Spark, VoltDB e Elasticsearch
PPTX
Banco de dados nas nuvens - aula 3
Federal University of Santa Catarina (UFSC) - PySpark Tutorial
Perspectives on the use of data in Agriculture - Luiz Santana - Leaf Agricult...
Apache Sedona: how to process petabytes of agronomic data with Spark
De Arquiteto para Gerente: como debugar uma equipe
VoltDB: as vantagens e os desafios dos banco de dados NewSQL
IBM Watson, Apache Spark ou TensorFlow?
Uma visão sobre Fast-Data: Spark, VoltDB e Elasticsearch
Banco de dados nas nuvens - aula 3

Mais de Luiz Henrique Zambom Santana (20)

PPTX
Banco de dados nas nuvens - aula 2
PPTX
Banco de dados nas nuvens - aula 1
PDF
Workload-Aware RDF Partitioning and SPARQL Query Caching for Massive RDF Gra...
PPTX
A middleware for storing massive RDF graphs into NoSQL
PDF
A Workload-Aware Middleware for Storing Massive RDF Graphs into NoSQL Databases
PDF
PDF
Consultas básicas em SQL
PDF
Processamento em Big Data
PPTX
Seminário de Andamento de Doutorado
PPTX
Como modelar, integrar e desenvolver aplicações com múltiplos bancos de dados...
PDF
Workshop de ELK - EmergiNet
PPTX
Novidades do elasticsearch 2.0 e como usá-lo com PHP
PDF
Design of Experiments on Federator Polystore Architecture
PPTX
An Approach for RDF-based Semantic Access to NoSQL Repositories
PPTX
Survey on NoSQL integration
PPT
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
PPTX
Elasticsearch como gerenciar seus logs com logstash e kibana
PDF
Exploiting the query structure for efficient join ordering in SPARQL queries
PPTX
Banco de dados nas nuvens - aula 2
Banco de dados nas nuvens - aula 1
Workload-Aware RDF Partitioning and SPARQL Query Caching for Massive RDF Gra...
A middleware for storing massive RDF graphs into NoSQL
A Workload-Aware Middleware for Storing Massive RDF Graphs into NoSQL Databases
Consultas básicas em SQL
Processamento em Big Data
Seminário de Andamento de Doutorado
Como modelar, integrar e desenvolver aplicações com múltiplos bancos de dados...
Workshop de ELK - EmergiNet
Novidades do elasticsearch 2.0 e como usá-lo com PHP
Design of Experiments on Federator Polystore Architecture
An Approach for RDF-based Semantic Access to NoSQL Repositories
Survey on NoSQL integration
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Elasticsearch como gerenciar seus logs com logstash e kibana
Exploiting the query structure for efficient join ordering in SPARQL queries
Anúncio

Último (11)

PPTX
Utilizando code blockes por andre backes
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PPTX
Mecânico de Manutenção de Equipamentos.pptx
PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PPTX
Arquitetura de computadores - Memórias Secundárias
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Manejo integrado de pragas na cultura do algodão
PDF
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
PPTX
Eng. Software - pontos essenciais para o início
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Utilizando code blockes por andre backes
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Mecânico de Manutenção de Equipamentos.pptx
Viasol Energia Solar -Soluções para geração e economia de energia
Arquitetura de computadores - Memórias Secundárias
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Manejo integrado de pragas na cultura do algodão
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
Eng. Software - pontos essenciais para o início
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Anúncio

UFSC - Data Lakes Technlogies & Implementation - 2025