SlideShare uma empresa Scribd logo
Know your data. Get inspired!
Práticas DevOps aplicadas
a Big Data
Quem somos?
Alexandre Cardoso
• Cientista da Computação, pós-graduado em Big Data
• +20 anos fazendo software
• Últimos 7 anos dedicados ao Big Data
• CEO & founder da Datenworks
Gustavo Biondo
• Engenheiro da Computação
• +5 anos de xp Cloud e DevOps
• 6 meses focado em Big Data
• Líder de Operações e Sócio da Datenworks
Agenda
● Arquiteturas de Big Data
○ Organização para reutilização
○ Terraform & Terragrunt
● Acelerando o Time to Market
○ CI/CD para Big Data
● Monitoramento
○ Centralização de Logs & Métricas
○ Dashboards
○ Alarmes
Big Data – Do que estamos falando?
5 V's do
Big Data
VOLUME
VARIEDADE
VERACIDADE
VALOR
VELOCIDADE
● [Muitos] terabytes
● Transações
● Tabelas
● Arquivos
● Estruturado
● Não-estruturado
● Multi-fator
● Probabilístico
● Fidedigno
● Autêntico
● Disponível
● Não-repúdio
● Verificável
● Estatística
● Insights
● Correlações
● Hipóteses
● Batch
● Near/realtime
● Processos
● Streaming
Big Data em (alguns) números - 2020
➔ $189,1 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2019 [1]
➔ Em 2020, teremos gerado aproximadamente 40 trilhões de gigabytes de dados [2]
➔ $274.3 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2022 [1]
➔ Usuários na internet deverão gerar aproximadamente 2.5 quintilhões de bytes todos os dias [2]
➔ Usando Big Data, Netflix economiza $1 bilhão por ano em retenção de clientes [1]
➔ 8-10% de aumento no lucro em negócios que utilizam Big Data [1]
[1] https://financesonline.com/big-data-statistics
[2] https://techjury.net/blog/big-data-statistics
Como erguer um Big Data?
Data Sources
Fault Tolerance / Elasticity / High Availability
Metadata Data Quality Data Catalog Security
Ingestion Tier
[Near] Real-time
Batch
Data Tier
Raw Data Refined Data
Trusted Data
Processing Analysis
Ad-hoc query
API calls
Visualization
Events
Knowledge Tier Consumers
BI Tools
People
Companies &
Partners
Qual é o desafio?
➔ Implantação manual? Sem chance!
➔ Como garantir estado
(esperado/realizado)?
➔ Gerenciar configuração em escala?
➔ Implantar continuamente com
confiança e sem regressão?
➔ Como monitorar e "dormir em paz"?
➔ Como medir e antecipar problemas?
Terraform & Terragrunt
● Infraestrutura como código
● HCL
● Diminuir a repetição de código
● Organização e padronização
Modelo de 3 camadas
1ª Camada - Modules
Glue_catalog Kinesis_firehose Lambda
2ª Camada - Blueprints
3ª Camada - Environments
Terraform & Terragrunt
● Garante stacks 100% idênticas
● Ajuda no versionamento dos ambientes
● Replicação ágil de ambientes
Como integrar tudo isso no CI/CD?
Como integrar tudo isso no CI/CD?
● Vários players para execução
● Arquivos de configuração simples
● Free Tiers <3
Como integrar tudo isso no CI/CD?
Environments (camada 3)
E o Monitoramento?
Usuários & Aplicações
Processos
OS
Load Balancer
Batch job App Server Web Server
Database Services
CPU Memory Disk Network
Sistema de
Monitoramento
UI
Estrutura Monolítica
E o Monitoramento?
Estrutura Distribuída / Assíncrona?
Database
CDC engine
Queue
ETL process
Object store
Massive Parallel
Processing Lakehouse
Visualization
😱
Afinal, o que é "monitorar"?
➔ Monitorar
◆ Coletar, processar, agregar e exibir dados quantitativos e descritivos sobre um sistema e seu
comportamento
➔ Caixa-branca
◆ Obter dados a partir dos internals de um determinado sistema ou componente, como logs,
métricas JMX, memory dump, etc.
➔ Caixa-preta
◆ Observar e analisar o comportamento de um sistema do ponto de vista do usuário, a partir de
indicadores mensuráveis (tempo de resposta, taxa de erros, etc)
➔ Dashboard
◆ Um painel para acompanhamento visual de indicadores principais de um sistema/aplicação
Como centralizar e analisar tudo isso?
● Bom e velho ELK!!
● Beats vs Logstash
● Serviços coletando métricas/logs de serviços
[AWS] - Logs
[AWS] - Metrics
Open Distro <3
● Monitors & Triggers
● Notifications
● Dashboards
Alarms
Notificações
Quer entender um pouco mais dessa stack?
https://datenworks.com/blog
OBRIGADO!

Mais conteúdo relacionado

PDF
Machine learning as a microservice in python, gRPC and docker
PDF
Infraestrutura como código Terraform aws openshift Ansible
PDF
Big Data como Serviço: da captura à visualização de dados com alto desempenho
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Continuous Deployment e DevOps na Nuvem
PDF
Treinamento hadoop - dia3
PDF
MIT DevOps IaC - Infra como Código
PDF
Apertem os cintos - o servidor caiu
Machine learning as a microservice in python, gRPC and docker
Infraestrutura como código Terraform aws openshift Ansible
Big Data como Serviço: da captura à visualização de dados com alto desempenho
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Continuous Deployment e DevOps na Nuvem
Treinamento hadoop - dia3
MIT DevOps IaC - Infra como Código
Apertem os cintos - o servidor caiu

Semelhante a Dev Parana - Praticas Devops aplicadas a Big Data (20)

PDF
DevOps II - Ambientes padronizados e Monitoramento da Aplicação | Monografia II
PDF
Data Management: 5 tendências para alcançar a mudança
PDF
DevOps I - Ambientes padronizados e Monitoramento da Aplicação | Monografia I
PPTX
Os benefícios de migrar seus workloads de Big Data para a AWS
PDF
Apresentando o OpsWorks - Bemobi
PPTX
PDF
Construindo Datalakes Agnósticos de Baixo Custo com Hadoop e Outras Tecnologias
PDF
Pentaho Hadoop Big Data e Data Lakes
PPTX
Vamos falar de DevOps?
PDF
Keynote AWS Roadshow Campinas 2013
PDF
DevOps Primeiros Passos
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PDF
Keynote AWS RoadShow Belo Horizonte 2013
PDF
Palestra Big Data SCTI
PDF
[DTC21] Thiago Lima - Do Zero ao 100 no Mundo de Microservices
PDF
Monografia-Devops
PDF
DevOps, por onde começar
PPTX
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
PDF
Infraestrutura Ágil
PPTX
Aula BigData.pptx
DevOps II - Ambientes padronizados e Monitoramento da Aplicação | Monografia II
Data Management: 5 tendências para alcançar a mudança
DevOps I - Ambientes padronizados e Monitoramento da Aplicação | Monografia I
Os benefícios de migrar seus workloads de Big Data para a AWS
Apresentando o OpsWorks - Bemobi
Construindo Datalakes Agnósticos de Baixo Custo com Hadoop e Outras Tecnologias
Pentaho Hadoop Big Data e Data Lakes
Vamos falar de DevOps?
Keynote AWS Roadshow Campinas 2013
DevOps Primeiros Passos
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Keynote AWS RoadShow Belo Horizonte 2013
Palestra Big Data SCTI
[DTC21] Thiago Lima - Do Zero ao 100 no Mundo de Microservices
Monografia-Devops
DevOps, por onde começar
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
Infraestrutura Ágil
Aula BigData.pptx
Anúncio

Último (19)

PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Apple Pippin Uma breve introdução. - David Glotz
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PDF
Aula04-Academia Heri- Tecnologia Geral 2025
PPTX
Aula 18 - Manipulacao De Arquivos python
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Processos na gestão de transportes, TM100 Col18
Apple Pippin Uma breve introdução. - David Glotz
COBITxITIL-Entenda as diferença em uso governança TI
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Custos e liquidação no SAP Transportation Management, TM130 Col18
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Aula04-Academia Heri- Tecnologia Geral 2025
Aula 18 - Manipulacao De Arquivos python
Anúncio

Dev Parana - Praticas Devops aplicadas a Big Data

  • 1. Know your data. Get inspired! Práticas DevOps aplicadas a Big Data
  • 2. Quem somos? Alexandre Cardoso • Cientista da Computação, pós-graduado em Big Data • +20 anos fazendo software • Últimos 7 anos dedicados ao Big Data • CEO & founder da Datenworks Gustavo Biondo • Engenheiro da Computação • +5 anos de xp Cloud e DevOps • 6 meses focado em Big Data • Líder de Operações e Sócio da Datenworks
  • 3. Agenda ● Arquiteturas de Big Data ○ Organização para reutilização ○ Terraform & Terragrunt ● Acelerando o Time to Market ○ CI/CD para Big Data ● Monitoramento ○ Centralização de Logs & Métricas ○ Dashboards ○ Alarmes
  • 4. Big Data – Do que estamos falando? 5 V's do Big Data VOLUME VARIEDADE VERACIDADE VALOR VELOCIDADE ● [Muitos] terabytes ● Transações ● Tabelas ● Arquivos ● Estruturado ● Não-estruturado ● Multi-fator ● Probabilístico ● Fidedigno ● Autêntico ● Disponível ● Não-repúdio ● Verificável ● Estatística ● Insights ● Correlações ● Hipóteses ● Batch ● Near/realtime ● Processos ● Streaming
  • 5. Big Data em (alguns) números - 2020 ➔ $189,1 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2019 [1] ➔ Em 2020, teremos gerado aproximadamente 40 trilhões de gigabytes de dados [2] ➔ $274.3 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2022 [1] ➔ Usuários na internet deverão gerar aproximadamente 2.5 quintilhões de bytes todos os dias [2] ➔ Usando Big Data, Netflix economiza $1 bilhão por ano em retenção de clientes [1] ➔ 8-10% de aumento no lucro em negócios que utilizam Big Data [1] [1] https://financesonline.com/big-data-statistics [2] https://techjury.net/blog/big-data-statistics
  • 6. Como erguer um Big Data? Data Sources Fault Tolerance / Elasticity / High Availability Metadata Data Quality Data Catalog Security Ingestion Tier [Near] Real-time Batch Data Tier Raw Data Refined Data Trusted Data Processing Analysis Ad-hoc query API calls Visualization Events Knowledge Tier Consumers BI Tools People Companies & Partners
  • 7. Qual é o desafio? ➔ Implantação manual? Sem chance! ➔ Como garantir estado (esperado/realizado)? ➔ Gerenciar configuração em escala? ➔ Implantar continuamente com confiança e sem regressão? ➔ Como monitorar e "dormir em paz"? ➔ Como medir e antecipar problemas?
  • 8. Terraform & Terragrunt ● Infraestrutura como código ● HCL ● Diminuir a repetição de código ● Organização e padronização
  • 9. Modelo de 3 camadas
  • 10. 1ª Camada - Modules Glue_catalog Kinesis_firehose Lambda
  • 11. 2ª Camada - Blueprints
  • 12. 3ª Camada - Environments
  • 13. Terraform & Terragrunt ● Garante stacks 100% idênticas ● Ajuda no versionamento dos ambientes ● Replicação ágil de ambientes
  • 14. Como integrar tudo isso no CI/CD?
  • 15. Como integrar tudo isso no CI/CD? ● Vários players para execução ● Arquivos de configuração simples ● Free Tiers <3
  • 16. Como integrar tudo isso no CI/CD? Environments (camada 3)
  • 17. E o Monitoramento? Usuários & Aplicações Processos OS Load Balancer Batch job App Server Web Server Database Services CPU Memory Disk Network Sistema de Monitoramento UI Estrutura Monolítica
  • 18. E o Monitoramento? Estrutura Distribuída / Assíncrona? Database CDC engine Queue ETL process Object store Massive Parallel Processing Lakehouse Visualization 😱
  • 19. Afinal, o que é "monitorar"? ➔ Monitorar ◆ Coletar, processar, agregar e exibir dados quantitativos e descritivos sobre um sistema e seu comportamento ➔ Caixa-branca ◆ Obter dados a partir dos internals de um determinado sistema ou componente, como logs, métricas JMX, memory dump, etc. ➔ Caixa-preta ◆ Observar e analisar o comportamento de um sistema do ponto de vista do usuário, a partir de indicadores mensuráveis (tempo de resposta, taxa de erros, etc) ➔ Dashboard ◆ Um painel para acompanhamento visual de indicadores principais de um sistema/aplicação
  • 20. Como centralizar e analisar tudo isso? ● Bom e velho ELK!! ● Beats vs Logstash ● Serviços coletando métricas/logs de serviços
  • 23. Open Distro <3 ● Monitors & Triggers ● Notifications ● Dashboards
  • 26. Quer entender um pouco mais dessa stack? https://datenworks.com/blog