Desafios do Big Data
Renato Ochando
1º Hackathon Inmetrics em parceria com a FIAP
Big Data
O que é?
Teve inicio no fim dos anos 90, com as empresas de
internet tentando gerenciar volumes de informação sem
precedentes.
Big Data é um termo que descreve sistemas com alto:
• Volume de informação
• Velocidade na ingestão de informação
• Variedade de dados
Demanda formas inovadoras de processar informação, a
um custo efetivo, que possibilitem visão profunda, tomada
de decisão e automação de processos.
“Big data não trata de petabytes, mas de computação
complexa.”
Big Data
O que é?
Se você é um desenvolvedor, até agora tudo bem com os
“três V” do Big Data – código de aplicação cuida de
volume, velocidade e variedade.
... Mas se você é um cientista de dados, nada disso cuida
do significado da informação. Então, são necessários mais
“dois V”, talvez:
• Veracidade da informação
• Valor que a informação agrega ao negócio
Em 2015, 85% das organizações na lista das 500 da
Fortune não serão capazes de explorar Big Data para
vantagem competitiva.
Volume
O Volume está sempre crescendo
Possuir mais informação significa possuir melhores
modelos.
Grandes volumes de informação são, de imediato, o maior
desafio para as estruturas convencionais de TI, o que
demanda por armazenamento altamente escalável e
consultas distribuídas.
As tecnologias mais utilizadas para armazenamento e
processamento de informações são Hadoop e MapReduce.
Constantemente o volume de informação criada excede o
limite da capacidade do seu storage (abordagem
seletiva).
Velocidade
Processamento em tempo real
A primeira geração de soluções para big data eram focadas
principalmente na captura e análise de informações batch.
Fast data se concentra em reduzir o intervalo de tempo
entre dados que chegam e o valor a ser extraído desses
dados.
Equilibra vários tradeoffs para entregar:
1. Confiabilidade na ingestão de dados;
2. Flexibilidade no armazenamento e consultas;
3. Ferramentas sofisticadas para analytics.
Big data foi ontem. Fast data é agora.
Variedade
Estrutura da informação
Soluções de Big Data irão armazenar informações
estruturadas, semiestruturadas, e não estruturadas. Por
exemplo documentos de texto, multimídia, etc.
Modelar e preparar informações de diferentes fontes de
sistemas para obter “visões” tem sido, por décadas, um
trabalho demorado e tedioso.
A maioria das organizações passam de 70% à 80% do tempo
modelando, em vez de interagir com com a informação
para produzir visões de negócio.
“Variedade, e não volume, será o maior desafio de Big
Data em 2015.”
Veracidade
In Data We Trust
Refere-se à vieses, ruído e anormalidade nos dados.
A correção da informação e eliminação de ruídos deve ser
feita, de preferência, na fonte de coleta.
Assim que os usuários começam a explorar as informações,
eles se tornam verdadeiramente engajados e mais
dispostos a investir em esforços para “limpar” os dados.
Veracidade não é apenas sobre a qualidade dos dados,
mas também sobre a compreensão dos dados.
Valor
Desafio de agregar valor
Lacuna entre habilidade e tecnologia para usar a
informação.
Enquanto 75% dos líderes de negócio acreditam que estão
extraindo máximo de seus dados. Na realidade, apenas 4%,
de fato, tem colhido frutos relevantes dessas iniciativas.
De forma geral, 43% das empresas indicaram que “obtém
pequenos benefícios tangíveis das informações”, enquanto
23% afirmam que não colhem benefício algum.
A estratégia em torno da utilização dos dados é o
principal recurso para uma organização obter vantagem
competitiva nos mercados onde atua.
Desafios arquiteturais
Arquitetura Lambda
Arquitetura para processamento de dados
genérica, escalável e tolerante à falhas.
Toda informação que entra no sistema é
despachada para ambas camadas batch e
online.
Camada batch: armazena toda a informação
(imutável) e pré computa visões para a camada
de servidão.
Camada online: compensa a alta latência de
atualizações, tratando apenas de informações
recentes.
Desafios de implementação
Os desafios continuam...
Inúmeras iniciativas para o
desenvolvimento de novas soluções.
Projetos open source ainda conduzem
o desenvolvimento de big data.
Empresas que vendem soluções de big
data ainda proveem suporte e
funcionalidades proprietárias.
Open source ou solução proprietária?
Segurança
Segurança de informação
Falhas de segurança são extremamente prejudiciais para o
negócio.
Segurança em big data não é fundamentalmente diferente
de segurança para sistemas tradicionais.
Os desafios surgem devido à:
1. Complexidade do ambiente;
2. Diferentes fontes de informação (coletada, agregada e
analisada);
3. Tecnologias aplicadas para sustentar a solução.
Nenhuma corrente é mais forte que seu elo mais fraco.
Obrigado!

Mais conteúdo relacionado

PPT
Clustering
PDF
Guia sobre análise de dados e aprendizado de máquina para CIO.
PDF
Apostila sobre Big Data
ODP
Big Data - Conceitos Básicos
ODP
Palestra Introdução a Big Data
PDF
BigData, Datamining e NoSql - A Combinação Perfeita
PDF
Cloud tendências 2018
PDF
Instituto Infnet - BigData e Hadoop
Clustering
Guia sobre análise de dados e aprendizado de máquina para CIO.
Apostila sobre Big Data
Big Data - Conceitos Básicos
Palestra Introdução a Big Data
BigData, Datamining e NoSql - A Combinação Perfeita
Cloud tendências 2018
Instituto Infnet - BigData e Hadoop

Mais procurados (20)

PDF
A20 paper - perfil business intelligence - big data e fast data
PPTX
BIG data
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PDF
Gestão Ágil de Dados com Enterprise Data Fabric
PPT
O que é Data Science?
PDF
Inteligencia competitiva
PPTX
PDF
Hadoop Day - MeetUp - O poder da Informação
PPTX
BIG DATA
PDF
Big Data para Leigos
PPTX
Inteligência Artificial, Internet das Coisas e Inovação.
PDF
Virtualização de dados para Advanced Analytics e Machine Learning
PDF
Governança de Dados e Big Data
PDF
5 motivos para adotar o Event-Driven com Kafka
PPT
Big data = Oportunidades
PPTX
Data is the new oil
PDF
Big data e mineração de dados
PDF
ROI e Valor Econômico da Virtualização de Dados
PDF
Hadoop, Big Data e Cloud Computing
A20 paper - perfil business intelligence - big data e fast data
BIG data
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Gestão Ágil de Dados com Enterprise Data Fabric
O que é Data Science?
Inteligencia competitiva
Hadoop Day - MeetUp - O poder da Informação
BIG DATA
Big Data para Leigos
Inteligência Artificial, Internet das Coisas e Inovação.
Virtualização de dados para Advanced Analytics e Machine Learning
Governança de Dados e Big Data
5 motivos para adotar o Event-Driven com Kafka
Big data = Oportunidades
Data is the new oil
Big data e mineração de dados
ROI e Valor Econômico da Virtualização de Dados
Hadoop, Big Data e Cloud Computing

Destaque (7)

PPTX
Hackathon Natura Campus Media Lab - Veja como funciona e participe!
PDF
Tem uma idéia de um projeto? Desenvolva em 1 final de semana num hackathon!
PDF
Hackathon fiap condução dos dias 08 e 09 de abril - v.1 - 08042016
PDF
Hacker cidadão - divulgação
PDF
A experiência da elaboração do 1º Hackathon do Governo de Minas - Encontro Na...
PDF
Certificado de participação no Hackathon Globo 2016 - Cesar A. Nogueira
PDF
Check list hackathon - Agencia Inventtando
Hackathon Natura Campus Media Lab - Veja como funciona e participe!
Tem uma idéia de um projeto? Desenvolva em 1 final de semana num hackathon!
Hackathon fiap condução dos dias 08 e 09 de abril - v.1 - 08042016
Hacker cidadão - divulgação
A experiência da elaboração do 1º Hackathon do Governo de Minas - Encontro Na...
Certificado de participação no Hackathon Globo 2016 - Cesar A. Nogueira
Check list hackathon - Agencia Inventtando

Semelhante a Hackathon Inmetrics e Fiap: Desafios do Big Data (20)

PDF
Big Data: Desafios e Oportunidades
PDF
Data mesh-pt
PPTX
PDF
Futurecom - Big data
PDF
A20 paper - perfil business intelligence - big data e fast data
PDF
Big Data e Data Science - Tecnologia e Mercado
PDF
Wiseminer Data Blending, Data Preparation & Analytics
PDF
Seminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
PDF
Wiseminer data intelligence 2015 01
PPTX
Será Mesmo o Cientista de Dados a Profissão do Futuro?
PPTX
Big Data e Análise de Dados Massivos
PDF
Cultura de dados: por que kpis garantem a saúde do seu negócio
DOC
Artigo big data_final
PDF
Transforme Dados em Vantagem Competitiva
PDF
Qual é o futuro da estratégia de dados?
PDF
Impact of-9-cloud it-consumption-models-top-10_pt-br
PDF
Data Management: 5 tendências para alcançar a mudança
PPTX
9 motivos para aprender small data
PDF
Palestra Big Data SCTI
PPTX
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Big Data: Desafios e Oportunidades
Data mesh-pt
Futurecom - Big data
A20 paper - perfil business intelligence - big data e fast data
Big Data e Data Science - Tecnologia e Mercado
Wiseminer Data Blending, Data Preparation & Analytics
Seminário Big Data, 19/05/2014 - Apresentação Afonso Coelho
Wiseminer data intelligence 2015 01
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Big Data e Análise de Dados Massivos
Cultura de dados: por que kpis garantem a saúde do seu negócio
Artigo big data_final
Transforme Dados em Vantagem Competitiva
Qual é o futuro da estratégia de dados?
Impact of-9-cloud it-consumption-models-top-10_pt-br
Data Management: 5 tendências para alcançar a mudança
9 motivos para aprender small data
Palestra Big Data SCTI
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx

Último (19)

PDF
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
PDF
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
PPTX
Tipos de servidor em redes de computador.pptx
PDF
SEMINÁRIO DE IHC - A interface Homem-Máquina
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PDF
Banco de Dados 2atualização de Banco de d
PDF
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
PDF
Processamento da remessa no SAP ERP, SCM610 Col15
PPTX
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
PDF
Processos no SAP Extended Warehouse Management, EWM100 Col26
PDF
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
PPTX
Analise Estatica de Compiladores para criar uma nova LP
PPTX
ccursoammaiacursoammaiacursoammaia123456
PDF
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
PPT
Aula de Engenharia de Software principais caracteristicas
PDF
Jira Software projetos completos com scrum
PPT
Conceitos básicos de Redes Neurais Artificiais
PPTX
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
PPTX
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
Tipos de servidor em redes de computador.pptx
SEMINÁRIO DE IHC - A interface Homem-Máquina
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
Banco de Dados 2atualização de Banco de d
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
Processamento da remessa no SAP ERP, SCM610 Col15
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
Processos no SAP Extended Warehouse Management, EWM100 Col26
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
Analise Estatica de Compiladores para criar uma nova LP
ccursoammaiacursoammaiacursoammaia123456
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
Aula de Engenharia de Software principais caracteristicas
Jira Software projetos completos com scrum
Conceitos básicos de Redes Neurais Artificiais
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)

Hackathon Inmetrics e Fiap: Desafios do Big Data

  • 1. Desafios do Big Data Renato Ochando
  • 2. 1º Hackathon Inmetrics em parceria com a FIAP
  • 3. Big Data O que é? Teve inicio no fim dos anos 90, com as empresas de internet tentando gerenciar volumes de informação sem precedentes. Big Data é um termo que descreve sistemas com alto: • Volume de informação • Velocidade na ingestão de informação • Variedade de dados Demanda formas inovadoras de processar informação, a um custo efetivo, que possibilitem visão profunda, tomada de decisão e automação de processos. “Big data não trata de petabytes, mas de computação complexa.”
  • 4. Big Data O que é? Se você é um desenvolvedor, até agora tudo bem com os “três V” do Big Data – código de aplicação cuida de volume, velocidade e variedade. ... Mas se você é um cientista de dados, nada disso cuida do significado da informação. Então, são necessários mais “dois V”, talvez: • Veracidade da informação • Valor que a informação agrega ao negócio Em 2015, 85% das organizações na lista das 500 da Fortune não serão capazes de explorar Big Data para vantagem competitiva.
  • 5. Volume O Volume está sempre crescendo Possuir mais informação significa possuir melhores modelos. Grandes volumes de informação são, de imediato, o maior desafio para as estruturas convencionais de TI, o que demanda por armazenamento altamente escalável e consultas distribuídas. As tecnologias mais utilizadas para armazenamento e processamento de informações são Hadoop e MapReduce. Constantemente o volume de informação criada excede o limite da capacidade do seu storage (abordagem seletiva).
  • 6. Velocidade Processamento em tempo real A primeira geração de soluções para big data eram focadas principalmente na captura e análise de informações batch. Fast data se concentra em reduzir o intervalo de tempo entre dados que chegam e o valor a ser extraído desses dados. Equilibra vários tradeoffs para entregar: 1. Confiabilidade na ingestão de dados; 2. Flexibilidade no armazenamento e consultas; 3. Ferramentas sofisticadas para analytics. Big data foi ontem. Fast data é agora.
  • 7. Variedade Estrutura da informação Soluções de Big Data irão armazenar informações estruturadas, semiestruturadas, e não estruturadas. Por exemplo documentos de texto, multimídia, etc. Modelar e preparar informações de diferentes fontes de sistemas para obter “visões” tem sido, por décadas, um trabalho demorado e tedioso. A maioria das organizações passam de 70% à 80% do tempo modelando, em vez de interagir com com a informação para produzir visões de negócio. “Variedade, e não volume, será o maior desafio de Big Data em 2015.”
  • 8. Veracidade In Data We Trust Refere-se à vieses, ruído e anormalidade nos dados. A correção da informação e eliminação de ruídos deve ser feita, de preferência, na fonte de coleta. Assim que os usuários começam a explorar as informações, eles se tornam verdadeiramente engajados e mais dispostos a investir em esforços para “limpar” os dados. Veracidade não é apenas sobre a qualidade dos dados, mas também sobre a compreensão dos dados.
  • 9. Valor Desafio de agregar valor Lacuna entre habilidade e tecnologia para usar a informação. Enquanto 75% dos líderes de negócio acreditam que estão extraindo máximo de seus dados. Na realidade, apenas 4%, de fato, tem colhido frutos relevantes dessas iniciativas. De forma geral, 43% das empresas indicaram que “obtém pequenos benefícios tangíveis das informações”, enquanto 23% afirmam que não colhem benefício algum. A estratégia em torno da utilização dos dados é o principal recurso para uma organização obter vantagem competitiva nos mercados onde atua.
  • 10. Desafios arquiteturais Arquitetura Lambda Arquitetura para processamento de dados genérica, escalável e tolerante à falhas. Toda informação que entra no sistema é despachada para ambas camadas batch e online. Camada batch: armazena toda a informação (imutável) e pré computa visões para a camada de servidão. Camada online: compensa a alta latência de atualizações, tratando apenas de informações recentes.
  • 11. Desafios de implementação Os desafios continuam... Inúmeras iniciativas para o desenvolvimento de novas soluções. Projetos open source ainda conduzem o desenvolvimento de big data. Empresas que vendem soluções de big data ainda proveem suporte e funcionalidades proprietárias. Open source ou solução proprietária?
  • 12. Segurança Segurança de informação Falhas de segurança são extremamente prejudiciais para o negócio. Segurança em big data não é fundamentalmente diferente de segurança para sistemas tradicionais. Os desafios surgem devido à: 1. Complexidade do ambiente; 2. Diferentes fontes de informação (coletada, agregada e analisada); 3. Tecnologias aplicadas para sustentar a solução. Nenhuma corrente é mais forte que seu elo mais fraco.

Notas do Editor

  • #4: BigData é somente acima de 500 terabytes.
  • #5: “Analistas fazem hype; Desenvolvedores fazem software.” “O quão grande é o BigData” é uma pergunta clichê mas ajuda a colocar desenvolvedores, analistas e usuários na mesma página. Viscosidade: Termo usado para descrever a latência ou lag dos dados em relação aos eventos sendo descritos. Viralidade: Definido por alguns utilizadores, como a velocidade à qual se espalha os dados; quantas vezes ele é pego e repetido por outros usuários ou eventos.
  • #6: Map Reduce tem mais de 10 anos. A Google o aposentou em 2014. LHC produz 15 PB por segundo e armazena apenas 35 PB por ano. Yahoo possui o maior cluster hadoop com 500 PB em 40.000 servidores. Volatilidade: Por quanto tempo a informação é valida.
  • #7: Desafios de volume e performance. Tecnologias mais quentes são Kafka, Spark e Cassandra.
  • #8: Tem a ver com ingestão de informação. É um problema cada vez mais caro e difícil de combater. Existe um trabalho futuro muito forte em automação para este cenário. Não confundir com o conceito de variabilidade, que está ligado ao fluxo de informações altamente inconsistentes, com picos periódicos.
  • #9: Vieses = análises tendenciosas. Ex.: Importação de limão mexicano reduz acidentes mortais nos EUA. Quando não consegue compreender não extrai valor.
  • #10: A imagem saiu na capa do The Economist, The Data Deluge (o dilúvio de informação).
  • #13: O Incremento de componentes faz surgir o desafio.