SlideShare uma empresa Scribd logo
Cientista de Dados – Dominando o Big Data
com Software Livre
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
   
Ecosistema da Ambiente
Livre
   
Colaborações com Eventos
   
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
 2013 na apresentação do Papa Francisco
   
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Big Data
   
Os 4 V's
● Velocidade, Volume, Variedade e Valor
   
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
   
Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados
   
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
   
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
   
O novo V: Veracidade
Veracidade refere-se a confiabilidade dos dados. Com muitas
formas de grandes qualidades e precisão dos dados são menos
controláveis (basta pensar em posts no Twitter com hash tags,
abreviações, erros de digitação e linguagem coloquial, bem como
a confiabilidade e a precisão do conteúdo), mas agora a
tecnologia permite-nos trabalhar com este tipo de dados .
   
O momento é agora
   
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
   
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
   
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
   
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
   
Data Lake
   
Cases
   
O Profissional
“data scientist”
Novo profissional: Cientista de Dados
   
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
   
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
Tendências
   
Tendências
Citizen Data Scientist
   
De onde ?
   
Ferramentas de Big Data
Software Livre
Muitos das melhores e mais 
conhecidas ferramentas de 
dados disponíveis são 
grandes projetos de código 
aberto. O  mais conhecido 
deles é o Hadoop, o que 
está gerando toda uma 
indústria de serviços e 
produtos relacionados. 
   
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
   
Motivações Atuais -
Hadoop
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
Ecosistema - Hadoop
   
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
   
Características do HDFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
● Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.
   Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
   
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
   
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
   
Programação Distribuída
   
MapReduce
Map Reduce
   
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
   
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
   
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
   
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
   
ZooKeeper
● Serviço de coordenação altamente disponível
e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a
construção de aplicações distribuídas.
   
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
   
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
●
   
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
   
Apache Hama
● Apache HamaTM é uma estrutura para análise de
Big Data, que usa o modelo de computação
paralela Synchronous Parallel (BSP), que foi
criada em 2012 como um projeto de nível superior
da Apache Software Foundation.
● Ele fornece não só modelo de programação BSP
pura, mas também vértice
e neurônio modelos de
programação centrada, inspirado
por Pregel e DistBelief do Google.
   
Apacha CounchDB
● É um banco de dados de código-aberto
que foca na facilidade de uso e na filosofia
de ser "um banco de dados que abrange a Web"
● NoSQL, usa JSON para armazenar os dados,
● JavaScript como sua linguagem de consulta usando o
MapReduce, e HTTP como API1 .
● Facilidade na replicação.
● Cada banco de dados é uma coleção de documentos
independentes, e cada documento mantém seus
próprios dados e esquemas.
   
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
   
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
   
Neo4J
● É um banco de dados gráfico open-source,
implementado em Java. Integrado, totalmente
com transacional e persistência Java.
Armazena dados estruturados de grafos ao
invés de tabelas.
● Neo4j é o banco de dados gráfico mais
popular.
   
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
Sparkl
● CTools e Pentaho Data Integration (PDI)
● Desenvolve frontend comk CTools
● Implementamos backend com PDI
   
   
   
Modelo tradicional de Uso
   
Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay
   
Big Data no Brasil e com
Hadoop
   
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”
   
Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Mais conteúdo relacionado

PDF
[AKIBA.AWS] NLBとPrivateLinkの仕様に立ち向かう
PDF
Best-Practices-for-Using-Tableau-With-Snowflake.pdf
PPTX
Query formulation process
DOCX
Acronyms of service now
PDF
M04_失敗しないための Azure Virtual Desktop 設計ガイド
PDF
Data Mesh for Dinner
PPTX
Top Three Big Data Governance Issues and How Apache ATLAS resolves it for the...
PDF
What's New in Apache Hive
[AKIBA.AWS] NLBとPrivateLinkの仕様に立ち向かう
Best-Practices-for-Using-Tableau-With-Snowflake.pdf
Query formulation process
Acronyms of service now
M04_失敗しないための Azure Virtual Desktop 設計ガイド
Data Mesh for Dinner
Top Three Big Data Governance Issues and How Apache ATLAS resolves it for the...
What's New in Apache Hive

Mais procurados (20)

PPTX
Aula 9 banco de dados
PDF
Reading The Source Code of Presto
PDF
Delta from a Data Engineer's Perspective
PDF
JSON Data Parsing in Snowflake (By Faysal Shaarani)
DOCX
Criação de uma base de dados para gestão de uma biblioteca
PDF
Smartsheet’s Transition to Snowflake and Databricks: The Why and Immediate Im...
PDF
AWS初心者向けWebinar これで完璧、AWSの運用監視
PPTX
Dspace
PPTX
Starburst Presto - CBO talk - Strata London 2019
PDF
ビッグデータ処理データベースの全体像と使い分け
PDF
Solrで日本語全文検索システムの構築と応用
PDF
AWS サーバーレス開発用ローカルシミュレータを作った話
PDF
Best Practices for Running PostgreSQL on AWS
PDF
Delivery of books and news paper act 1954
PPTX
Metadata
PPT
Fusion Middleware Oracle Data Integrator
PDF
Case Studies A Kubernetes DFIR investigation.pdf
PPTX
Data Lakehouse, Data Mesh, and Data Fabric (r2)
PPTX
Integrated library management system.ppt
PPTX
What it takes to run Hadoop at Scale: Yahoo! Perspectives
Aula 9 banco de dados
Reading The Source Code of Presto
Delta from a Data Engineer's Perspective
JSON Data Parsing in Snowflake (By Faysal Shaarani)
Criação de uma base de dados para gestão de uma biblioteca
Smartsheet’s Transition to Snowflake and Databricks: The Why and Immediate Im...
AWS初心者向けWebinar これで完璧、AWSの運用監視
Dspace
Starburst Presto - CBO talk - Strata London 2019
ビッグデータ処理データベースの全体像と使い分け
Solrで日本語全文検索システムの構築と応用
AWS サーバーレス開発用ローカルシミュレータを作った話
Best Practices for Running PostgreSQL on AWS
Delivery of books and news paper act 1954
Metadata
Fusion Middleware Oracle Data Integrator
Case Studies A Kubernetes DFIR investigation.pdf
Data Lakehouse, Data Mesh, and Data Fabric (r2)
Integrated library management system.ppt
What it takes to run Hadoop at Scale: Yahoo! Perspectives
Anúncio

Destaque (20)

PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
KEY
Programacao Funcional Em Ruby
PDF
Orientação a objetos na prática
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
PPT
Automatizacao de tarefas
PDF
Calc avancado
PPT
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
PDF
Programacao de macros_com_libre_office_basic_slideshare
PDF
Boas Práticas de Design em Aplicações Ruby on Rails
KEY
Pentaho
PDF
Programação de Macros com LibreOffice Basic
PDF
MongoDB e Bancos de Dados Orientados a Documentos
PPT
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
ODP
NoSQL: onde, como e por quê? Cassandra e MongoDB
ODP
Palestra Introdução a Big Data
PDF
Big Data - O que é o hadoop, map reduce, hdfs e hive
PPTX
OS CINCO Vs DO BIG DATA
PPT
Big Data
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Programacao Funcional Em Ruby
Orientação a objetos na prática
Pentaho, Hadoop , Big Data e Data Lakes
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
Automatizacao de tarefas
Calc avancado
Unidade 7 - Estruturando Banco de Dados com o BR Office Base
Programacao de macros_com_libre_office_basic_slideshare
Boas Práticas de Design em Aplicações Ruby on Rails
Pentaho
Programação de Macros com LibreOffice Basic
MongoDB e Bancos de Dados Orientados a Documentos
Unidade 7 - Estruturando Banco de Dados com o BR Office Base - parte 2
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
NoSQL: onde, como e por quê? Cassandra e MongoDB
Palestra Introdução a Big Data
Big Data - O que é o hadoop, map reduce, hdfs e hive
OS CINCO Vs DO BIG DATA
Big Data
Anúncio

Semelhante a Cientista de Dados – Dominando o Big Data com Software Livre (20)

PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Treinamento hadoop - dia4
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
PPTX
Big Data, JVM e Redes Sociais
PDF
Big Data Open Source com Hadoop
PDF
Interoperabilidade com BigData Hadoop para Windows Azure
PDF
A importância do ecossistema Java em aplicações baseadas em Big Data
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Pentaho Hadoop Big Data e Data Lakes
PPTX
Big data e ecossistema hadoop
PDF
TDC2016SP - Trilha BigData
PDF
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
PDF
Treinamento hadoop - dia3
PDF
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
PDF
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Treinamento hadoop - dia4
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
Big Data, JVM e Redes Sociais
Big Data Open Source com Hadoop
Interoperabilidade com BigData Hadoop para Windows Azure
A importância do ecossistema Java em aplicações baseadas em Big Data
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Pentaho Hadoop Big Data e Data Lakes
Big data e ecossistema hadoop
TDC2016SP - Trilha BigData
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
TDC2017 - Misturando dados com Pentaho para insights mais significativos
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
Treinamento hadoop - dia3
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem

Mais de Ambiente Livre (20)

PDF
Apache Flink a Quarta Geração do Big Data
PDF
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
PDF
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
PDF
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
PDF
Metodologia Hacker de Ensino na Ambiente Livre
PDF
Integrando o Drupal com o ECM Alfresco usando CMIS
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
PDF
Carreira Profissional e Certificação de um Analista de BI Pentaho
PDF
Suporte a Geo-Mapping no Pentaho Report
PDF
Negócios em FLOSS
PDF
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
PDF
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
PDF
Big Data, o que é isso?
PDF
Moodle - Sistema de Gestão da Aprendizagem Open Source
PDF
Apresentação Executiva do Iguana BI for SugarCRM
PDF
Criando e consumindo webservice REST com PHP e JSON
PDF
Desenvolvendo Produtos sobre a Plataforma Pentaho
PDF
Gerenciamento de Projetos com dotProject
Apache Flink a Quarta Geração do Big Data
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
Metodologia Hacker de Ensino na Ambiente Livre
Integrando o Drupal com o ECM Alfresco usando CMIS
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
Carreira Profissional e Certificação de um Analista de BI Pentaho
Suporte a Geo-Mapping no Pentaho Report
Negócios em FLOSS
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Big Data, o que é isso?
Moodle - Sistema de Gestão da Aprendizagem Open Source
Apresentação Executiva do Iguana BI for SugarCRM
Criando e consumindo webservice REST com PHP e JSON
Desenvolvendo Produtos sobre a Plataforma Pentaho
Gerenciamento de Projetos com dotProject

Último (20)

PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
PPTX
Aula sobre banco de dados com firebase db
PPTX
Aula 18 - Manipulacao De Arquivos python
PDF
Apple Pippin Uma breve introdução. - David Glotz
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PPTX
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PPTX
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PPTX
Aula sobre desenvolvimento de aplicativos
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Curso de Java 11 - (Serializable (Serialização de Objetos)).pptx
Aula sobre banco de dados com firebase db
Aula 18 - Manipulacao De Arquivos python
Apple Pippin Uma breve introdução. - David Glotz
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Custos e liquidação no SAP Transportation Management, TM130 Col18
Curso de Java 16 - (JEE (Utilizando o Padrão MVC)).pptx
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
COBITxITIL-Entenda as diferença em uso governança TI
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
Aula sobre desenvolvimento de aplicativos
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...

Cientista de Dados – Dominando o Big Data com Software Livre

  • 1. Cientista de Dados – Dominando o Big Data com Software Livre Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Big Data - Hadoop e Pentaho
  • 3.     Ecosistema da Ambiente Livre
  • 5.     Big Data - Muito se fala...
  • 9.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 11.     Os 4 V's ● Velocidade, Volume, Variedade e Valor
  • 12.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 13.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 14.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 15.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 16.     O novo V: Veracidade Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .
  • 17.     O momento é agora
  • 18.     Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 19.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  • 20.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 21.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 24.     O Profissional “data scientist” Novo profissional: Cientista de Dados
  • 25.     Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  • 26.     Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 33.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 34.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  • 35.     Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  • 36.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é lider e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 38.     O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  • 39.     Características do HDFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade ● Projetado para escalar a petabytes de armazenamento, executa em cima dos sistemas de arquivos do sistema operacional subjacente.
  • 41.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 42.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  • 45.     HBase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
  • 46.     Hive ● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  • 47.     PIG ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
  • 48.     Mahout ● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes ● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem ● Diversidade de algorítimos
  • 49.     ZooKeeper ● Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas.
  • 50.     Sqoop ● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.
  • 51.     Apache Spark ● 100x mais rápido que Hadoop ● Programação com Scala, Java, Python ou R ●
  • 52.     Apache Cassandra ● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. ● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.
  • 53.     Apache Hama ● Apache HamaTM é uma estrutura para análise de Big Data, que usa o modelo de computação paralela Synchronous Parallel (BSP), que foi criada em 2012 como um projeto de nível superior da Apache Software Foundation. ● Ele fornece não só modelo de programação BSP pura, mas também vértice e neurônio modelos de programação centrada, inspirado por Pregel e DistBelief do Google.
  • 54.     Apacha CounchDB ● É um banco de dados de código-aberto que foca na facilidade de uso e na filosofia de ser "um banco de dados que abrange a Web" ● NoSQL, usa JSON para armazenar os dados, ● JavaScript como sua linguagem de consulta usando o MapReduce, e HTTP como API1 . ● Facilidade na replicação. ● Cada banco de dados é uma coleção de documentos independentes, e cada documento mantém seus próprios dados e esquemas.
  • 55.     MongoDB ● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON
  • 56.     Titan Grafh ● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina. ● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real. ● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)
  • 57.     Neo4J ● É um banco de dados gráfico open-source, implementado em Java. Integrado, totalmente com transacional e persistência Java. Armazena dados estruturados de grafos ao invés de tabelas. ● Neo4j é o banco de dados gráfico mais popular.
  • 58.     ● Solução de BI Open Source. ● Community Edition ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 60.     Pentaho Data Integration
  • 61.     Sparkl ● CTools e Pentaho Data Integration (PDI) ● Desenvolve frontend comk CTools ● Implementamos backend com PDI
  • 62.    
  • 63.    
  • 65.     Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  • 66.     Big Data no Brasil e com Hadoop
  • 67.     Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 68.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 69.     Big Data ● “Big Data hoje é o que era a Linux em 1991. ● Sabemos que será algo revolucionário, mas não sabemos o quanto...”
  • 70.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre