SlideShare uma empresa Scribd logo
PostgreSQL
em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
   
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador e CEO da Ambiente Livre Tecnologia.
● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
   
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em
consultoria com software livre.
● 2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
● Tem 14 soluções distintas para geração de
negócios com software livre.
   
Ecosistema da Ambiente
Livre
   
Alguns clientes
   
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
 2013 na apresentação do Papa Francisco
   
   
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
   
Elementos do IOT
● Rede de sensores sem fio (RSSF);
● Radio Frequency Identification (RFID);
● Gateway;
● Banco de dados;
● Protocolos de rede;
● Gerência de processos;
● Gerência de rede.
   
Evolução das Coisas
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Big Data
   
Os 4 V's
● Velocidade, Volume, Variedade e Valor
   
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
   
Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados
   
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
   
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
   
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
   
Onde usar Big Data ?
● Sistemas de
recomendação
● Redes Sociais
   
Onde usar Big Data ?
● Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
● Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
● Energia Fotovoltaica
(Medições , Estudos,
Resultados )
   
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
   
Ferramentas de Big Data
   
Ecosistema - Hadoop
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- Hortonworks
- MapR
- Diversas plataformas de Hadoop em Cloud
   
O Profissional
“Data Scientist”
Novo profissional: Cientista de Dados
   
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
● Estima-se que apenas um terço disso será preenchido.
( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
● As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
   
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
Data LakeData Lake
   
Data Lake
● Fonte única
● Grande Volume
● Não Refinado
● Pode estar tratado.
   
Formato Tradicional
Data Mart(s)
Data Source
   
Requisitos de um Data
Lake
● Armazenar todos os dados
● Satisfazer relatório e rotinas de analise
● Satisfazer ad-hoc query / analises / relatórios
● Balanceamento de performance e custo
   
Arquitetura hibrida
de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc Datawarehouse
   
Arquitetura hibrida de Big
Data
Data Mart(s)
Data Source
Data Lake(s)
ad­hoc
Datawarehouse
   
   
   
PostgreSQL
em nossos projetos
● OLAP ( Online Analytical Processing )
● OLTP ( Online Transaction Processing)
● Distribuído
BRD Postgres-XL
   
PostgreSQL
em nossos Projetos
● Datawarehouse em Projetos de BI
● Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de
Supemercados, Redes de Varejo )
● Sistema de Gestão de Simuladores de
Transito Brasileiro ( MySQL com PostgreSQL )
● Sistemas bancários de analise de crédito
Software Livre
   
Fundação Apache
● Big Data = Apache = Open Source
● Apache é lider e Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
   
HBase
● Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
   
Hive
● Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
   
PIG
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
   
Mahout
● O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
● O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
● Diversidade de algorítimos
   
Sqoop
● Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
   
Apache Spark
● 100x mais rápido que Hadoop
● Programação com Scala,
Java, Python ou R
   
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
   
MongoDB
● MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
   
Titan Grafh
● É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
● Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
● Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
   
BigSQL
● Projeto Hibrido de Integração de Tecnologias
de Big Data com PostgreSQL
   
● Solução de BI Open Source.
● Community Edition
● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
   
Pentaho Orquestrando
Hadoop
   
Pentaho Data Integration
   
   
   
Big Data no Brasil
   
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
   
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
   
Big Data
● “Big Data hoje é o que era a
Linux em 1991. Sabemos que
será algo revolucionário, mas
não sabemos o quanto...”
Marcio Junior Vieira
   
Contatos
● www.ambientelivre.com.br
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre ou @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre

Mais conteúdo relacionado

DOCX
Sharda_dss11_im_01.docChapter 1An Overview of Analy.docx
PDF
Discos & Cia em PostgreSQL
ODP
8º hackatón de proyectos libres de la UGR: Ayuda para los participantes
PDF
Postgres Tuning
ODP
PostgreSQL Tuning: O elefante mais rápido que um leopardo
PPSX
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Sharda_dss11_im_01.docChapter 1An Overview of Analy.docx
Discos & Cia em PostgreSQL
8º hackatón de proyectos libres de la UGR: Ayuda para los participantes
Postgres Tuning
PostgreSQL Tuning: O elefante mais rápido que um leopardo
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

Semelhante a PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho (20)

PDF
Cientista de Dados – Dominando o Big Data com Software Livre
PDF
Pentaho Hadoop Big Data e Data Lakes
PDF
TDC2016SP - Trilha BigData
PDF
Pentaho, Hadoop , Big Data e Data Lakes
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
PDF
TDC2017 - Misturando dados com Pentaho para insights mais significativos
PDF
Treinamento hadoop - dia4
PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
PDF
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
ODP
Palestra Introdução a Big Data
PPTX
Big Data, JVM e Redes Sociais
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Big Data Open Source com Hadoop
PDF
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
PDF
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
PPTX
PDF
Business Analytics
ODP
Big Data Latinoware 2014
PDF
Big Data para Leigos
Cientista de Dados – Dominando o Big Data com Software Livre
Pentaho Hadoop Big Data e Data Lakes
TDC2016SP - Trilha BigData
Pentaho, Hadoop , Big Data e Data Lakes
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Treinamento hadoop - dia4
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Palestra Introdução a Big Data
Big Data, JVM e Redes Sociais
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Big Data Open Source com Hadoop
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Business Analytics
Big Data Latinoware 2014
Big Data para Leigos
Anúncio

Mais de Ambiente Livre (20)

PDF
Apache Flink a Quarta Geração do Big Data
PDF
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
PDF
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
PDF
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
PDF
Metodologia Hacker de Ensino na Ambiente Livre
PDF
Integrando o Drupal com o ECM Alfresco usando CMIS
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
PDF
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
PDF
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
PDF
Carreira Profissional e Certificação de um Analista de BI Pentaho
PDF
Suporte a Geo-Mapping no Pentaho Report
PDF
Negócios em FLOSS
PDF
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
PDF
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
PDF
Big Data, o que é isso?
PDF
Moodle - Sistema de Gestão da Aprendizagem Open Source
PDF
Programação de Macros com LibreOffice Basic
PDF
Apresentação Executiva do Iguana BI for SugarCRM
PDF
Criando e consumindo webservice REST com PHP e JSON
PDF
Desenvolvendo Produtos sobre a Plataforma Pentaho
Apache Flink a Quarta Geração do Big Data
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
Metodologia Hacker de Ensino na Ambiente Livre
Integrando o Drupal com o ECM Alfresco usando CMIS
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
Carreira Profissional e Certificação de um Analista de BI Pentaho
Suporte a Geo-Mapping no Pentaho Report
Negócios em FLOSS
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Big Data, o que é isso?
Moodle - Sistema de Gestão da Aprendizagem Open Source
Programação de Macros com LibreOffice Basic
Apresentação Executiva do Iguana BI for SugarCRM
Criando e consumindo webservice REST com PHP e JSON
Desenvolvendo Produtos sobre a Plataforma Pentaho
Anúncio

Último (20)

PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
PPTX
Curso de Java 9 - (Threads) Multitarefas.pptx
PPTX
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
PPTX
Aula sobre banco de dados com firebase db
PPTX
Aula 18 - Manipulacao De Arquivos python
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PPTX
Aula sobre desenvolvimento de aplicativos
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
COBITxITIL-Entenda as diferença em uso governança TI
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Curso de Java 15 - (Uso de Servlets (Entendendo a Estrutura)).pptx
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Custos e liquidação no SAP Transportation Management, TM130 Col18
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
Curso de Java 9 - (Threads) Multitarefas.pptx
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
Aula sobre banco de dados com firebase db
Aula 18 - Manipulacao De Arquivos python
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Aula sobre desenvolvimento de aplicativos
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Gestão de transportes básica no SAP S/4HANA, S4611 Col20

PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

  • 1. PostgreSQL em um Ambiente Híbrido de Big Data Analytics Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2.     Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador e CEO da Ambiente Livre Tecnologia. ● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e MongoDB.
  • 3.     Sobre a Ambiente Livre ● Fundada em 2004 com foco de atuar em consultoria com software livre. ● 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre. ● Tem 14 soluções distintas para geração de negócios com software livre.
  • 4.     Ecosistema da Ambiente Livre
  • 6.     Big Data - Muito se fala...
  • 10.     IoT- Internet of Things ● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais.
  • 11.     Elementos do IOT ● Rede de sensores sem fio (RSSF); ● Radio Frequency Identification (RFID); ● Gateway; ● Banco de dados; ● Protocolos de rede; ● Gerência de processos; ● Gerência de rede.
  • 13.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 15.     Os 4 V's ● Velocidade, Volume, Variedade e Valor
  • 16.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 17.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 18.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 19.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 20.     Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  • 21.     Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  • 22.     Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  • 23.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 26.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - Hortonworks - MapR - Diversas plataformas de Hadoop em Cloud
  • 27.     O Profissional “Data Scientist” Novo profissional: Cientista de Dados
  • 28.     Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  • 29.     Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 31.     Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 33.     Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo
  • 34.     Arquitetura hibrida de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 35.     Arquitetura hibrida de Big Data Data Mart(s) Data Source Data Lake(s) ad­hoc Datawarehouse
  • 36.    
  • 37.    
  • 38.     PostgreSQL em nossos projetos ● OLAP ( Online Analytical Processing ) ● OLTP ( Online Transaction Processing) ● Distribuído BRD Postgres-XL
  • 39.     PostgreSQL em nossos Projetos ● Datawarehouse em Projetos de BI ● Bases de negócios Transacionais ( Telefonia, Monitoramento com Zabbix , Redes de Supemercados, Redes de Varejo ) ● Sistema de Gestão de Simuladores de Transito Brasileiro ( MySQL com PostgreSQL ) ● Sistemas bancários de analise de crédito
  • 41.     Fundação Apache ● Big Data = Apache = Open Source ● Apache é lider e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ●
  • 42.     HBase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
  • 43.     Hive ● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  • 44.     PIG ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.
  • 45.     Mahout ● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes ● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem ● Diversidade de algorítimos
  • 46.     Sqoop ● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.
  • 47.     Apache Spark ● 100x mais rápido que Hadoop ● Programação com Scala, Java, Python ou R
  • 48.     Apache Cassandra ● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. ● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.
  • 49.     MongoDB ● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON
  • 50.     Titan Grafh ● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina. ● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real. ● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)
  • 51.     BigSQL ● Projeto Hibrido de Integração de Tecnologias de Big Data com PostgreSQL
  • 52.     ● Solução de BI Open Source. ● Community Edition ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  • 54.     Pentaho Data Integration
  • 55.    
  • 56.    
  • 57.     Big Data no Brasil
  • 58.     Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  • 59.     Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  • 60.     Big Data ● “Big Data hoje é o que era a Linux em 1991. Sabemos que será algo revolucionário, mas não sabemos o quanto...” Marcio Junior Vieira
  • 61.     Contatos ● www.ambientelivre.com.br ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ou @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre