SlideShare uma empresa Scribd logo
Virtualização de dados para
Advanced Analytics e
Machine Learning
Gabriella Figueiredo
Sales Account Manager – QSOFT
Guilherme Gonçalves Nunes
Data Scientist – QSOFT
Evandro Pacolla
Sales Engineer – Denodo
Palestrantes
Gabriella Figueiredo
Sales Account
Manager
Guilherme Nunes
Data
Scientist
Evandro Pacolla
Sales
Engineer
1. Introdução
2. Rapidminer GO
3. Escala de análise
4. Dados e Advanced Analytics
5. Metodologia Q-IA para Data Mining
6. IA e machine learning precisam de dados
7. Virtualizando os dados para rápidas implantações
8. Q&A
Agenda
Escala de Análise
Descritiva
Envolve a organização, resumo
e apresentação dos dados.
Inferencial
Envolve o uso de uma amostra
para chegar a conclusões sobre
uma população.
Escala de Análise
Escala de Análise e Input Humano
Dados e Advanced Analytics
E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos:
• Arquivos em diversos formatos (CSV, logs, Parquet, …);
• Bancos de dados Relacionais (EDW, Sistemas, …);
• NoSQL (Documentos, documentos chave-valor, …);
• APIs SaaS (Salesforce, Facebook, Twitter, …)
Q-IA
9
IA e machine learning precisam de dados
Prever pacientes de alto risco
Os dados incluem demografia
do paciente, histórico familiar,
sinais vitais do paciente,
resultados de exames
laboratoriais, histórico de
medicamentos passados,
visitas ao hospital e quaisquer
dados de sinistros
Prever falha no equipamento
Os dados podem incluir registros
de dados de manutenção
mantidos pelos técnicos,
especialmente para máquinas
mais antigas. Para máquinas
mais novas, os dados
provenientes dos diferentes
sensores da máquina —
incluindo temperatura, tempo de
funcionamento, durações no
nível de energia e mensagens de
erro
Prever riscos de inadimplência
Os dados incluem demografia
da empresa ou individual,
produtos que compraram/
usaram, histórico de
pagamentos passados,
registros de suporte ao cliente
e quaisquer eventos adversos
recentes.
Prevenção de sinistros
fraudulentos
Os dados incluem a
localização de origem da
reclamação, hora do dia,
histórico do requerente, valor
da reclamação e até dados
públicos, como o Banco
nacional de fraudes.
Prever churn de clientes
Os dados incluem demografia
do cliente, produtos
comprados, uso de produtos,
chamadas de clientes, tempo
desde o último contato,
histórico de transações
passado, indústria, tamanho
da empresa e receita.
10
Mas os Dados estão em algum lugar aqui…
11
Confirmação das Restrições em ML/AI…
Source: Machine learning in UK financial services, Bank of England
and Financial Conduct Authority, October 2019
12
A Escala do Problema…
13
Fluxo de trabalho típico de ciência de dados
Um fluxo de trabalho típico para um cientista de dados
é:
1. Reunir os requisitos para o problema dos negócios
2. Identificar dados úteis para o caso
• Ingerir dados
3. Limpe os dados em um formato útil
4. Analisar dados
5. Prepare a entrada para seus algoritmos
6. Executar algoritmos de ciência de dados (ML, IA,
etc.)
• Repetir 2-6 até que insights valiosos sejam produzidos
7. Visualize e compartilhe
14
Fluxo de trabalho típico de ciência de dados
80% do tempo – Encontrando e preparando os dados
10% de tempo – Análise
10% de tempo – Visualizando dados
15
Para onde vai seu tempo?
Uma grande quantidade de tempo e esforço entra em tarefas não
intrinsecamente relacionadas à ciência de dados:
• Descobrir onde os dados certos podem estar
• Obtendo acesso aos dados
• Burocracia
• Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.)
• Transformando dados em um formato fácil de trabalhar
• Combinando dados originalmente disponíveis em diferentes fontes e formatos
• Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes
16
TI – Dilema dos negócios
TI foca na coleta
e
armazenamento
de dados
Negócios focam
em Visualização
e Análise de
Dados
Ninguém focado na entrega de dados
– Então os dados são replicados dezenas de vezes para poder
serem utilizados
Inventory System
(MS SQL Server)
Product Catalog
(Web Service -SOAP)
BI / Reporting
JDBC, ODBC,
ADO .NET
Web / Mobile
WS – REST JSON,
XML, HTML, RSS
Log files
(.txt/.log files)
CRM
(MySQL)
Billing System
(Web Service - Rest)
ETL
Portals
JSR168 / 286,
Ms Web Parts
SOA, Middleware,
Enterprise Apps
WS – SOAP
Java API
Customer Voice
(Internet, Unstruc)
17
Reference Architecture
18
Seis capacidades essenciais da virtualização de dados
4. Serviços de dados em sistema
‘self-service’
5. Centralização dos metadados,
segurança e governança
6. Estrutura multi-nuvem
independente de localização,
aceleração híbrida
1. Captação de dados
2. Replicação zero, realocação zero
3. Informação em tempo real
19
Como funciona?
Development
Lifecycle Mgmt
Monitoring & Audit
Governance
Security
Development Tools
and SDK
Scheduled Tasks
Data Caching
Query Optimizer
JDBC/ODBC/ADO.Net SOAP / REST WS
U
Business
View
Data Mart
View
J
Application
Layer
Business
Layer
Unified View Unified View
Unified View
Unified View
A
J
J
Derived View Derived View
J
J
S
Data
Source
Layer
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
A solução – Uma camada de abstração de dados
20
Abstrai o acesso a dados de
diferentes fontes
Funciona como um repositório único
(virtual)
Disponibiliza os dados em
tempo real para os usuários
DATA ABSTRACTION LAYER
“Arquitetos corporativos estão descobrindo que as
arquiteturas de dados tradicionais não estão
atendendo às novas demandas dos negócios,
sobretudo acerca da integração de dados para análise
em tempo real”
The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018
DATA VIRTUALIZATION PLATFORM
21
Key Takeaways
Conclusão
Abstração de
Fontes
• Substitui a
complexidade
de acesso pela
facilidade de ter
tudo em um
único lugar.
Modelo de
Dados
Semântico
• Entidades e
visões pré
agregadas com
segurança e
privacidade.
Opções
Flexíveis de
publicação
• Múltiplas
opções JDBC,
ODBC, Web
Services. Para
se adapatar ao
negócio.
Operação e
criação
• Simplifica a
segurança ,
privacidade e
auditoria.
Facilita o Self-
service
• Simplifica o
processo de
busca pelo
dado correto.
Q&A
www.denodo.com
info.la@denodo.com
www.qsoft.com.br
comercial@qsoft.com.br
Thanks!

Mais conteúdo relacionado

PDF
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
PDF
Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com...
PDF
Data mesh-pt
PDF
ROI e Valor Econômico da Virtualização de Dados
PDF
Como Implementar a Análise de Dados em Tempo Real
PDF
Qual é o futuro da estratégia de dados?
PDF
Instituto Infnet - BigData e Hadoop
PPT
Clustering
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Caçadores de Mitos: A virtualização dos dados pode sustentar o desempenho com...
Data mesh-pt
ROI e Valor Econômico da Virtualização de Dados
Como Implementar a Análise de Dados em Tempo Real
Qual é o futuro da estratégia de dados?
Instituto Infnet - BigData e Hadoop
Clustering

Mais procurados (20)

PDF
Gestão Ágil de Dados com Enterprise Data Fabric
PDF
Big data Workshop
PDF
Wiseminer Self-Service Data Analytics
PDF
Cloud tendências 2018
PDF
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
PPTX
Data warehousing - Técnicas e procedimentos
PDF
Hadoop Day - MeetUp - O poder da Informação
PPT
Kimball Vs Inmon
PPTX
PDF
Tableau: Big Data Analytics with Tableau
PPTX
Hackathon Inmetrics e Fiap: Desafios do Big Data
PPTX
TIEnergia2016
PPTX
Por que o Microsoft Power BI? Um breve overview sobre BI
PPTX
24HoP 2013 - Por Onde Começar no BigData
PDF
Bigdata - Leandro Wanderley
PDF
Luis gregorio big data
PPTX
Governança de dados - Power Bi Talks 3ª Edição
PPTX
Big Data & Cognitive Lab
PPTX
Introdução ao Data Warehouse
Gestão Ágil de Dados com Enterprise Data Fabric
Big data Workshop
Wiseminer Self-Service Data Analytics
Cloud tendências 2018
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Data warehousing - Técnicas e procedimentos
Hadoop Day - MeetUp - O poder da Informação
Kimball Vs Inmon
Tableau: Big Data Analytics with Tableau
Hackathon Inmetrics e Fiap: Desafios do Big Data
TIEnergia2016
Por que o Microsoft Power BI? Um breve overview sobre BI
24HoP 2013 - Por Onde Começar no BigData
Bigdata - Leandro Wanderley
Luis gregorio big data
Governança de dados - Power Bi Talks 3ª Edição
Big Data & Cognitive Lab
Introdução ao Data Warehouse
Anúncio

Semelhante a Virtualização de dados para Advanced Analytics e Machine Learning (20)

PDF
Palestra garimpando com pentaho data mining latinoware
PPS
SAD - Sistemas de Apoio a Decisoes
PPT
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
PDF
Gestão Estratégica da Informação.pdf
PPTX
Inteligência Analítica
PDF
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
PDF
Big Data e Data Science - Tecnologia e Mercado
PPTX
Trabalhos Big Data e Algoritmos - Mercado Financeiro
PDF
Financial services overview and customer (2014)
PPT
UCP - Projeto de Banco de Dados - Data Warehouse
PDF
Business Analytics
PDF
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
PPT
Tomada decisão
PDF
Business Intelligence
PPTX
Ingestão de Dados
PDF
Aula - BIG DATA (conceitos, recursos, tendências e oportunidades.)
PDF
Big Data Analytics - Data Science - Aplicação e Tecnologia
PDF
Trabalho Business Intelligence
PPTX
Introdução Splunk Brasil
PPTX
O que é Business Intelligence (BI)
Palestra garimpando com pentaho data mining latinoware
SAD - Sistemas de Apoio a Decisoes
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Gestão Estratégica da Informação.pdf
Inteligência Analítica
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
Big Data e Data Science - Tecnologia e Mercado
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Financial services overview and customer (2014)
UCP - Projeto de Banco de Dados - Data Warehouse
Business Analytics
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Tomada decisão
Business Intelligence
Ingestão de Dados
Aula - BIG DATA (conceitos, recursos, tendências e oportunidades.)
Big Data Analytics - Data Science - Aplicação e Tecnologia
Trabalho Business Intelligence
Introdução Splunk Brasil
O que é Business Intelligence (BI)
Anúncio

Mais de Denodo (20)

PDF
Enterprise Monitoring and Auditing in Denodo
PDF
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
PDF
Achieving Self-Service Analytics with a Governed Data Services Layer
PDF
What you need to know about Generative AI and Data Management?
PDF
Mastering Data Compliance in a Dynamic Business Landscape
PDF
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
PDF
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
PDF
Drive Data Privacy Regulatory Compliance
PDF
Знакомство с виртуализацией данных для профессионалов в области данных
PDF
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
PDF
Denodo Partner Connect - Technical Webinar - Ask Me Anything
PDF
Lunch and Learn ANZ: Key Takeaways for 2023!
PDF
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
PDF
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
PDF
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
PDF
How to Build Your Data Marketplace with Data Virtualization?
PDF
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
PDF
Enabling Data Catalog users with advanced usability
PDF
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
PDF
GenAI y el futuro de la gestión de datos: mitos y realidades
Enterprise Monitoring and Auditing in Denodo
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Achieving Self-Service Analytics with a Governed Data Services Layer
What you need to know about Generative AI and Data Management?
Mastering Data Compliance in a Dynamic Business Landscape
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Drive Data Privacy Regulatory Compliance
Знакомство с виртуализацией данных для профессионалов в области данных
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Lunch and Learn ANZ: Key Takeaways for 2023!
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
How to Build Your Data Marketplace with Data Virtualization?
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Enabling Data Catalog users with advanced usability
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
GenAI y el futuro de la gestión de datos: mitos y realidades

Último (12)

PDF
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
PDF
Previsão de Paradas em Máquinas Industriais
PDF
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
PPT
AULA COACHING INICIAL *******************
PPTX
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
PDF
Bases de dados - basicos dos basicos. como identificar chaves
PPTX
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
DOC
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
PDF
Medidor de PH de bancada PH140 para uso em laboratório
PDF
Plano de gestão - template.pptx.pdf.pdf
PPTX
Slide Gêneros textuais: resenha crítica.ppxt
PDF
712893401-Geografia-em-perspectiva-3.pdf
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
Previsão de Paradas em Máquinas Industriais
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
AULA COACHING INICIAL *******************
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
Bases de dados - basicos dos basicos. como identificar chaves
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
Medidor de PH de bancada PH140 para uso em laboratório
Plano de gestão - template.pptx.pdf.pdf
Slide Gêneros textuais: resenha crítica.ppxt
712893401-Geografia-em-perspectiva-3.pdf

Virtualização de dados para Advanced Analytics e Machine Learning

  • 1. Virtualização de dados para Advanced Analytics e Machine Learning Gabriella Figueiredo Sales Account Manager – QSOFT Guilherme Gonçalves Nunes Data Scientist – QSOFT Evandro Pacolla Sales Engineer – Denodo
  • 2. Palestrantes Gabriella Figueiredo Sales Account Manager Guilherme Nunes Data Scientist Evandro Pacolla Sales Engineer
  • 3. 1. Introdução 2. Rapidminer GO 3. Escala de análise 4. Dados e Advanced Analytics 5. Metodologia Q-IA para Data Mining 6. IA e machine learning precisam de dados 7. Virtualizando os dados para rápidas implantações 8. Q&A Agenda
  • 4. Escala de Análise Descritiva Envolve a organização, resumo e apresentação dos dados. Inferencial Envolve o uso de uma amostra para chegar a conclusões sobre uma população.
  • 6. Escala de Análise e Input Humano
  • 7. Dados e Advanced Analytics E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos: • Arquivos em diversos formatos (CSV, logs, Parquet, …); • Bancos de dados Relacionais (EDW, Sistemas, …); • NoSQL (Documentos, documentos chave-valor, …); • APIs SaaS (Salesforce, Facebook, Twitter, …)
  • 9. 9 IA e machine learning precisam de dados Prever pacientes de alto risco Os dados incluem demografia do paciente, histórico familiar, sinais vitais do paciente, resultados de exames laboratoriais, histórico de medicamentos passados, visitas ao hospital e quaisquer dados de sinistros Prever falha no equipamento Os dados podem incluir registros de dados de manutenção mantidos pelos técnicos, especialmente para máquinas mais antigas. Para máquinas mais novas, os dados provenientes dos diferentes sensores da máquina — incluindo temperatura, tempo de funcionamento, durações no nível de energia e mensagens de erro Prever riscos de inadimplência Os dados incluem demografia da empresa ou individual, produtos que compraram/ usaram, histórico de pagamentos passados, registros de suporte ao cliente e quaisquer eventos adversos recentes. Prevenção de sinistros fraudulentos Os dados incluem a localização de origem da reclamação, hora do dia, histórico do requerente, valor da reclamação e até dados públicos, como o Banco nacional de fraudes. Prever churn de clientes Os dados incluem demografia do cliente, produtos comprados, uso de produtos, chamadas de clientes, tempo desde o último contato, histórico de transações passado, indústria, tamanho da empresa e receita.
  • 10. 10 Mas os Dados estão em algum lugar aqui…
  • 11. 11 Confirmação das Restrições em ML/AI… Source: Machine learning in UK financial services, Bank of England and Financial Conduct Authority, October 2019
  • 12. 12 A Escala do Problema…
  • 13. 13 Fluxo de trabalho típico de ciência de dados Um fluxo de trabalho típico para um cientista de dados é: 1. Reunir os requisitos para o problema dos negócios 2. Identificar dados úteis para o caso • Ingerir dados 3. Limpe os dados em um formato útil 4. Analisar dados 5. Prepare a entrada para seus algoritmos 6. Executar algoritmos de ciência de dados (ML, IA, etc.) • Repetir 2-6 até que insights valiosos sejam produzidos 7. Visualize e compartilhe
  • 14. 14 Fluxo de trabalho típico de ciência de dados 80% do tempo – Encontrando e preparando os dados 10% de tempo – Análise 10% de tempo – Visualizando dados
  • 15. 15 Para onde vai seu tempo? Uma grande quantidade de tempo e esforço entra em tarefas não intrinsecamente relacionadas à ciência de dados: • Descobrir onde os dados certos podem estar • Obtendo acesso aos dados • Burocracia • Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.) • Transformando dados em um formato fácil de trabalhar • Combinando dados originalmente disponíveis em diferentes fontes e formatos • Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes
  • 16. 16 TI – Dilema dos negócios TI foca na coleta e armazenamento de dados Negócios focam em Visualização e Análise de Dados Ninguém focado na entrega de dados – Então os dados são replicados dezenas de vezes para poder serem utilizados Inventory System (MS SQL Server) Product Catalog (Web Service -SOAP) BI / Reporting JDBC, ODBC, ADO .NET Web / Mobile WS – REST JSON, XML, HTML, RSS Log files (.txt/.log files) CRM (MySQL) Billing System (Web Service - Rest) ETL Portals JSR168 / 286, Ms Web Parts SOA, Middleware, Enterprise Apps WS – SOAP Java API Customer Voice (Internet, Unstruc)
  • 18. 18 Seis capacidades essenciais da virtualização de dados 4. Serviços de dados em sistema ‘self-service’ 5. Centralização dos metadados, segurança e governança 6. Estrutura multi-nuvem independente de localização, aceleração híbrida 1. Captação de dados 2. Replicação zero, realocação zero 3. Informação em tempo real
  • 19. 19 Como funciona? Development Lifecycle Mgmt Monitoring & Audit Governance Security Development Tools and SDK Scheduled Tasks Data Caching Query Optimizer JDBC/ODBC/ADO.Net SOAP / REST WS U Business View Data Mart View J Application Layer Business Layer Unified View Unified View Unified View Unified View A J J Derived View Derived View J J S Data Source Layer Base View Base View Base View Base View Base View Base View Base View
  • 20. A solução – Uma camada de abstração de dados 20 Abstrai o acesso a dados de diferentes fontes Funciona como um repositório único (virtual) Disponibiliza os dados em tempo real para os usuários DATA ABSTRACTION LAYER “Arquitetos corporativos estão descobrindo que as arquiteturas de dados tradicionais não estão atendendo às novas demandas dos negócios, sobretudo acerca da integração de dados para análise em tempo real” The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018 DATA VIRTUALIZATION PLATFORM
  • 21. 21 Key Takeaways Conclusão Abstração de Fontes • Substitui a complexidade de acesso pela facilidade de ter tudo em um único lugar. Modelo de Dados Semântico • Entidades e visões pré agregadas com segurança e privacidade. Opções Flexíveis de publicação • Múltiplas opções JDBC, ODBC, Web Services. Para se adapatar ao negócio. Operação e criação • Simplifica a segurança , privacidade e auditoria. Facilita o Self- service • Simplifica o processo de busca pelo dado correto.
  • 22. Q&A