SlideShare uma empresa Scribd logo
Teoria à prática com Data Mining
Apresentação
•   Pedro Perfeito, 33 anos, natural do Porto
•   Consultor BI Novabase
•   Licenciado em Informática Gestão pela UPT (Porto, 2001)
•   Mestre em Sistemas Integrados Apoio à Decisão ISCTE (Lisboa’09)
•   Co-fundador de comunidade BI Portugal www.BIResort.net
•   Certificado mundial em Business Intelligence pela www.TDWI.org
•   Professor convidado ISCTE-IUL (Mestrado BI) e UPT (Pós-Graduação)
•   Microsoft Most Valuable Professional (MVP) em SQL Server (BI)
•   A preparar doutoramento nesta área
•   Mais detalhes em www.pedrocgd.blogspot.com
Agenda

• Objectivos
• Parte I - da teoria…
   • Introdução ao Data Mining
   • Metodologia CRISP-DM


• Parte II – à prática…
   • Concepção de um modelo através do add-in do Excel
   • Concepção de um modelo através do SQL 2008 R2


• Conclusão
Objectivos

No final da sessão deverão:

• Conhecer um pouco mais sobre o conceito de Data Mining, bem
  como o seu impacto em aplicações no “mundo real”

• Compreender o processo de criação de um modelo preditivo de
  Data Mining, através do Excel e do SQL 2008 R2
da teoria…

Parte I
6
Será que vem        Será um cliente
 comprar algo        cumpridor se
ou virá apenas         conceder
   passear?            crédito?




                      Será que já é
    Se já fez            nosso
 compras nesta          cliente?
loja, terá ficado
   satisfeito?
Sobrecarga de informação



                           8
Explora os   Procura    Realiza
  Dados      Padrões   Previsões




                                   9
10
TechDays 2010 DAT202
•   Data mining é o processo de descoberta de novas correlações, padrões e
    tendências em grandes quantidades de dados, usando tecnologias de
    reconhecimento de padrões, bem como técnicas estatísticas e
    matemáticas. [Gartner]

•   Data Mining é também conhecido por ser um dos passos da descoberta
    de conhecimento em base de dados [Fayyad et al ’96]




                                                                        12
•   Campanhas de marketing focadas (Direct mail marketing)
•   Personalização de web-sites
•   Análise do cesto de compras de um cliente (Ex: cervejas vs. fraldas)
•   Detecção de fraudes em cartões de crédito
•   Detecção de fraudes em bolsa
•   Previsão de movimentos de acções
•   Medicina (ex: prevenção de doenças)
•   (…)



                                                                           13
•   Falta acreditar nos resultados dos seus modelos

•   Não existem dados ou têm pouca/nenhuma qualidade

•   Problemas éticos e legais começam a ser colocados com a
    Invasão de privacidade (Ex: Facebook, Hi5…)
     • Impacto na forma como os dados são utilizados e analisados
     • Cada vez é mais difícil autorização no uso de dados pessoais
•   Classificação: comprar/vender, baixo risco/alto risco, 1/0…
•   Segmentação: encontrar grupos com mesmas características nos dados
•   Associação: quando se compra A e B, existe probabilidade de compra de C
•   Visualização: para facilitar a descoberta
•   Previsão: valor das vendas no próximo mês
•   (…)




                                                                         15
Input   Input   input   target
•   Aprendizagem supervisionada               0        1      1       1
    Aprende baseando-se em exemplos           0        0      1       1
     • Neural networks                        1        0      0       0
     • Decision trees
     • (…)

•   Aprendizagem não supervisionada
    Aprende baseando-se em observações e descobertas
    • Clustering                            Input   Input   input
    • Self organized maps
                                              0        1      1
    • (…)
                                              0        0      1
                                              1        0      0
                                                                          16
•   Data Warehousing
•   Consultas SQL
•   Consultas Ad Hoc
•   Reporting
•   Um agente de Software
•   Uma ferramenta OLAP




                            17
•   Fidelização de clientes
•
•
    Gestão Stocks
    Detecção de fraudes
                                             Tarefas   •
                                                       •
                                                           Redes Neuronais Artificiais
                                                           Árvores de Decisão
                                                       •   Indução de regras
•   Risco concessão de crédito                         •   Clustering
•   ...                          •   Classificação     •   Nearest Neighbour
                                 •   Previsão          •   Series Temporais …
                                 •   Associação
                                 •   Segmentação
        Aplicações               •   ...
                                                                  Técnicas



                                                                                         18
•   CRISP-DM (CRoss Industry Standard Process for Data Mining) é uma
    metodologia de desenvolvimento de projectos de Data Mining

•   É bastante compreensiva e fornece uma visão integrada e delimitada
    sobre as 6 fases que um projecto de Data Mining deverá seguir




                                                                    19
…à prática…

Parte II
• Cenário
  Instituição Financeira com concessão de
  créditos a clientes


• Problema
  Incumprimento no pagamento de
  prestações de crédito pelos clientes




                                            21
•   Objectivo
    Minimizar o risco de concessão de
    créditos a clientes incumpridores



•   Possível Solução
    Criando um modelo preditivo
    através de técnicas de Data
    Mining




                                        22
•   Um modelo que a partir de informações do passado (inputs) faz previsões
    sobre o futuro (outputs)


                                     novos
      Base dados                    pedidos
       Clientes

                                                           Cliente
          Idade                                           alto risco
           Sexo
       Rendimento                   Modelo
        Nr. Filhos                                         Cliente
            (…)                                           baixo risco
Algoritmos
                                               mais comuns




  Arvores Decisão          Segmentação       Séries Temporais




Sequence Clustering      Regras Associação     Regra Bayes

                                             + Regressão linear
                                               Regressão Logística
                Redes Neuronais
                                                                24
25
Criar/treinar modelo com
 algoritmo escolhido




Testar avaliar
modelo
Créditos
    Concedidos


    Hipotecas      Base Dados       Utilizadores
                 Multidimensional    Negócio
                      (OLAP)
    Pagamentos
     Recebidos


      Dados
     Clientes

       (…)

 Sistema
Operacional
Data Mining no Excel

Demo
Alto Risco     Baixo Risco
                  (Actual)       (Actual)
Alto Risco          214               90
(previsto)
Baixo Risco          44               165
 (previsto)


                              Inocente        Culpado
                               (Actual)       (Actual)
               Inocente         214             90
              (previsto)
               Culpado           44             165
              (previsto)
Créditos
    Concedidos


    Hipotecas                        Base Dados       Utilizadores
                                   Multidimensional    Negócio
                                    (Creditos_OLAP)
    Pagamentos
     Recebidos


      Dados
     Clientes

       (…)             BD
                 (Creditos_FLAT)
 Sistema
Operacional
Data Mining SQL 2008 R2

Demo
Créditos
    Concedidos


    Hipotecas       Data             Base Dados       Utilizadores
                  Warehouse        Multidimensional    Negócio
                 (Creditos_DW)      (Creditos_OLAP)
    Pagamentos
     Recebidos


      Dados
     Clientes

       (…)             BD
                 (Creditos_FLAT)
 Sistema
Operacional
Sistema Operacional   Sistema Analítico
      (OLTP)               (OLAP)
Quem DimEmpregado
                      vendeu? empregado_dimkey
                              empregado_id
Quando foi                    outros atributos
realizada a venda?                                        O que foi vendido?
DimData                                                   DimProduto
data_dimkey                                               produto_dimkey
                                                          produto_dimkey
                            FactVendas
ano                                                        produto_id
mês                        data_dimkey
                           data_dimkey                     outros atributos
outros atributos           empregado_dimkey
                           geografia_dimkey
                           produto_dimkey
                           cliente_dimkey          chave factos
          Chaves externas
                           fornecedor_dimkey
                           valor_venda (€)
                           unidades                  Métricas
          Quem forneceu? .
                           .
          DimFornecedor                           DimCliente
                                                 cliente_dimkey          Quem
         fornecedor_dimkey                       cliente_dimkey
         fornecedor_id                           cliente_id              comprou?
         outros atributos                        cliente_nome
                                                 outros atributos
DimGeografia
                          AV
                          LIS                                   DimProduto
                          PT
                          PT                                    Produto A

                                                 1097 Unidade    Produto B
                                                                Produto B
                                                 €28 k Vendas
“Mostra-me o valor das vendas (€)                               Produto C
e unidades vendidas do Produto
                                                                Produto D
B, no Porto (PT) no ano de 2004
                                                                Produto E


             ?                      2001 2002   2003 2004

                                    DimData
•   Habilitações académicas
•   Profissão
•   Antiguidade do Cliente em meses
•   Numero de Produtos que possui
•   valor patrimonial no banco (3/6/9/12 meses)
•   Valor total em divida
•   Total de transacções realizadas
•   saldo médio (3/6/9/12 meses)
•   (…)
Volume enorme de informação



                              37
Q&A
És tu o guru
 do Business
Intelligence?
  PROVA-O!




     Faz o teste de escolha múltipla e
     recebe livros BI




     Comunidade de Business Intelligence
Soluções Microsoft para Business
Intelligence
6 de Maio de 2010 | 9h-17h
Auditório do Taguspark

Neste seminário de um dia, Rafal Lukawiecki vai falar
desde a criação à disponibilização de uma solução de
BI utilizando a plataforma de BI da Microsoft, dando
destaque ao Microsoft SQL Server 2008 R2 e o
sistema Microsoft Office de 2010, nomeadamente o
PowerPivot, SharePoint 2010 e os PerformancePoint       Rafal Lukawiecki
Services


Inscrições em:
http://www.microsoft.com/portugal/business/eventos/rafal/default.msp
x
A sua opinião é importante!
Complete o questionário de
avaliação e devolva-o à
saida.
TechDays 2010 DAT202

Mais conteúdo relacionado

PPTX
2011: Mineração de Dados - Conceitos Básicos e Aplicações
PPT
Presentation IIPM
PPTX
PDF
Humanities Graduates and the British Economy - University of Oxford
PPT
Green Collar Jobs And Your Community
PPTX
La organizacion como sistema
PPT
Practica22
PPTX
Google+Calendario
2011: Mineração de Dados - Conceitos Básicos e Aplicações
Presentation IIPM
Humanities Graduates and the British Economy - University of Oxford
Green Collar Jobs And Your Community
La organizacion como sistema
Practica22
Google+Calendario

Destaque (15)

DOC
Ashmtp
PPT
DuranDahlia1rC
PPTX
Validation Tools and Results Bay Area PharmaSUG 2015-02-10 01
PDF
Pirx (PL)
PDF
Sinnolabs and program launch ceremony 5 July 16
PDF
24 pas
PDF
Videojuegos aplicados al desarrollo del control metacognitivo asociado a la r...
PPTX
Beginning direct3d gameprogramming07_lightsandmaterials_20161117_jintaeks
PDF
Test Metacognición.
PDF
Asbestose pulmonar
PPT
Aula Expositiva Sobre A Cultura
PPT
Un Gran Hombre Ok
PPTX
Мурашина Логістика
PPT
Capitulo 8 portafolio electronico
PPTX
Sistema Muscular - Embriología
Ashmtp
DuranDahlia1rC
Validation Tools and Results Bay Area PharmaSUG 2015-02-10 01
Pirx (PL)
Sinnolabs and program launch ceremony 5 July 16
24 pas
Videojuegos aplicados al desarrollo del control metacognitivo asociado a la r...
Beginning direct3d gameprogramming07_lightsandmaterials_20161117_jintaeks
Test Metacognición.
Asbestose pulmonar
Aula Expositiva Sobre A Cultura
Un Gran Hombre Ok
Мурашина Логістика
Capitulo 8 portafolio electronico
Sistema Muscular - Embriología
Anúncio

Semelhante a TechDays 2010 DAT202 (20)

PPTX
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
PPT
Data mining
PPT
mineracao-de-dadominedracao-de-dados.ppt
PPTX
KDD e Data Mining
PDF
Evento Symantec DLP - 06.03
PDF
Google Analytics - Quem não mede, não gerencia
PPTX
Data Warehouse
PDF
Nivaldo Sanches
PDF
Mineração de padrões frequentes
PDF
Big Data e Data Science - Tecnologia e Mercado
PDF
Segurança em e commerce - bruno zani
PPTX
Data Warehouse e Data Mining
PPTX
Carreira do profissional de dados
PDF
Apresentação data mining
PDF
Big Data x Data Mining - Hadoop
PDF
Palestra garimpando com pentaho data mining latinoware
PDF
Mineração Livre de Dados
PPT
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
PPT
Proposta de identificação de impressões digitais empregando redes neurais art...
PPT
Clustering
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Data mining
mineracao-de-dadominedracao-de-dados.ppt
KDD e Data Mining
Evento Symantec DLP - 06.03
Google Analytics - Quem não mede, não gerencia
Data Warehouse
Nivaldo Sanches
Mineração de padrões frequentes
Big Data e Data Science - Tecnologia e Mercado
Segurança em e commerce - bruno zani
Data Warehouse e Data Mining
Carreira do profissional de dados
Apresentação data mining
Big Data x Data Mining - Hadoop
Palestra garimpando com pentaho data mining latinoware
Mineração Livre de Dados
Uma Proposta de identificação de Impressões Digitais empregando Redes Neurais...
Proposta de identificação de impressões digitais empregando redes neurais art...
Clustering
Anúncio

Último (8)

PPTX
Arquitetura de computadores - Memórias Secundárias
PDF
Manejo integrado de pragas na cultura do algodão
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PPTX
Mecânico de Manutenção de Equipamentos.pptx
Arquitetura de computadores - Memórias Secundárias
Manejo integrado de pragas na cultura do algodão
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Viasol Energia Solar -Soluções para geração e economia de energia
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Mecânico de Manutenção de Equipamentos.pptx

TechDays 2010 DAT202

  • 1. Teoria à prática com Data Mining
  • 2. Apresentação • Pedro Perfeito, 33 anos, natural do Porto • Consultor BI Novabase • Licenciado em Informática Gestão pela UPT (Porto, 2001) • Mestre em Sistemas Integrados Apoio à Decisão ISCTE (Lisboa’09) • Co-fundador de comunidade BI Portugal www.BIResort.net • Certificado mundial em Business Intelligence pela www.TDWI.org • Professor convidado ISCTE-IUL (Mestrado BI) e UPT (Pós-Graduação) • Microsoft Most Valuable Professional (MVP) em SQL Server (BI) • A preparar doutoramento nesta área • Mais detalhes em www.pedrocgd.blogspot.com
  • 3. Agenda • Objectivos • Parte I - da teoria… • Introdução ao Data Mining • Metodologia CRISP-DM • Parte II – à prática… • Concepção de um modelo através do add-in do Excel • Concepção de um modelo através do SQL 2008 R2 • Conclusão
  • 4. Objectivos No final da sessão deverão: • Conhecer um pouco mais sobre o conceito de Data Mining, bem como o seu impacto em aplicações no “mundo real” • Compreender o processo de criação de um modelo preditivo de Data Mining, através do Excel e do SQL 2008 R2
  • 6. 6
  • 7. Será que vem Será um cliente comprar algo cumpridor se ou virá apenas conceder passear? crédito? Será que já é Se já fez nosso compras nesta cliente? loja, terá ficado satisfeito?
  • 9. Explora os Procura Realiza Dados Padrões Previsões 9
  • 10. 10
  • 12. Data mining é o processo de descoberta de novas correlações, padrões e tendências em grandes quantidades de dados, usando tecnologias de reconhecimento de padrões, bem como técnicas estatísticas e matemáticas. [Gartner] • Data Mining é também conhecido por ser um dos passos da descoberta de conhecimento em base de dados [Fayyad et al ’96] 12
  • 13. Campanhas de marketing focadas (Direct mail marketing) • Personalização de web-sites • Análise do cesto de compras de um cliente (Ex: cervejas vs. fraldas) • Detecção de fraudes em cartões de crédito • Detecção de fraudes em bolsa • Previsão de movimentos de acções • Medicina (ex: prevenção de doenças) • (…) 13
  • 14. Falta acreditar nos resultados dos seus modelos • Não existem dados ou têm pouca/nenhuma qualidade • Problemas éticos e legais começam a ser colocados com a Invasão de privacidade (Ex: Facebook, Hi5…) • Impacto na forma como os dados são utilizados e analisados • Cada vez é mais difícil autorização no uso de dados pessoais
  • 15. Classificação: comprar/vender, baixo risco/alto risco, 1/0… • Segmentação: encontrar grupos com mesmas características nos dados • Associação: quando se compra A e B, existe probabilidade de compra de C • Visualização: para facilitar a descoberta • Previsão: valor das vendas no próximo mês • (…) 15
  • 16. Input Input input target • Aprendizagem supervisionada 0 1 1 1 Aprende baseando-se em exemplos 0 0 1 1 • Neural networks 1 0 0 0 • Decision trees • (…) • Aprendizagem não supervisionada Aprende baseando-se em observações e descobertas • Clustering Input Input input • Self organized maps 0 1 1 • (…) 0 0 1 1 0 0 16
  • 17. Data Warehousing • Consultas SQL • Consultas Ad Hoc • Reporting • Um agente de Software • Uma ferramenta OLAP 17
  • 18. Fidelização de clientes • • Gestão Stocks Detecção de fraudes Tarefas • • Redes Neuronais Artificiais Árvores de Decisão • Indução de regras • Risco concessão de crédito • Clustering • ... • Classificação • Nearest Neighbour • Previsão • Series Temporais … • Associação • Segmentação Aplicações • ... Técnicas 18
  • 19. CRISP-DM (CRoss Industry Standard Process for Data Mining) é uma metodologia de desenvolvimento de projectos de Data Mining • É bastante compreensiva e fornece uma visão integrada e delimitada sobre as 6 fases que um projecto de Data Mining deverá seguir 19
  • 21. • Cenário Instituição Financeira com concessão de créditos a clientes • Problema Incumprimento no pagamento de prestações de crédito pelos clientes 21
  • 22. Objectivo Minimizar o risco de concessão de créditos a clientes incumpridores • Possível Solução Criando um modelo preditivo através de técnicas de Data Mining 22
  • 23. Um modelo que a partir de informações do passado (inputs) faz previsões sobre o futuro (outputs) novos Base dados pedidos Clientes Cliente Idade alto risco Sexo Rendimento Modelo Nr. Filhos Cliente (…) baixo risco
  • 24. Algoritmos mais comuns Arvores Decisão Segmentação Séries Temporais Sequence Clustering Regras Associação Regra Bayes + Regressão linear Regressão Logística Redes Neuronais 24
  • 25. 25
  • 26. Criar/treinar modelo com algoritmo escolhido Testar avaliar modelo
  • 27. Créditos Concedidos Hipotecas Base Dados Utilizadores Multidimensional Negócio (OLAP) Pagamentos Recebidos Dados Clientes (…) Sistema Operacional
  • 28. Data Mining no Excel Demo
  • 29. Alto Risco Baixo Risco (Actual) (Actual) Alto Risco 214 90 (previsto) Baixo Risco 44 165 (previsto) Inocente Culpado (Actual) (Actual) Inocente 214 90 (previsto) Culpado 44 165 (previsto)
  • 30. Créditos Concedidos Hipotecas Base Dados Utilizadores Multidimensional Negócio (Creditos_OLAP) Pagamentos Recebidos Dados Clientes (…) BD (Creditos_FLAT) Sistema Operacional
  • 31. Data Mining SQL 2008 R2 Demo
  • 32. Créditos Concedidos Hipotecas Data Base Dados Utilizadores Warehouse Multidimensional Negócio (Creditos_DW) (Creditos_OLAP) Pagamentos Recebidos Dados Clientes (…) BD (Creditos_FLAT) Sistema Operacional
  • 33. Sistema Operacional Sistema Analítico (OLTP) (OLAP)
  • 34. Quem DimEmpregado vendeu? empregado_dimkey empregado_id Quando foi outros atributos realizada a venda? O que foi vendido? DimData DimProduto data_dimkey produto_dimkey produto_dimkey FactVendas ano produto_id mês data_dimkey data_dimkey outros atributos outros atributos empregado_dimkey geografia_dimkey produto_dimkey cliente_dimkey chave factos Chaves externas fornecedor_dimkey valor_venda (€) unidades Métricas Quem forneceu? . . DimFornecedor DimCliente cliente_dimkey Quem fornecedor_dimkey cliente_dimkey fornecedor_id cliente_id comprou? outros atributos cliente_nome outros atributos
  • 35. DimGeografia AV LIS DimProduto PT PT Produto A 1097 Unidade Produto B Produto B €28 k Vendas “Mostra-me o valor das vendas (€) Produto C e unidades vendidas do Produto Produto D B, no Porto (PT) no ano de 2004 Produto E ? 2001 2002 2003 2004 DimData
  • 36. Habilitações académicas • Profissão • Antiguidade do Cliente em meses • Numero de Produtos que possui • valor patrimonial no banco (3/6/9/12 meses) • Valor total em divida • Total de transacções realizadas • saldo médio (3/6/9/12 meses) • (…)
  • 37. Volume enorme de informação 37
  • 38. Q&A
  • 39. És tu o guru do Business Intelligence? PROVA-O! Faz o teste de escolha múltipla e recebe livros BI Comunidade de Business Intelligence
  • 40. Soluções Microsoft para Business Intelligence 6 de Maio de 2010 | 9h-17h Auditório do Taguspark Neste seminário de um dia, Rafal Lukawiecki vai falar desde a criação à disponibilização de uma solução de BI utilizando a plataforma de BI da Microsoft, dando destaque ao Microsoft SQL Server 2008 R2 e o sistema Microsoft Office de 2010, nomeadamente o PowerPivot, SharePoint 2010 e os PerformancePoint Rafal Lukawiecki Services Inscrições em: http://www.microsoft.com/portugal/business/eventos/rafal/default.msp x
  • 41. A sua opinião é importante! Complete o questionário de avaliação e devolva-o à saida.