SlideShare uma empresa Scribd logo
DATA MINING Disciplina Banco de Dados 1998 Alunos Fernando Silvera Goulart Júnior  -  [email_address] Robson do Nascimento Fidalgo - rdnf@di.ufpe.br Orientadores Ana Carolina Salgado - acs@di.ufpe.br Fernando Fonseca - fdfd@di.ufpe.br
Tópicos da Apresentação Introdução  Background  Funções Processo Uma arquitetura Técnicas  Exemplos Referências
Introdução Motivações Grande disponibilidade de dados armazenados eletronicamente Existem  informações   úteis ,  invisíveis , nesses grandes volumes de dados  Aproveitar para  prever um conhecimento   futuro  (ir além do armazenamento explícito de dados). [01] Queens University - Belfast
Introdução O que é Data mining: “Data mining (mineração de dados), é o processo de  extração de conhecimento de grandes bases de dados,   convencionais  ou  não .  Utiliza técnicas de inteligência artificial que procuram relações de  similaridade  ou  discordância  entre dados.  Seu objetivo é encontrar, automaticamente,   padrões ,  anomalias  e  regras  com o propósito de transformar dados, aparentemente  ocultos ,  em  informações   úteis  para a tomada de decisão e/ou avaliação de resultados.   Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)
Introdução Exemplo : Conclusões : Produtos azuis são de alto lucro   ou Arizona é um lucro baixo
Introdução Uma empresa utilizando data mining é capaz de: Criar  parâmetros para entender o comportamento  do consumidor;  Identificar afinidades  entre as escolhas de produtos e serviços;  Prever hábitos  de compras;  Analisar comportamentos habituais  para detectar fraudes. [09] - Dissertação - UERJ (1997)
Introdução Data mining X Data warehouse: Data mining     extração  inteligente de dados; Data warehouse     repositório  centralizado de dados; Data mining não é uma evolução do Data warehouse; Data mining não depende do Data warehouse, mas obtém-se melhores resultados quando aplicados em conjunto; Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas); Data Warehouse aliado a ferramentas estatísticas desempenham papel semelhante ao data mining,  mas não descobrem novos padrões de comportamento . (a não ser empiricamente).
Introdução Evolução até o data mining
Como fazer Data Mining ? Aprendizagem computacional (Machine-learning) Automação do  processo de aprendizagem , através da construção de  regras  baseadas em  observações  dos estados e transações do  ambiente . Examina os exemplos e seus resultados e aprende como reproduzi-los e como fazer generalizações sobre novos casos O Background para data mining
Aprendizagem indutiva: Faz análise nos dados para encontrar padrões Agrupa objetos similares em classes  Formula regras Aprendizagem supervisionada   (A.S.) Aprende baseando-se em   exemplos   (“professor” ajuda a construir um modelo def. classes e fornecendo exemplos de cada classe    formular a descrição e a forma da classe) Ex. Classificação de madeiras Aprendizagem não supervisionada (A.Ñ.S.) Aprende baseando-se em  observações  e  descobertas  (não se def. classes, deve-se observar os exemplos e reconhecer os padrões por si só    uma descrição de classes para cada ambiente).  Ex. Classificação de madeiras O Background para data mining
Modelo de verificação (Aprendizagem supervisionada) Aprende baseando-se em   exemplos  pré-classificados (+/-) Objetivo: formular  descrições  consistentes e gerais de  classes  em  função de seus atributos . Ex.: Cartões de credito O Background para data mining Inadimplente - OK + HIPOTESES
Modelo de descoberta (Aprendizagem ñ supervisionada) Aprende baseando-se em  observações  e  descobertas ; Descoberta  automática  de informações ocultas; Procura ocorrências de  padrões ,  tendências  e  generalizações  sobre os dados sem a intervenção do usuário; Agrupar elementos similares, Como agrupar os alunos da disciplina ? O Background para data mining
Modelo de classificação : Atributos + significativos def. um classe O usuário define as atributos para cada classe  (A.S.)   Aplica regras para criar modelos de ações futuras Ex: Clientes com bom crédito ñ podem dever mais 10% Associação: Procura registos que tenham similaridades associativas Podem ser expressados por regras Ex: 62% dos compradores de guaraná compram pipoca 62% fator de confiança LHS (left hand side) RHS (right hand side) Funções do data mining  L H S Guaraná R H S Pipoca G + P 62% ... ...
Padrões temporais/seqüenciais : Analisa registros num período de tempo, procurando encontrar padrões (eventos/compras) de comportamento. Identificar o perfil do cliente Identificar padrões que precedem outros padrões Ex: Mala direta personalizada, Campanhas promocionais  .. Segmentação/agrupamento: Segmenta a base de dados em grupos por suas similaridade e diferenças O sistema tem que descobrir por si próprio as similaridade e diferenças  ( A.Ñ.S.) Ex: Clientes de bom crédito e clientes de mau crédito Funções do data mining
O Processo Data Mining Fases / Etapas . Seleção. Pré-processamento. Transformação. Data mining.  Interpretação e Avaliação .
O Processo Data Mining Seleção Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Pré-processamento  Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Ex. :O sexo de um paciente gestante Reconfiguração dos dados para assegurar formatos consistentes (identificação) Ex. : sexo = “F”  ou “M”   sexo = “M” ou  “H”
Transformação Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Ex: rede neural    converter valor literal em valor numérico  Disponibilizar os dados de maneira usável e navegável. Data mining É a verdadeira extração dos padrões de comportamento dos dados Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles. O Processo Data Mining
Interpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Ex.: Tarefas de previsões e classificações O Processo Data Mining Seleção Pré-processamento Transformação Data mining Interpretação e avaliação Conhecimento Dados 1 os . dados Dados  pré-processados Dados  transformados Padrões Graficamente temos:
Uma arquitetura data mining Resultados 1º   Data warehouse com dados pertinentes ao negócio; 2º   Servidor OLAP permitindo ao usuário analisar os dados do D.W. de forma mais produtiva ; 4º    Modelos de metadados definidos pelo data mining 3º    Integrar   o D.W. e o OLAP com o D.M. (permitir decisões oper.) 1 o . passo 2 o . passo 4 o . passo 3 o . passo
Tópicos da Apresentação Introdução  Background  Tarefas Processo Uma arquitetura Técnicas  Exemplos Referências
Revisão geral de Aprendizagem:  Técnicas Técnicas Abordadas Lógica ID3 Aprendizagem Indutiva CBR Estatística Não Simbólica Simbólica Alg.Genéticos Rede Neural
Técnicas  Indução Regras indutivas (rule induction) Regra indutiva é o processo de olhar uma série de dados e, a partir dela, gerar padrões. Pode-se trabalhar com dados numéricos ou não Pelo fato de explorar uma série de dados, o sistema indutivo cria hipóteses  que conduzem a padrões Ex.: Analisada as idades de profissionais foi gerada a seguinte regra: Se profissão =  atleta ENTÃO idade < 30 Regras cobertas     comportamentos estáveis  Regras inexatas     margem de precisão “fixada”  (%)
Técnicas Indução: Regras indutivas (graficamente temos)
Técnicas Árvores de decisão: (ID3)  - 1 o  Exemplo  Representações simples do conhecimento Utilização de regras condicionais A partir de um conjunto de valores decide SIM ou NÃO  Mais rápida e mais compreensível que redes neurais Exemplo: Sair ou não de acordo com o tempo Predicado objetivo: Sair  ou  Não Sair Sair Umidade Chuvoso Nublado Ensolarado Tempo Ñ Sair Alta Sair Normal Muito vento Ñ Sair Sim Sair Não
Técnicas Árvores de decisão: (ID3) - 2 o  Exemplo  Risco de ter crédito Risco de não ter crédito Risco de ter crédito SIM SIM SIM NÃO NÃO NÃO Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”. Classificação de um indivíduo com risco de ter ou não crédito Predicado objetivo: Crédito  ou  Não  Renda > R$ 4.000,00 Dívida < 10% da renda ? Dívida = 0%
Técnicas Redes Neurais: É uma abordagem computacional que envolve desenvolvimento de  estruturas matemáticas com a habilidade de aprender . (modelo do sistema nervoso para aprender) Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios/nós), que possuem entrada, saída e processamento.  São organizados em camadas que aprendem pela modificação da conexão. Arquitetura:
Técnicas Redes Neurais: Para construir um modelo neural, nós primeiramente &quot;adestramos&quot; a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições.  Problemas: Não retorna informação a priori Não pode ser treinada em uma grande base de dados Entrada não pode ser dados alfa-numéricos (mapear para numérico) Nenhuma explanação dos dados é fornecida (caixa preta)
Técnicas Redes Neurais: Exemplo prático: risco de câncer Data mining - Clementine User Guide
Redes Neurais:  - 2 o  Exemplo  Técnicas As redes neurais usam seus dados de entrada. Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de saída. Nível de entrada Nível oculto Nível de saída RENDA REG. DE PAGAMENTO IDADE DÉBITO Risco de ter crédito Risco de não ter crédito
Exemplos Áreas de aplicações potenciais: Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”
Exemplos Áreas de aplicações potenciais: Bancos   Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas  Mercado Financeiro   ($$$)
Exemplos Áreas de aplicações potenciais (continuação): Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde
Introdução Exemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% .
Exemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining  Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220v
Exemplos Exemplo (3) - Bank of America (Info 03/98) Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes  Tinham filhos com idades entre 18 e 21 anos Resultado   em três anos o banco lucrou  30 milhões de   dólares  com a carteira de empréstimos.
Exemplos Empresas de software para Data mining: SAS http://www.sas.com Information Havesting http://www.convex.com Red Brick http://www.redbrick.com Oracle http://www.oracle.com Sybase http://www.sybase.com Informix http://www.informix.com IBM http://www.ibm.com
Conclusões Data mininig é um processo que permite compreender o comportamento dos dados  Data mining X Data warehouse Tem um suporte muito forte em I. A. Pode ser bem aplicado em diversas  áreas de negócios Só será eficiente se o valor das informações extraídas exceder o custo do processamento dos dados brutos. Ainda não há um consenso entre os autores.
Conclusões Perguntas ?
Conclusões Muita informação = Nenhuma  informação ? Muita  Informação ?
Referências Livros:
Referências Artigos e endereços na Internet: [01] http://www-pcc.qub.ac.uk/tec/courses/datamining [02] http://www.rio.com.br/~extended [03] http://www.datamining.com [04] http://www.santafe.edu/~kurt [05] http://www.datamation.com [06] http://www-dse.doc.ic.ac.uk/~kd [07] http://www.cs.bham.ac.uk/~anp [08] http://www.dbms.com/  (Vários artigos) [09] http://www.infolink.com.br/~mpolito/mining/mining.html [10] http://www.lci.ufrj.br/~labbd/semins/grupo1
 

Mais conteúdo relacionado

PDF
Apresentação data mining
PPTX
KDD e Data Mining
PPT
Data mining
PPTX
Data Mining
PPTX
Técnicas de data mining
PDF
Data mining: Auxiliando as empresas na tomada de decisão
PPTX
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
PDF
Mineração de dados
Apresentação data mining
KDD e Data Mining
Data mining
Data Mining
Técnicas de data mining
Data mining: Auxiliando as empresas na tomada de decisão
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Mineração de dados

Mais procurados (20)

PDF
Data warehouse & data mining
PDF
PPT
Data warehouse & Data mining
PDF
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
PDF
Big data e mineração de dados
PDF
Palestra garimpando com pentaho data mining latinoware
PPT
Data mining
PDF
Weka pentaho day2014-fidelis
PDF
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
PPTX
Data Mining e Data Warehouse
ODP
Pentaho Weka latinoware
PDF
Mineração de dados
PDF
Business Intelligence - Data Warehouse
PPTX
Palestra Ciência de Dados
PPTX
Introdução ao Data Warehouse
ODP
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
PDF
Datawarehouse
PPTX
2011: Mineração de Dados - Conceitos Básicos e Aplicações
PDF
Data science
PPTX
Data Warehouse
Data warehouse & data mining
Data warehouse & Data mining
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Big data e mineração de dados
Palestra garimpando com pentaho data mining latinoware
Data mining
Weka pentaho day2014-fidelis
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Data Mining e Data Warehouse
Pentaho Weka latinoware
Mineração de dados
Business Intelligence - Data Warehouse
Palestra Ciência de Dados
Introdução ao Data Warehouse
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Datawarehouse
2011: Mineração de Dados - Conceitos Básicos e Aplicações
Data science
Data Warehouse
Anúncio

Semelhante a Data mining (20)

PPTX
Data Mining (mineração de dados)
PDF
Inteligencia de negócios
PPT
mineracao-de-dadominedracao-de-dados.ppt
PPTX
Técnicas de data mining
PDF
Desvendando os mistérios do Data Science
PDF
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
PDF
Mineração Livre de Dados
PDF
Apresentação Banco de Dados Avançado.pdf
DOCX
Mineração de Dados
PDF
Flisol 2016 fidelis - Curitiba - PR - Brazil
PDF
Apresentção sobre machine learning, IA, inteligencia artificial
PPTX
Mineração de dados_escobar2.0
PDF
Big Data x Data Mining - Hadoop
PDF
Aula de apresentação de data mining e big data.
PPTX
Mineração_de_Dados.pptx
PDF
Conhecendo mineração de dados
PDF
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
PDF
Big Data: Desafios e Oportunidades
PPTX
Sistemas de Informação em Marketing
Data Mining (mineração de dados)
Inteligencia de negócios
mineracao-de-dadominedracao-de-dados.ppt
Técnicas de data mining
Desvendando os mistérios do Data Science
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Mineração Livre de Dados
Apresentação Banco de Dados Avançado.pdf
Mineração de Dados
Flisol 2016 fidelis - Curitiba - PR - Brazil
Apresentção sobre machine learning, IA, inteligencia artificial
Mineração de dados_escobar2.0
Big Data x Data Mining - Hadoop
Aula de apresentação de data mining e big data.
Mineração_de_Dados.pptx
Conhecendo mineração de dados
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Big Data: Desafios e Oportunidades
Sistemas de Informação em Marketing
Anúncio

Data mining

  • 1. DATA MINING Disciplina Banco de Dados 1998 Alunos Fernando Silvera Goulart Júnior - [email_address] Robson do Nascimento Fidalgo - rdnf@di.ufpe.br Orientadores Ana Carolina Salgado - acs@di.ufpe.br Fernando Fonseca - fdfd@di.ufpe.br
  • 2. Tópicos da Apresentação Introdução Background Funções Processo Uma arquitetura Técnicas Exemplos Referências
  • 3. Introdução Motivações Grande disponibilidade de dados armazenados eletronicamente Existem informações úteis , invisíveis , nesses grandes volumes de dados Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados). [01] Queens University - Belfast
  • 4. Introdução O que é Data mining: “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não . Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. Seu objetivo é encontrar, automaticamente, padrões , anomalias e regras com o propósito de transformar dados, aparentemente ocultos , em informações úteis para a tomada de decisão e/ou avaliação de resultados. Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)
  • 5. Introdução Exemplo : Conclusões : Produtos azuis são de alto lucro ou Arizona é um lucro baixo
  • 6. Introdução Uma empresa utilizando data mining é capaz de: Criar parâmetros para entender o comportamento do consumidor; Identificar afinidades entre as escolhas de produtos e serviços; Prever hábitos de compras; Analisar comportamentos habituais para detectar fraudes. [09] - Dissertação - UERJ (1997)
  • 7. Introdução Data mining X Data warehouse: Data mining  extração inteligente de dados; Data warehouse  repositório centralizado de dados; Data mining não é uma evolução do Data warehouse; Data mining não depende do Data warehouse, mas obtém-se melhores resultados quando aplicados em conjunto; Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas); Data Warehouse aliado a ferramentas estatísticas desempenham papel semelhante ao data mining, mas não descobrem novos padrões de comportamento . (a não ser empiricamente).
  • 9. Como fazer Data Mining ? Aprendizagem computacional (Machine-learning) Automação do processo de aprendizagem , através da construção de regras baseadas em observações dos estados e transações do ambiente . Examina os exemplos e seus resultados e aprende como reproduzi-los e como fazer generalizações sobre novos casos O Background para data mining
  • 10. Aprendizagem indutiva: Faz análise nos dados para encontrar padrões Agrupa objetos similares em classes Formula regras Aprendizagem supervisionada (A.S.) Aprende baseando-se em exemplos (“professor” ajuda a construir um modelo def. classes e fornecendo exemplos de cada classe  formular a descrição e a forma da classe) Ex. Classificação de madeiras Aprendizagem não supervisionada (A.Ñ.S.) Aprende baseando-se em observações e descobertas (não se def. classes, deve-se observar os exemplos e reconhecer os padrões por si só  uma descrição de classes para cada ambiente). Ex. Classificação de madeiras O Background para data mining
  • 11. Modelo de verificação (Aprendizagem supervisionada) Aprende baseando-se em exemplos pré-classificados (+/-) Objetivo: formular descrições consistentes e gerais de classes em função de seus atributos . Ex.: Cartões de credito O Background para data mining Inadimplente - OK + HIPOTESES
  • 12. Modelo de descoberta (Aprendizagem ñ supervisionada) Aprende baseando-se em observações e descobertas ; Descoberta automática de informações ocultas; Procura ocorrências de padrões , tendências e generalizações sobre os dados sem a intervenção do usuário; Agrupar elementos similares, Como agrupar os alunos da disciplina ? O Background para data mining
  • 13. Modelo de classificação : Atributos + significativos def. um classe O usuário define as atributos para cada classe (A.S.) Aplica regras para criar modelos de ações futuras Ex: Clientes com bom crédito ñ podem dever mais 10% Associação: Procura registos que tenham similaridades associativas Podem ser expressados por regras Ex: 62% dos compradores de guaraná compram pipoca 62% fator de confiança LHS (left hand side) RHS (right hand side) Funções do data mining L H S Guaraná R H S Pipoca G + P 62% ... ...
  • 14. Padrões temporais/seqüenciais : Analisa registros num período de tempo, procurando encontrar padrões (eventos/compras) de comportamento. Identificar o perfil do cliente Identificar padrões que precedem outros padrões Ex: Mala direta personalizada, Campanhas promocionais .. Segmentação/agrupamento: Segmenta a base de dados em grupos por suas similaridade e diferenças O sistema tem que descobrir por si próprio as similaridade e diferenças ( A.Ñ.S.) Ex: Clientes de bom crédito e clientes de mau crédito Funções do data mining
  • 15. O Processo Data Mining Fases / Etapas . Seleção. Pré-processamento. Transformação. Data mining. Interpretação e Avaliação .
  • 16. O Processo Data Mining Seleção Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Pré-processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Ex. :O sexo de um paciente gestante Reconfiguração dos dados para assegurar formatos consistentes (identificação) Ex. : sexo = “F” ou “M” sexo = “M” ou “H”
  • 17. Transformação Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Ex: rede neural  converter valor literal em valor numérico Disponibilizar os dados de maneira usável e navegável. Data mining É a verdadeira extração dos padrões de comportamento dos dados Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles. O Processo Data Mining
  • 18. Interpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Ex.: Tarefas de previsões e classificações O Processo Data Mining Seleção Pré-processamento Transformação Data mining Interpretação e avaliação Conhecimento Dados 1 os . dados Dados pré-processados Dados transformados Padrões Graficamente temos:
  • 19. Uma arquitetura data mining Resultados 1º  Data warehouse com dados pertinentes ao negócio; 2º  Servidor OLAP permitindo ao usuário analisar os dados do D.W. de forma mais produtiva ; 4º  Modelos de metadados definidos pelo data mining 3º  Integrar o D.W. e o OLAP com o D.M. (permitir decisões oper.) 1 o . passo 2 o . passo 4 o . passo 3 o . passo
  • 20. Tópicos da Apresentação Introdução Background Tarefas Processo Uma arquitetura Técnicas Exemplos Referências
  • 21. Revisão geral de Aprendizagem: Técnicas Técnicas Abordadas Lógica ID3 Aprendizagem Indutiva CBR Estatística Não Simbólica Simbólica Alg.Genéticos Rede Neural
  • 22. Técnicas Indução Regras indutivas (rule induction) Regra indutiva é o processo de olhar uma série de dados e, a partir dela, gerar padrões. Pode-se trabalhar com dados numéricos ou não Pelo fato de explorar uma série de dados, o sistema indutivo cria hipóteses que conduzem a padrões Ex.: Analisada as idades de profissionais foi gerada a seguinte regra: Se profissão = atleta ENTÃO idade < 30 Regras cobertas  comportamentos estáveis Regras inexatas  margem de precisão “fixada” (%)
  • 23. Técnicas Indução: Regras indutivas (graficamente temos)
  • 24. Técnicas Árvores de decisão: (ID3) - 1 o Exemplo Representações simples do conhecimento Utilização de regras condicionais A partir de um conjunto de valores decide SIM ou NÃO Mais rápida e mais compreensível que redes neurais Exemplo: Sair ou não de acordo com o tempo Predicado objetivo: Sair ou Não Sair Sair Umidade Chuvoso Nublado Ensolarado Tempo Ñ Sair Alta Sair Normal Muito vento Ñ Sair Sim Sair Não
  • 25. Técnicas Árvores de decisão: (ID3) - 2 o Exemplo Risco de ter crédito Risco de não ter crédito Risco de ter crédito SIM SIM SIM NÃO NÃO NÃO Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”. Classificação de um indivíduo com risco de ter ou não crédito Predicado objetivo: Crédito ou Não Renda > R$ 4.000,00 Dívida < 10% da renda ? Dívida = 0%
  • 26. Técnicas Redes Neurais: É uma abordagem computacional que envolve desenvolvimento de estruturas matemáticas com a habilidade de aprender . (modelo do sistema nervoso para aprender) Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios/nós), que possuem entrada, saída e processamento. São organizados em camadas que aprendem pela modificação da conexão. Arquitetura:
  • 27. Técnicas Redes Neurais: Para construir um modelo neural, nós primeiramente &quot;adestramos&quot; a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. Problemas: Não retorna informação a priori Não pode ser treinada em uma grande base de dados Entrada não pode ser dados alfa-numéricos (mapear para numérico) Nenhuma explanação dos dados é fornecida (caixa preta)
  • 28. Técnicas Redes Neurais: Exemplo prático: risco de câncer Data mining - Clementine User Guide
  • 29. Redes Neurais: - 2 o Exemplo Técnicas As redes neurais usam seus dados de entrada. Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de saída. Nível de entrada Nível oculto Nível de saída RENDA REG. DE PAGAMENTO IDADE DÉBITO Risco de ter crédito Risco de não ter crédito
  • 30. Exemplos Áreas de aplicações potenciais: Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais”
  • 31. Exemplos Áreas de aplicações potenciais: Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$)
  • 32. Exemplos Áreas de aplicações potenciais (continuação): Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde
  • 33. Introdução Exemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% .
  • 34. Exemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220v
  • 35. Exemplos Exemplo (3) - Bank of America (Info 03/98) Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.
  • 36. Exemplos Empresas de software para Data mining: SAS http://www.sas.com Information Havesting http://www.convex.com Red Brick http://www.redbrick.com Oracle http://www.oracle.com Sybase http://www.sybase.com Informix http://www.informix.com IBM http://www.ibm.com
  • 37. Conclusões Data mininig é um processo que permite compreender o comportamento dos dados Data mining X Data warehouse Tem um suporte muito forte em I. A. Pode ser bem aplicado em diversas áreas de negócios Só será eficiente se o valor das informações extraídas exceder o custo do processamento dos dados brutos. Ainda não há um consenso entre os autores.
  • 39. Conclusões Muita informação = Nenhuma informação ? Muita Informação ?
  • 41. Referências Artigos e endereços na Internet: [01] http://www-pcc.qub.ac.uk/tec/courses/datamining [02] http://www.rio.com.br/~extended [03] http://www.datamining.com [04] http://www.santafe.edu/~kurt [05] http://www.datamation.com [06] http://www-dse.doc.ic.ac.uk/~kd [07] http://www.cs.bham.ac.uk/~anp [08] http://www.dbms.com/ (Vários artigos) [09] http://www.infolink.com.br/~mpolito/mining/mining.html [10] http://www.lci.ufrj.br/~labbd/semins/grupo1
  • 42.