SlideShare uma empresa Scribd logo
Mineração de Dados
Seminário
Aluno Leandro Escobar
Professora Dra Denise Tsunoda
mineraçãodedados CONTEXTO
O volume de dados armazenados ultrapassa a capacidade de análise de
pesquisadores e analistas;
A capacidade de integração de diferentes bases de dados aprofunda este
limite, trazendo mais desafios
Por exemplo:
- Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2
minutos.
- Quantos indicadores são monitorados em todos os leitos de uma UTI por dia?
- Quais são as principais causas de baixa qualidade na montagem de motores de
automóveis? Quantos dados sobre a montagem de motores são ou podem ser
coletados ao ano?
- Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas
redes sociais? O que elas estão dizendo?
- Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que
elas compram?
mineraçãodedados CONTEXTO
Dado:
- Símbolos que representam a observação do mundo real ou virtual.
- Não possuem significado
- Por exemplo, defina o que é
- João
- 100
Informação:
- Atribuição de significado aos dados = transmutação do dado em significado
- Por exemplo:
- Cliente: João da Silva
- Saldo em conta corrente = R$ 100,00
Conhecimento:
- Significado contextualizado e carregado de possibilidades práticas.
- Permite a tomada de decisão
- Por exemplo:
- Dias para o final do mês = 22
- Saldo para consumo = R$ 1.000
- Média de consumo diário = R$ 80,00
- E agora?????
mineraçãodedados MINERAÇÃO DE DADOS
Aplicação de algoritmos para encontrar padrões e relações em bancos de dados,
apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa
(REZENDE, 2005).
• O conhecimento a ser descoberto deve:
– Ser correto
– Compreensível por humanos
– Interessante, útil, novo
– Eficiente, acurado:
• Matemática = exatidão de uma tabela ou expressão
• Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos
isentos de erro
– Genérico
• Aplicável a vários tipos de dados e situações
– Flexível
• Facilmente modificável
(STEINER et al, 2006)
A tomada de decisão precisa estar alicerçada em argumentos baseados em
conhecimentos básicos da área aplicada, bem como na informação, regularidade e
tendências extraídas dos dados (COLLAZZOS, 2002).
mineraçãodedados MODELOS E TAREFAS DE MINERAÇÃO DE DADOS
Mineração de dados
Descritiva
Preditiva
Agrupamento
Clustering
Regras de Associação
Association Rules
Sumarização
Summarization
Classificação
Classification
Regressão
Regretion
mineraçãodedados MODELOS E TAREFAS
Classificação: Categorizar dados em classes
Determinar o risco de fraudes;
 Identificar a melhor forma de tratamento de um paciente.
Regressão: Definir um valor para variáveis contínuas desconhecidas
 Estimar a probabilidade de morte de um paciente
 Prever a demanda para um novo produto
Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação
 Determinar quais os produtos são adquiridos simultaneamente em uma transação.
Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos
mais homogêneos
 Agrupar clientes com comportamento de compra similar;
 Agrupar seções de usuários Web para prever comportamento futuro de usuário.
Sumarização: Mapear os dados em classes com descrições simplificadas
 Caracterizar os alunos de um curso (por Sexo e Faixa etária);
 Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de
defeito).
mineraçãodedados KDD – KNOWLEDGE DISCOVERY IN DATA BASES
• Processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e potencialmente
úteis a partir de grandes conjuntos de dados é composto de cinco etapas
Fayyad, Piatetsky-Shapiro e Smyth (1996)
mineraçãodedados DESAFIOS COMUNS APRESENTADOS
• Explorar os dados (com métodos estatísticos) contribui para a melhoria da
acurácia dos resultados da mineração de dados (STEINER, 2006)
• Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um
desafio à mineração de dados por conta da distribuição de atributos em
diferentes repositórios
• Os dados devem ser coletados corretamente, justificados e criticados para
que se possa evitar a necessidade de dispensar muito tempo na sua
preparação (COLLAZOS, 2002)
• Utilizar protocolos específicos para avaliar e validar a eficiência das
soluções / resultados da mineração de dados (LE et al 2011)
mineraçãodedados DIFICULDADES FREQUENTES
• Determinação dos atributos alvo
– Descobrir atributos relevantes que possam sustentar uma hipótese sobre o
modelo a ser obtido
• Ausência de dados
– Dados relevantes para a identificação de padrões podem não estar disponíveis
para todas as instâncias.
– Alguns dados não são preenchidos porque não são inquiridos/coletados.
DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às
dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a
velocidade da mudança é maior que a velocidade de construção de sistemas
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Estabelecer uma correlação estatística entre atributos de dados e conjuntos
de dados.
• Encontrar um conjunto de itens frequentes em registros ou transações de
dados e identificar a influência desses conjuntos na presença de outro
conjunto
• Se x então y
• Traduzindo:
• O Produto A foi adquirido em 90% das transações, destas, 45% também
adquiriram o Produto B
Produto B <-- Produto A (Suporte= 90%| Confiança = 45%)
Consequente Antecedente Métricas da Regra
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Traduza a seguinte regra de associação, retirada de uma base de dados de
desempenho acadêmico
Análise_de_dados=Rep <-- Estatística=Rep
(S= 95%; C=98%)
• Este padrão é surpreendente?? Por quê?
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que
compõem os carrinhos de compra.
• Qual é a relação entre SKOL e BOHEMIA?
• Calcular o SUPORTE da SKOL = X / N
– X = número de repetições do item na base
– N = total de registros na base
– 4/7 = 57%
• Calcular a Confiança “SKOL e BOHEMIA” = XUY / X
– XUY = repetições do conjunto (Skol e Bohemia)
– 2/4 = 50%
• BOHEMIA <- SKOL (S=57%; C=50%)
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
mineraçãodedados EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Qual é a relação entre KAISER, SPOLER e BHRAMA?
• Calcular o SUPORTE de “KAISER e SPOLER”= X / N
– X = número de repetições do item na base
– N = total de registros na base
• Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X
– XUY = repetições do conjunto
• R: ?
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
mineraçãodedados
DEMONSTRAÇÃO DO ALGORÍTMO APRIORI
mineraçãodedados
MUITO OBRIGADO!

Mais conteúdo relacionado

PPTX
Aplicação dos modelos de previsão de insolvência, nas empresas BM&F BOVESPA q...
PPTX
Td parte1 e_2
PPT
Data mining
ODP
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
PPT
mineracao-de-dadominedracao-de-dados.ppt
PDF
Apresentação Banco de Dados Avançado.pdf
PDF
PDF
Aula de apresentação de data mining e big data.
Aplicação dos modelos de previsão de insolvência, nas empresas BM&F BOVESPA q...
Td parte1 e_2
Data mining
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
mineracao-de-dadominedracao-de-dados.ppt
Apresentação Banco de Dados Avançado.pdf
Aula de apresentação de data mining e big data.

Semelhante a Mineração de dados_escobar2.0 (20)

PPT
2021 10 03 Pesquisa e Sistema de Compra do Consumidor Aula 7.ppt
PDF
Mineração Livre de Dados
PDF
Apresentação Floripa tech day 240819
PPT
Data mining
PDF
Tecnicas de Previsoes PPCP
PPT
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
PDF
Weka pentaho day2014-fidelis
PPTX
Gestão da Qualidade Total
DOCX
Atps estatistica 2
PPTX
Inteligência de negócios
PPTX
Inteligência de negócios
PDF
PDF
Flisol 2016 fidelis - Curitiba - PR - Brazil
PDF
Inteligencia de negócios
PPT
PPT
Sistemas de apoio à decisão - SAD
PDF
Mineração de dados
PDF
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
PDF
Inteligência de negócios
PDF
Virtualização de dados para Advanced Analytics e Machine Learning
2021 10 03 Pesquisa e Sistema de Compra do Consumidor Aula 7.ppt
Mineração Livre de Dados
Apresentação Floripa tech day 240819
Data mining
Tecnicas de Previsoes PPCP
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
Weka pentaho day2014-fidelis
Gestão da Qualidade Total
Atps estatistica 2
Inteligência de negócios
Inteligência de negócios
Flisol 2016 fidelis - Curitiba - PR - Brazil
Inteligencia de negócios
Sistemas de apoio à decisão - SAD
Mineração de dados
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Inteligência de negócios
Virtualização de dados para Advanced Analytics e Machine Learning
Anúncio

Último (20)

PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PPTX
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PPTX
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
PPTX
Curso de Java 9 - (Threads) Multitarefas.pptx
PPTX
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
PPTX
Aula sobre banco de dados com firebase db
PPTX
Aula 18 - Manipulacao De Arquivos python
PPTX
Émile Durkheim slide elaborado muito bom
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PPTX
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PDF
Apple Pippin Uma breve introdução. - David Glotz
PPTX
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
Aula sobre desenvolvimento de aplicativos
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Curso de Java 12 - (JDBC, Transation, Commit e Rollback).pptx
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Curso de Java 10 - (IO Manipulação de Arquivos).pptx
Curso de Java 9 - (Threads) Multitarefas.pptx
Curso de Java 17 - (JEE (Sessões e Cookies)).pptx
Aula sobre banco de dados com firebase db
Aula 18 - Manipulacao De Arquivos python
Émile Durkheim slide elaborado muito bom
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Curso de Java 13 - (JavaEE (JSP e Servlets)).pptx
Processos na gestão de transportes, TM100 Col18
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Apple Pippin Uma breve introdução. - David Glotz
Curso de Java 14 - (Explicações Adicionais (Classes Abstrata e Interface)).pptx
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Aula sobre desenvolvimento de aplicativos
Anúncio

Mineração de dados_escobar2.0

  • 1. Mineração de Dados Seminário Aluno Leandro Escobar Professora Dra Denise Tsunoda
  • 2. mineraçãodedados CONTEXTO O volume de dados armazenados ultrapassa a capacidade de análise de pesquisadores e analistas; A capacidade de integração de diferentes bases de dados aprofunda este limite, trazendo mais desafios Por exemplo: - Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2 minutos. - Quantos indicadores são monitorados em todos os leitos de uma UTI por dia? - Quais são as principais causas de baixa qualidade na montagem de motores de automóveis? Quantos dados sobre a montagem de motores são ou podem ser coletados ao ano? - Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas redes sociais? O que elas estão dizendo? - Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que elas compram?
  • 3. mineraçãodedados CONTEXTO Dado: - Símbolos que representam a observação do mundo real ou virtual. - Não possuem significado - Por exemplo, defina o que é - João - 100 Informação: - Atribuição de significado aos dados = transmutação do dado em significado - Por exemplo: - Cliente: João da Silva - Saldo em conta corrente = R$ 100,00 Conhecimento: - Significado contextualizado e carregado de possibilidades práticas. - Permite a tomada de decisão - Por exemplo: - Dias para o final do mês = 22 - Saldo para consumo = R$ 1.000 - Média de consumo diário = R$ 80,00 - E agora?????
  • 4. mineraçãodedados MINERAÇÃO DE DADOS Aplicação de algoritmos para encontrar padrões e relações em bancos de dados, apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa (REZENDE, 2005). • O conhecimento a ser descoberto deve: – Ser correto – Compreensível por humanos – Interessante, útil, novo – Eficiente, acurado: • Matemática = exatidão de uma tabela ou expressão • Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos isentos de erro – Genérico • Aplicável a vários tipos de dados e situações – Flexível • Facilmente modificável (STEINER et al, 2006) A tomada de decisão precisa estar alicerçada em argumentos baseados em conhecimentos básicos da área aplicada, bem como na informação, regularidade e tendências extraídas dos dados (COLLAZZOS, 2002).
  • 5. mineraçãodedados MODELOS E TAREFAS DE MINERAÇÃO DE DADOS Mineração de dados Descritiva Preditiva Agrupamento Clustering Regras de Associação Association Rules Sumarização Summarization Classificação Classification Regressão Regretion
  • 6. mineraçãodedados MODELOS E TAREFAS Classificação: Categorizar dados em classes Determinar o risco de fraudes;  Identificar a melhor forma de tratamento de um paciente. Regressão: Definir um valor para variáveis contínuas desconhecidas  Estimar a probabilidade de morte de um paciente  Prever a demanda para um novo produto Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação  Determinar quais os produtos são adquiridos simultaneamente em uma transação. Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos mais homogêneos  Agrupar clientes com comportamento de compra similar;  Agrupar seções de usuários Web para prever comportamento futuro de usuário. Sumarização: Mapear os dados em classes com descrições simplificadas  Caracterizar os alunos de um curso (por Sexo e Faixa etária);  Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de defeito).
  • 7. mineraçãodedados KDD – KNOWLEDGE DISCOVERY IN DATA BASES • Processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados é composto de cinco etapas Fayyad, Piatetsky-Shapiro e Smyth (1996)
  • 8. mineraçãodedados DESAFIOS COMUNS APRESENTADOS • Explorar os dados (com métodos estatísticos) contribui para a melhoria da acurácia dos resultados da mineração de dados (STEINER, 2006) • Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um desafio à mineração de dados por conta da distribuição de atributos em diferentes repositórios • Os dados devem ser coletados corretamente, justificados e criticados para que se possa evitar a necessidade de dispensar muito tempo na sua preparação (COLLAZOS, 2002) • Utilizar protocolos específicos para avaliar e validar a eficiência das soluções / resultados da mineração de dados (LE et al 2011)
  • 9. mineraçãodedados DIFICULDADES FREQUENTES • Determinação dos atributos alvo – Descobrir atributos relevantes que possam sustentar uma hipótese sobre o modelo a ser obtido • Ausência de dados – Dados relevantes para a identificação de padrões podem não estar disponíveis para todas as instâncias. – Alguns dados não são preenchidos porque não são inquiridos/coletados. DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a velocidade da mudança é maior que a velocidade de construção de sistemas
  • 10. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Estabelecer uma correlação estatística entre atributos de dados e conjuntos de dados. • Encontrar um conjunto de itens frequentes em registros ou transações de dados e identificar a influência desses conjuntos na presença de outro conjunto • Se x então y • Traduzindo: • O Produto A foi adquirido em 90% das transações, destas, 45% também adquiriram o Produto B Produto B <-- Produto A (Suporte= 90%| Confiança = 45%) Consequente Antecedente Métricas da Regra
  • 11. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Traduza a seguinte regra de associação, retirada de uma base de dados de desempenho acadêmico Análise_de_dados=Rep <-- Estatística=Rep (S= 95%; C=98%) • Este padrão é surpreendente?? Por quê?
  • 12. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que compõem os carrinhos de compra. • Qual é a relação entre SKOL e BOHEMIA? • Calcular o SUPORTE da SKOL = X / N – X = número de repetições do item na base – N = total de registros na base – 4/7 = 57% • Calcular a Confiança “SKOL e BOHEMIA” = XUY / X – XUY = repetições do conjunto (Skol e Bohemia) – 2/4 = 50% • BOHEMIA <- SKOL (S=57%; C=50%) # Transação 1 Skol, Bohemia, Devassa 2 Original. Bohemia, Eisenbahn, Budwiser 3 Skol, Polar, Spoler, Kaiser 4 Kaiser, Spoler, Bhrama 5 Original, Budweiser 6 Sol, Skol, Bhrama 7 Skol, Bohemia, Budweiser
  • 13. mineraçãodedados EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Qual é a relação entre KAISER, SPOLER e BHRAMA? • Calcular o SUPORTE de “KAISER e SPOLER”= X / N – X = número de repetições do item na base – N = total de registros na base • Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X – XUY = repetições do conjunto • R: ? # Transação 1 Skol, Bohemia, Devassa 2 Original. Bohemia, Eisenbahn, Budwiser 3 Skol, Polar, Spoler, Kaiser 4 Kaiser, Spoler, Bhrama 5 Original, Budweiser 6 Sol, Skol, Bhrama 7 Skol, Bohemia, Budweiser