SlideShare uma empresa Scribd logo
Clustering
“Uma técnica de Data Mining para
agrupamentos de dados segundo seu
grau de semelhança.”
- Wikipedia
Fernando Machado fm@fmachado.com http://twitter.com/fmachado
Agenda
• Por que este tema?
• Data Mining
– Exemplos de casos reais
– Processo de descoberta de conhecimento
(KDD)
• Clustering
– Algoritmo K-means
Por que Clustering?
• Primeiros contatos
– 1999 a 2002
• Extração de notícias da web
– Versões até 2002
• Supervisão humana permanente
• Manutenção constante
• Alta taxa de erros
• Falhas na arquitetura
Por que Clustering?
• Extração de notícias da web
– Versão 2009 - ...
• Supervisão humana mínima
– Exceto no início onde houve treinamento
• Manutenção mínima
– Infraestrutura
• Taxa de erros < 5%
– Inteligência Artificial básica
• Escalável e alto desempenho
– Horizontal e vertical
– Seach-engine alta performance
www.guianews.com.br
em 02/dez/2000
www.guianews.com.br
em 19/mar/2010
Clustering
Afinal, o que é
e para que serve
Clustering?
Clustering
Afinal, o que é
e para que serve
Clustering
Data Mining?
Data Mining
É o processo de
descoberta
automática de
informações úteis
em grandes
depósitos de dados.
Data Mining
Grandes depósitos
de dados?
Quão grande são
esses depósitos?
Data Mining
Yahoo! Groups
40 TB de dados para indexar
Data Mining
Possui aproximadamente 19 PB de
dados transferidos através de sua
rede a cada dia
1 petabyte = 1.024 terabytes
19 petabytes = 19.456 terabytes
Data Mining
• Em maio de 2009, o Brasil chegou à
157.501.813 acessos no Serviço Móvel
Pessoal (...).
• A Vivo ainda lidera o mercado com
29,38% de participação (...).
• Como a Vivo faz para identificar
tendências ou o comportamento de
seus ~45.675.525 clientes?
Data Mining
• Atua sobre grandes bancos de dados;
• Visa descobrir padrões
úteis e recentes;
• Envolve estatística e
algoritmos sofisticados;
Data Mining – Padrões?
• Esta é uma compra fraudulenta?
• Que tipo de produto devo oferecer para
este cliente?
• Como as mudanças nas sequências do
DNA de um indivíduo afetam o risco do
desenvolvimento de novas doenças?
Data Mining
• Data mining é uma parte integral da
descoberta de conhecimento em banco
de dados (KDD);
• KDD Knowledge Discovery in Database
– Processo geral de conversão de dados brutos
em informações úteis.
Clustering
Afinal, o que é
e para que serve
Clustering?
Clustering
• Uma técnica de Data Mining para
agrupamentos de dados segundo seu
grau de semelhança.
• Você consegue identificar visualmente
agrupamentos?
Clustering
Clustering
Clustering
Clustering
Clustering
Clustering
• Em Data Mining, uma das atividades
obrigatórias é o pré-processamento.
• Verificação dos dados:
– Ignorar registros errados?
• É possível alguém ter filhos aos 10 anos de idade?
• É possível que ela esteja trabalhando nesta
empresa?
– Que valores adotar quando um atributo não
estiver preenchido?
Clustering
Visualmente é fácil?
Vamos ver usando matemática...

Mais conteúdo relacionado

PDF
Gestão Ágil de Dados com Enterprise Data Fabric
PDF
Qual é o futuro da estratégia de dados?
PDF
ROI e Valor Econômico da Virtualização de Dados
PDF
Virtualização de dados para Advanced Analytics e Machine Learning
PDF
Wiseminer Self-Service Data Analytics
PPTX
Hackathon Inmetrics e Fiap: Desafios do Big Data
PDF
Data mesh-pt
PDF
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Gestão Ágil de Dados com Enterprise Data Fabric
Qual é o futuro da estratégia de dados?
ROI e Valor Econômico da Virtualização de Dados
Virtualização de dados para Advanced Analytics e Machine Learning
Wiseminer Self-Service Data Analytics
Hackathon Inmetrics e Fiap: Desafios do Big Data
Data mesh-pt
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...

Mais procurados (20)

PPTX
BIG data
PDF
Cloud tendências 2018
PDF
Instituto Infnet - BigData e Hadoop
PPTX
Introdução - Big Data e Business Intelligence
PPTX
Governança de dados - Power Bi Talks 3ª Edição
PPTX
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
PPTX
Governança de Dados para BI, em tempos de Self-Service BI
ODP
Big Data - Conceitos Básicos
PPTX
TIEnergia2016
PDF
Software as a Service
PPTX
Apresentação Institucional - Qlik Sense 3.0
PDF
Hadoop Day - MeetUp - O poder da Informação
PPTX
Apresentação Executiva Paralelo CS - Qlik - Business Intelligence
PDF
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
PDF
Guia sobre análise de dados e aprendizado de máquina para CIO.
PDF
Apostila sobre Big Data
PDF
As 10 principais tendências em business intelligence para 2015
PDF
Adriano Amaral - Novas Tendências
BIG data
Cloud tendências 2018
Instituto Infnet - BigData e Hadoop
Introdução - Big Data e Business Intelligence
Governança de dados - Power Bi Talks 3ª Edição
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Governança de Dados para BI, em tempos de Self-Service BI
Big Data - Conceitos Básicos
TIEnergia2016
Software as a Service
Apresentação Institucional - Qlik Sense 3.0
Hadoop Day - MeetUp - O poder da Informação
Apresentação Executiva Paralelo CS - Qlik - Business Intelligence
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Guia sobre análise de dados e aprendizado de máquina para CIO.
Apostila sobre Big Data
As 10 principais tendências em business intelligence para 2015
Adriano Amaral - Novas Tendências
Anúncio

Destaque (6)

PPTX
Business Intelligence & Data Mining - Knowledge Discovery in Databases
PPT
Data mining
PPTX
Técnicas de data mining
PDF
Apresentação data mining
PPTX
Data Mining
PDF
Data warehouse & data mining
Business Intelligence & Data Mining - Knowledge Discovery in Databases
Data mining
Técnicas de data mining
Apresentação data mining
Data Mining
Data warehouse & data mining
Anúncio

Semelhante a Clustering (20)

PPTX
KDD e Data Mining
PDF
Big Data x Data Mining - Hadoop
PDF
Aula de apresentação de data mining e big data.
PPT
Data mining
PDF
introdução a mineração de dados (noções )
PPT
Data mining
DOCX
Clustering informatizado
PPTX
Mic bh - data mining
PDF
Palestra garimpando com pentaho data mining latinoware
PPTX
Data Mining (mineração de dados)
PDF
Flisol 2016 fidelis - Curitiba - PR - Brazil
PDF
Weka pentaho day2014-fidelis
PPT
mineracao-de-dadominedracao-de-dados.ppt
DOCX
Mineração de Dados
PDF
Minicurso de mineração de dados
PPT
PDF
Mineração de Dados com Mapas de Kohonen: Uma Abordagem no Setor Financeiro
PDF
Introdução ao KDD-Knowledge Discovery in Databases
PPTX
Introducao -a- Mineração -de- Dados.pptx
PDF
Mineração de dados
KDD e Data Mining
Big Data x Data Mining - Hadoop
Aula de apresentação de data mining e big data.
Data mining
introdução a mineração de dados (noções )
Data mining
Clustering informatizado
Mic bh - data mining
Palestra garimpando com pentaho data mining latinoware
Data Mining (mineração de dados)
Flisol 2016 fidelis - Curitiba - PR - Brazil
Weka pentaho day2014-fidelis
mineracao-de-dadominedracao-de-dados.ppt
Mineração de Dados
Minicurso de mineração de dados
Mineração de Dados com Mapas de Kohonen: Uma Abordagem no Setor Financeiro
Introdução ao KDD-Knowledge Discovery in Databases
Introducao -a- Mineração -de- Dados.pptx
Mineração de dados

Último (8)

PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PDF
Manejo integrado de pragas na cultura do algodão
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PPTX
Arquitetura de computadores - Memórias Secundárias
PPTX
Mecânico de Manutenção de Equipamentos.pptx
Viasol Energia Solar -Soluções para geração e economia de energia
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Manejo integrado de pragas na cultura do algodão
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Arquitetura de computadores - Memórias Secundárias
Mecânico de Manutenção de Equipamentos.pptx

Clustering

  • 1. Clustering “Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.” - Wikipedia Fernando Machado fm@fmachado.com http://twitter.com/fmachado
  • 2. Agenda • Por que este tema? • Data Mining – Exemplos de casos reais – Processo de descoberta de conhecimento (KDD) • Clustering – Algoritmo K-means
  • 3. Por que Clustering? • Primeiros contatos – 1999 a 2002 • Extração de notícias da web – Versões até 2002 • Supervisão humana permanente • Manutenção constante • Alta taxa de erros • Falhas na arquitetura
  • 4. Por que Clustering? • Extração de notícias da web – Versão 2009 - ... • Supervisão humana mínima – Exceto no início onde houve treinamento • Manutenção mínima – Infraestrutura • Taxa de erros < 5% – Inteligência Artificial básica • Escalável e alto desempenho – Horizontal e vertical – Seach-engine alta performance
  • 8. Afinal, o que é e para que serve Clustering?
  • 10. Afinal, o que é e para que serve Clustering Data Mining?
  • 11. Data Mining É o processo de descoberta automática de informações úteis em grandes depósitos de dados.
  • 12. Data Mining Grandes depósitos de dados? Quão grande são esses depósitos?
  • 13. Data Mining Yahoo! Groups 40 TB de dados para indexar
  • 14. Data Mining Possui aproximadamente 19 PB de dados transferidos através de sua rede a cada dia
  • 15. 1 petabyte = 1.024 terabytes 19 petabytes = 19.456 terabytes
  • 16. Data Mining • Em maio de 2009, o Brasil chegou à 157.501.813 acessos no Serviço Móvel Pessoal (...). • A Vivo ainda lidera o mercado com 29,38% de participação (...). • Como a Vivo faz para identificar tendências ou o comportamento de seus ~45.675.525 clientes?
  • 17. Data Mining • Atua sobre grandes bancos de dados; • Visa descobrir padrões úteis e recentes; • Envolve estatística e algoritmos sofisticados;
  • 18. Data Mining – Padrões? • Esta é uma compra fraudulenta? • Que tipo de produto devo oferecer para este cliente? • Como as mudanças nas sequências do DNA de um indivíduo afetam o risco do desenvolvimento de novas doenças?
  • 19. Data Mining • Data mining é uma parte integral da descoberta de conhecimento em banco de dados (KDD); • KDD Knowledge Discovery in Database – Processo geral de conversão de dados brutos em informações úteis.
  • 21. Afinal, o que é e para que serve Clustering?
  • 22. Clustering • Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança. • Você consegue identificar visualmente agrupamentos?
  • 28. Clustering • Em Data Mining, uma das atividades obrigatórias é o pré-processamento. • Verificação dos dados: – Ignorar registros errados? • É possível alguém ter filhos aos 10 anos de idade? • É possível que ela esteja trabalhando nesta empresa? – Que valores adotar quando um atributo não estiver preenchido?
  • 30. Visualmente é fácil? Vamos ver usando matemática...

Notas do Editor

  • #4: Em 1999 eu fui convidado a ser sócio de uma empresa de tecnologia e um dos produtos que comecei a desenvolver desde que entrei foi uma engine de busca e extração de notícias da internet, bem antes do lançamento do Google News. As primeiras versões do software necessitavam de acompanhamento humano contínuo já que a forma de identificar uma notícia era completamente manual. O sistema possuía uma alta taxa de erros devido a mudanças na estrutura dos sites de notícias e falhas na arquitetura do software (desempenho e escalabilidade).
  • #5: No final de 2008 eu fui convidado pelo meu ex-sócio a refazer a engine. Apesar de não ter desenvolvido outros softwares similares, continuei lendo a respeito e estudando o assunto. No início de 2009, uma nova versão foi colocada no ar e agora com melhorias significativas, onde eu pude colocar em prática o que aprendi nos anos após minha saída da empresa.
  • #6: Esta é a versão do projeto em dezembro de 2002 obtida através do www.archive.org. Se beleza representasse qualidade de software, a foto diz tudo.
  • #7: Esta é a versão do projeto em março de 2009. Agora a engine é capaz de identificar o conteúdo do site de forma automática e sem intervenção humana.
  • #14: Fonte: http://en.wikipedia.org/wiki/Terabyte
  • #15: Fonte: http://en.wikipedia.org/wiki/Petabyte
  • #17: Fonte: http://www.itweb.com.br/noticias/index.asp?cod=58401
  • #19: Fonte: http://en.wikipedia.org/wiki/Data_mining
  • #20: Fonte: http://en.wikipedia.org/wiki/Data_mining