SlideShare uma empresa Scribd logo
. 
. 
Constrained K-means Clustering with Background 
Knowledge 
COP-Kmeans 
Sibelius Seraphini 
Instituto de Ciências Matemáticas e de Computação 
Universidade de São Paulo 
1 de dezembro de 2014 
Sibelius Seraphini COP-Kmeans 1 / 14
. k-Means 
1. Escolhe aleatoriamente k centros para os clusters 
2. Atribuir cada objeto para o cluster de centro mais próximo 
3. Atualizar cada centro para a média dos objetos do cluster 
correspondente 
Sibelius Seraphini COP-Kmeans 2 / 14
. 
k-Means 
Perspectiva de Otimização 
Variância intra-cluster 
min 
8< : 
KΣ 
k=1 
LΣ 
i=1 
2 
4(xi; ck) 
NΣ 
j=1 
(xij  xkj)2 
9= 
3 
5 
; 
Sibelius Seraphini COP-Kmeans 3 / 14
. Como incorporar conhecimento prévio? 
Agrupamento de Dados Semi-Supervisionado 
Restrições 
Nível de Instância 
Nível de Cluster 
Sibelius Seraphini COP-Kmeans 4 / 14
. Restrições (COP-kMeans) 
Restrições em Nível de Instância 
Must-Link — duas instâncias devem estar no mesmo cluster 
Cannot-Link — duas instâncias não devem estar no mesmo 
cluster 
Restrições nunca são quebradas 
Sibelius Seraphini COP-Kmeans 5 / 14
. COP-kMeans 
1. Escolhe aleatoriamente k centros para os clusters 
2. Atribuir cada objeto para o cluster de centro mais próximo 
sem violar as restrições 
3. Atualizar cada centro para a média dos objetos do cluster 
correspondente 
Sibelius Seraphini COP-Kmeans 6 / 14
. Tratando Restrições 
Para todos as instâncias tentar atribuí-lo ao centro k mais próximo 
1. Sem restrição quebrada 
Atribuir a instância i ao cluster k 
2. Restrição quebrada ! existe outro próximo cluster? 
Retorna para 1, se sim 
Falhar 
Sibelius Seraphini COP-Kmeans 7 / 14
. 
COP-kMeans 
Perspectiva de Otimização 
min 
{ΣKk 
=1 
ΣLi 
=1 
[ 
(xi; ck) 
ΣN j=1(xij  xkj)2 
]} 
sujeito a 
1 
2 
ΣL 
i=1 
ΣLj 
=1 
[ 
Con(i; j)  
[ 1 
2 Con(i; j)
(Ii; Ij) + 1 
2 
]] 
= 0 
Con(i; j) = 
8 
: 
1; se xi e xj é Must-Link 
1; se xi e xj é Cannot-Link 
0; caso contrário
(Ii; Ij) = 
{ 
1; se Ii = Ij 
0; caso contrário 
Sibelius Seraphini COP-Kmeans 8 / 14
. Resultados Experimentais 
(K. Wagstaff et al. 2001) 
Sibelius Seraphini COP-Kmeans 9 / 14
. 
Resultados Experimentais 
Descoberta de pista utilizando GPS 
(K. Wagstaff et al. 2001) 
Sibelius Seraphini COP-Kmeans 10 / 14
. Limitações 
Sensível a ordem de atribuição 
Solucionado por (Hong e Kwong 2009), usando um conjunto 
de algoritmos de agrupamento 
Sibelius Seraphini COP-Kmeans 11 / 14
. Quando restrições são vantajosas? 
Mesmo número de restrições leva a diferentes desempenhos 
(K. L. Wagstaff, Basu e 
Davidson 2006) 
Inconsistência 
Média de restrições 
insatisfeitas utilizando o 
algoritmo sem restrições 
Incoerência 
Os pontos envolvidos na 
restrição ML deveriam 
estar perto, enquanto que 
pontos envolvidos na 
restrição CL deveriam 
estar afastados 
Sibelius Seraphini COP-Kmeans 12 / 14

Mais conteúdo relacionado

PPT
Clustering
PDF
Fisica exercicios resolvidos 002
PDF
Flask - Backend com Python - Semcomp 18
PDF
Acumen Pitch - Sua Ideia na Prática (SINP) São Paulo - SP - Ideation Brasil
PDF
Reconhecendo atividades físicas utilizando um smartphone não rigidamente fi...
PDF
Blind Verification of Digital Image Originality: A Statistical Approach
PPT
FlexInterface: a Framework to Provide Flexible Mobile Phone User Interfaces -...
PDF
An Analytic Approach to Evaluate Flexible Mobile User Interfaces for the Elde...
Clustering
Fisica exercicios resolvidos 002
Flask - Backend com Python - Semcomp 18
Acumen Pitch - Sua Ideia na Prática (SINP) São Paulo - SP - Ideation Brasil
Reconhecendo atividades físicas utilizando um smartphone não rigidamente fi...
Blind Verification of Digital Image Originality: A Statistical Approach
FlexInterface: a Framework to Provide Flexible Mobile Phone User Interfaces -...
An Analytic Approach to Evaluate Flexible Mobile User Interfaces for the Elde...

Último (19)

PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
PDF
Aula04-Academia Heri- Tecnologia Geral 2025
PPTX
Aula 18 - Manipulacao De Arquivos python
PDF
Apple Pippin Uma breve introdução. - David Glotz
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PPTX
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PPTX
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Aula04-Academia Heri- Tecnologia Geral 2025
Aula 18 - Manipulacao De Arquivos python
Apple Pippin Uma breve introdução. - David Glotz
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Processos na gestão de transportes, TM100 Col18
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
BANCO DE DADOS - AULAS INICIAIS-sgbd.pptx
Custos e liquidação no SAP Transportation Management, TM130 Col18
Aula16ManipulaçãoDadosssssssssssssssssssssssssssss
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
COBITxITIL-Entenda as diferença em uso governança TI
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Anúncio
Anúncio

Constrained k means clustering with background knowledge - COP-Kmeans

  • 1. . . Constrained K-means Clustering with Background Knowledge COP-Kmeans Sibelius Seraphini Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo 1 de dezembro de 2014 Sibelius Seraphini COP-Kmeans 1 / 14
  • 2. . k-Means 1. Escolhe aleatoriamente k centros para os clusters 2. Atribuir cada objeto para o cluster de centro mais próximo 3. Atualizar cada centro para a média dos objetos do cluster correspondente Sibelius Seraphini COP-Kmeans 2 / 14
  • 3. . k-Means Perspectiva de Otimização Variância intra-cluster min 8< : KΣ k=1 LΣ i=1 2 4(xi; ck) NΣ j=1 (xij xkj)2 9= 3 5 ; Sibelius Seraphini COP-Kmeans 3 / 14
  • 4. . Como incorporar conhecimento prévio? Agrupamento de Dados Semi-Supervisionado Restrições Nível de Instância Nível de Cluster Sibelius Seraphini COP-Kmeans 4 / 14
  • 5. . Restrições (COP-kMeans) Restrições em Nível de Instância Must-Link — duas instâncias devem estar no mesmo cluster Cannot-Link — duas instâncias não devem estar no mesmo cluster Restrições nunca são quebradas Sibelius Seraphini COP-Kmeans 5 / 14
  • 6. . COP-kMeans 1. Escolhe aleatoriamente k centros para os clusters 2. Atribuir cada objeto para o cluster de centro mais próximo sem violar as restrições 3. Atualizar cada centro para a média dos objetos do cluster correspondente Sibelius Seraphini COP-Kmeans 6 / 14
  • 7. . Tratando Restrições Para todos as instâncias tentar atribuí-lo ao centro k mais próximo 1. Sem restrição quebrada Atribuir a instância i ao cluster k 2. Restrição quebrada ! existe outro próximo cluster? Retorna para 1, se sim Falhar Sibelius Seraphini COP-Kmeans 7 / 14
  • 8. . COP-kMeans Perspectiva de Otimização min {ΣKk =1 ΣLi =1 [ (xi; ck) ΣN j=1(xij xkj)2 ]} sujeito a 1 2 ΣL i=1 ΣLj =1 [ Con(i; j) [ 1 2 Con(i; j)
  • 9. (Ii; Ij) + 1 2 ]] = 0 Con(i; j) = 8 : 1; se xi e xj é Must-Link 1; se xi e xj é Cannot-Link 0; caso contrário
  • 10. (Ii; Ij) = { 1; se Ii = Ij 0; caso contrário Sibelius Seraphini COP-Kmeans 8 / 14
  • 11. . Resultados Experimentais (K. Wagstaff et al. 2001) Sibelius Seraphini COP-Kmeans 9 / 14
  • 12. . Resultados Experimentais Descoberta de pista utilizando GPS (K. Wagstaff et al. 2001) Sibelius Seraphini COP-Kmeans 10 / 14
  • 13. . Limitações Sensível a ordem de atribuição Solucionado por (Hong e Kwong 2009), usando um conjunto de algoritmos de agrupamento Sibelius Seraphini COP-Kmeans 11 / 14
  • 14. . Quando restrições são vantajosas? Mesmo número de restrições leva a diferentes desempenhos (K. L. Wagstaff, Basu e Davidson 2006) Inconsistência Média de restrições insatisfeitas utilizando o algoritmo sem restrições Incoerência Os pontos envolvidos na restrição ML deveriam estar perto, enquanto que pontos envolvidos na restrição CL deveriam estar afastados Sibelius Seraphini COP-Kmeans 12 / 14
  • 15. . Agrupamento de Dados Semi-Supervisionado PC-KMeans - satisfação de restrição soft, i.e., algumas restrições podem ser quebradas (Bilenko, Basu e Mooney 2004) M-KMeans - aprendizagem de métrica (função de distância) utilizando as restrições (Bilenko, Basu e Mooney 2004) MPC-KMeans - abordagem hibrida - aprendizagem de métrica e de satisfação de restrição soft (Bilenko, Basu e Mooney 2004) Sibelius Seraphini COP-Kmeans 13 / 14
  • 16. . Referências Mikhail Bilenko, Sugato Basu e Raymond J Mooney. “Integrating constraints and metric learning in semi-supervised clustering”. Em: Proceedings of the twenty-first international conference on Machine learning. ACM. 2004, p. 11. Yi Hong e Sam Kwong. “Learning assignment order of instances for the constrained k-means clustering algorithm”. Em: Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on 39.2 (2009), pp. 568–574. Kiri Wagstaff et al. “Constrained k-means clustering with background knowledge”. Em: ICML. Vol. 1. 2001, pp. 577–584. Kiri L Wagstaff, Sugato Basu e Ian Davidson. “When is constrained clustering beneficial, and why?” Em: Ionosphere 58.60.1 (2006), pp. 62–3. Sibelius Seraphini COP-Kmeans 14 / 14