SlideShare une entreprise Scribd logo
>  Automated Variable Weighting    in k-Means Type Clustering   ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005 )  Présentation 28 Septembre 2010 [email_address]
Sommaire La classification  La méthode des K-moyennes Automatisation de la pondération des poids Résultats obtenus Limites de l’étude
1. La classification   La classification (clustering)
1. La classification  Exemples d’applications de la  classification  Marketing  : trouver des groupes de clients similaires Biologie  : classer des plantes selon leurs caractéristiques Algorithmes évolutionnistes  : améliorer la diversité des   croisements.  …
Sommaire La classification   La méthode des K-moyennes Automatisation de la pondération des poids Résultats obtenus Limites de l’étude
2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2)  k  groupes sont créés en associant chaque individu au centre le plus proche.   1)  k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres.  4) Les étapes 2 et 3 sont répétées aussi longtemps que les centres ne sont pas stabilisés  Stabilisation des centres et fin
2. La méthode des K-moyennes Les limites de l’algorithme des K-moyennes : Nécessité de l’existence d’une distance Choix du nombre de classes Influence du choix des centres initiaux sur le résultat Sensible au bruit
2. La méthode des K-moyennes Les limites de l’algorithme des K-moyennes : Nécessité de l’existence d’une distance Choix du nombre de classes Influence du choix des centres initiaux sur le résultat Sensible au bruit
2. La méthode des K-moyennes Exemple en 3D : x 1  et x 2  sont ok pour la classification, x 3  est du bruit x 1  et x 2 x 1  et x 3 x 2  et x 3 Classification obtenue
Sommaire La classification   La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Résultats obtenus Limites de l’étude
3. K-moyennes avec pondération des poids dynamique K-moyennes avec pondération des poids dynamique ( Automated Variable Weighting in k-Means Type Clustering – 2005) Idée  : Pondérer chaque variable afin de pouvoir donner un poids plus faible aux variables affectées par un bruit important. Existant : Modha et Spangler y ont déjà pensé… mais les poids qu’ils utilisaient étaient calculés au tout début de l’algorithme. Ici, les poids vont être calculer dynamiquement, à chaque itérations de l’algorithme des K-moyennes.
3. K-moyennes avec pondération des poids dynamique 2)  k  groupes sont créés en associant chaque individu au centre le plus proche.   1)  k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres.  5) Les étapes 2, 3 et 4 sont répétées aussi longtemps que les centres ne sont pas stabilisés  Stabilisation des centres et fin 4) Calcul des poids
3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l
3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
3. K-moyennes avec pondération des poids dynamique Calcul des poids Fonction à minimiser :  Contrainte :    Multiplicateurs de Lagrange !
3. K-moyennes avec pondération des poids dynamique Calcul des poids Le Lagrangien :  On dérive :
3. K-moyennes avec pondération des poids dynamique Calcul des poids On voit : D’où : CQFD ! De plus :
3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l  signifie que l’objet i est affecté à la classe l d(x i,j  , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j  telles que D j   ≠  0 z l,j  est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
Sommaire La classification   La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Expériences Limites de l’étude
4. Expériences Expérience 1 : Avec un jeu de données synthétique 5 Variables, 300 individus : X 1 , X 2 , X 3  : Données formant 3 classes nettes X 4 , X 5   : Bruit Comme nous connaissons les 3 classes, nous allons  comparer  les résultats obtenus par l’algorithme des K-moyennes standard avec l’algorithme des K-moyennes avec pondération des poids dynamique. Pour effectuer cette comparaison, nous utiliserons l’ indice de Rand  et le  clustering accuracy  qui permettent d’évaluer la performance d’une classification par comparaison avec la classification voulue.
4. Expériences Indice de Rand : Clustering accuracy : a i  est le nombre de points affectés à la bonne classe N est le nombre total de point
4. Expériences Indice de Rand : Clustering accuracy : a i  est le nombre de points affectés à la bonne classe N est le nombre total de point Erratum
4. Expériences X 1 , X 2 , X 3  : Données formant 3 classes nettes
4. Expériences X 4 , X 5   : Bruit
4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes  classique 3) Algorithme K-moyennes classique 4) Recalcul des poids 5) Retour à étape 3.  Après 10 itérations, finir la boucle
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats
4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération  des poids dynamique Résultats Problème commun :  La classification dépend des centroïdes et poids initiaux
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids convergent de façon similaire :
4. Expériences Solution commune :  Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
4. Expériences Expérience 2 : Avec 2 jeux de données réels Australian Credit Card data :  690 individus, 5 variables quantitatives, 8 variables qualitatives. Heart Diseases :  270 individus, 6 variables quantitatives, 9 variables qualitatives. Objectifs  :  Évaluer l’impact de  β , paramètres utilisés dans la formule de  calcul des poids. 2) Comparer les résultats obtenus avec les études précédentes  réalisées sur ces mêmes jeux de données.
4. Expériences Résultats Australian Credit Card data
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes !
4. Expériences Résultats Australian Credit Card data   +0.02 de prévision que les études précédentes ! Erratum : 0.85 est aussi atteint lorsque = 8
4. Expériences Résultats Heart Diseases
4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
4. Expériences Qu’en est-il des poids ?
4. Expériences Qu’en est-il des poids ?
4. Expériences Résultats en supprimant les variables au poids faible  Australian Credit Card data
4. Expériences Australian Credit Card data   +0.03 de prévision que les études précédentes ! Résultats en supprimant les variables au poids faible
4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poids faible
4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici moins bons qu’avant la suppression des variables Résultats en supprimant les variables au poids faible
Sommaire La classification   La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Résultats obtenus Limites de l’étude
5. Limites de l’étude 1) Le choix de  β  semble vraiment empirique. L’étude constate simplement que selon la valeur de  β , les résultats de la classification varient beaucoup, et que le meilleur résultat est meilleur que les résultats obtenus avec d’autres algorithmes des K-moyennes. Constatation, mais pas interprétation.
5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
5. Limites de l’étude 2) Complexité de l’algorithme ? L’article indique que la complexité est de O(tmnk) avec : k est le nombre de classes ; m est le nombre de variables ; n est le nombre d’individus ; t est le nombre d’itérations de l’algorithme. t ne devrait pas figurer dans O, car en incluant dedans, la complexité de l’algorithme n’est plus du tout estimable.
5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri   bubble sort  est  О(n²),  n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de bubble sort pourrait être également être notée  O(t)  (car une itération est O(1)). quicksort sort  est  О(nlogn),  n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de quicksort pourrait être également être notée  O(t)  (car une itération est O(1)). Conclusion  : En utilisant un t indiquant le nombre d'itérations, cela rend les complexités incomparables entre elles. Même si cela permet d'évaluer la complexité d'une seule itération
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
5. Limites de l’étude Conclusion Une étude très intéressante améliorant un algorithme classique de clarification (K-moyennes) Une approche dynamique des poids semblant bien fondée et répondant à un besoin existant. Les résultats semblent prometteurs mais auraient mérité à être mieux explorés.
Questions ?

Contenu connexe

PPT
Cours cluster si2e
PPT
Clustering
PPT
clustering
PDF
Exposé segmentation
PDF
Convex Multi-Task Feature Learning
PDF
5.5 Clustering
PPTX
Problème De Sac à Dos
PDF
Diviser Pour Régner
Cours cluster si2e
Clustering
clustering
Exposé segmentation
Convex Multi-Task Feature Learning
5.5 Clustering
Problème De Sac à Dos
Diviser Pour Régner

Tendances (13)

PDF
5.1 K plus proches voisins
PPTX
Les 10 plus populaires algorithmes du machine learning
PPTX
melange de gaussienne
PDF
Clustering efficace avec les divergences de bregman
PDF
Espace vectoriel
PPTX
Algorithme knn
PDF
Cours groupe
PDF
Chapitre v algorithmes gloutons
PDF
Chapitre 3 la recherche tabou
PPTX
Introduction to Machine learning
PDF
Chapitre 4 heuristiques et méta heuristiques
PDF
5.4 Arbres et forêts aléatoires
PDF
Rapport kmeans
5.1 K plus proches voisins
Les 10 plus populaires algorithmes du machine learning
melange de gaussienne
Clustering efficace avec les divergences de bregman
Espace vectoriel
Algorithme knn
Cours groupe
Chapitre v algorithmes gloutons
Chapitre 3 la recherche tabou
Introduction to Machine learning
Chapitre 4 heuristiques et méta heuristiques
5.4 Arbres et forêts aléatoires
Rapport kmeans
Publicité

En vedette (20)

PDF
Pourquoi en comment intégrer des graphiques dans mes présentations
PDF
Data mining - Introduction générale
PDF
Alternative Methods for Qualifying EEE Parts for CubeSats
PDF
K means Clustering
PPT
K mean-clustering algorithm
PPT
K means Clustering Algorithm
PPTX
Presentación1
PPTX
proceso de la evaluación
PDF
Brochure anahita
ODP
Open Source et Agilité
PDF
A VENDRE PROPRIETE FORET DE COMPIEGNE
PDF
Beaujolaisnouveau
PDF
Illusion4
PPS
1 lederniermot
PPS
Letimbre
PDF
PPT
Saint Sigismond l'année 2014 en images. Vœux 2015
PPS
Le test du_chat
PDF
Services marchands diapo
PPT
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
Pourquoi en comment intégrer des graphiques dans mes présentations
Data mining - Introduction générale
Alternative Methods for Qualifying EEE Parts for CubeSats
K means Clustering
K mean-clustering algorithm
K means Clustering Algorithm
Presentación1
proceso de la evaluación
Brochure anahita
Open Source et Agilité
A VENDRE PROPRIETE FORET DE COMPIEGNE
Beaujolaisnouveau
Illusion4
1 lederniermot
Letimbre
Saint Sigismond l'année 2014 en images. Vœux 2015
Le test du_chat
Services marchands diapo
L’impact des médias sociaux et des usages numériques sur la conduite de l’act...
Publicité

Similaire à Presentation - Automated Variable Weighting in k-Means Type Clustering (20)

PDF
les_arbres_de_dc3a9cisions_-corrigée.pdf
PDF
Apprentissage supervisé.pdf
PDF
comprehension clustering CHA.pdf
PPT
Clustering is a data analysis technique used to group
PDF
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
PDF
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
PPTX
K plus proches vois Algorithmes de machine Learning
PDF
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
PDF
Chapitre_3_Apprentissage_a_laide_des_Arbres_de_Decision.pdf
PDF
Ch6 Introduction à la Science de Données.pdf
PPT
Stat6 Chideux
PDF
Controle de gestion
PDF
STATISTIQUE-Cours
PDF
Arbre de décision.pdf
PDF
GIND5439_Chapitre6.pdf
PDF
cours machine learning k nn, k means , data
PPTX
PDF
Metrologie termilnal
PPT
arbres de decision.ppt
les_arbres_de_dc3a9cisions_-corrigée.pdf
Apprentissage supervisé.pdf
comprehension clustering CHA.pdf
Clustering is a data analysis technique used to group
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
K plus proches vois Algorithmes de machine Learning
toaz.info-clustering-1-pr_7c021feec2e58f2cfdcdf6fe5c0cfc03.pdf
Chapitre_3_Apprentissage_a_laide_des_Arbres_de_Decision.pdf
Ch6 Introduction à la Science de Données.pdf
Stat6 Chideux
Controle de gestion
STATISTIQUE-Cours
Arbre de décision.pdf
GIND5439_Chapitre6.pdf
cours machine learning k nn, k means , data
Metrologie termilnal
arbres de decision.ppt

Dernier (7)

PDF
REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR SH
PDF
REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR
PDF
Digitevent - Présentation Salons et congrès 2025
DOCX
rapport d'activité sur l'hygiène publique
PDF
Leçon 2_ 21 leviers à connaitre pour construire sa différenciation (1).pdf
PDF
SUNRISE_ENGINEERING_BROCH_CAP_2025-5.pdf
PDF
presentation offres CID 2022 centre de congres
REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR SH
REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR REGLEMENT _INTERIEUR
Digitevent - Présentation Salons et congrès 2025
rapport d'activité sur l'hygiène publique
Leçon 2_ 21 leviers à connaitre pour construire sa différenciation (1).pdf
SUNRISE_ENGINEERING_BROCH_CAP_2025-5.pdf
presentation offres CID 2022 centre de congres

Presentation - Automated Variable Weighting in k-Means Type Clustering

  • 1. > Automated Variable Weighting in k-Means Type Clustering ( Huang, J.Z.; Ng, M.K.; Hongqiang Rong; Zichen Li. ; 2005 ) Présentation 28 Septembre 2010 [email_address]
  • 2. Sommaire La classification La méthode des K-moyennes Automatisation de la pondération des poids Résultats obtenus Limites de l’étude
  • 3. 1. La classification La classification (clustering)
  • 4. 1. La classification Exemples d’applications de la classification Marketing : trouver des groupes de clients similaires Biologie : classer des plantes selon leurs caractéristiques Algorithmes évolutionnistes : améliorer la diversité des croisements. …
  • 5. Sommaire La classification La méthode des K-moyennes Automatisation de la pondération des poids Résultats obtenus Limites de l’étude
  • 6. 2. La méthode des K-moyennes K-moyennes (K-means) Une méthode non supervisée MacQueen, 1967 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 4) Les étapes 2 et 3 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin
  • 7. 2. La méthode des K-moyennes Les limites de l’algorithme des K-moyennes : Nécessité de l’existence d’une distance Choix du nombre de classes Influence du choix des centres initiaux sur le résultat Sensible au bruit
  • 8. 2. La méthode des K-moyennes Les limites de l’algorithme des K-moyennes : Nécessité de l’existence d’une distance Choix du nombre de classes Influence du choix des centres initiaux sur le résultat Sensible au bruit
  • 9. 2. La méthode des K-moyennes Exemple en 3D : x 1 et x 2 sont ok pour la classification, x 3 est du bruit x 1 et x 2 x 1 et x 3 x 2 et x 3 Classification obtenue
  • 10. Sommaire La classification La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Résultats obtenus Limites de l’étude
  • 11. 3. K-moyennes avec pondération des poids dynamique K-moyennes avec pondération des poids dynamique ( Automated Variable Weighting in k-Means Type Clustering – 2005) Idée : Pondérer chaque variable afin de pouvoir donner un poids plus faible aux variables affectées par un bruit important. Existant : Modha et Spangler y ont déjà pensé… mais les poids qu’ils utilisaient étaient calculés au tout début de l’algorithme. Ici, les poids vont être calculer dynamiquement, à chaque itérations de l’algorithme des K-moyennes.
  • 12. 3. K-moyennes avec pondération des poids dynamique 2) k  groupes sont créés en associant chaque individu au centre le plus proche. 1) k  centres initiaux sont sélectionnés aléatoirement parmi l'ensemble des données (ici k=3 ) 3) Les centroïdes de chaque groupe deviennent les nouveaux centres. 5) Les étapes 2, 3 et 4 sont répétées aussi longtemps que les centres ne sont pas stabilisés Stabilisation des centres et fin 4) Calcul des poids
  • 13. 3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l
  • 14. 3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
  • 15. 3. K-moyennes avec pondération des poids dynamique Calcul des poids Fonction à minimiser : Contrainte :  Multiplicateurs de Lagrange !
  • 16. 3. K-moyennes avec pondération des poids dynamique Calcul des poids Le Lagrangien : On dérive :
  • 17. 3. K-moyennes avec pondération des poids dynamique Calcul des poids On voit : D’où : CQFD ! De plus :
  • 18. 3. K-moyennes avec pondération des poids dynamique Calcul des poids - Théorème avec Où u i,l signifie que l’objet i est affecté à la classe l d(x i,j , z l,j ) est la distance entre les objets x et z h est le nombre de variables D j telles que D j ≠ 0 z l,j est la valeur de la variable j du centroïde du cluster l Idée : Donner un poids faible pour les variables dont la valeur de chacun des individus est en moyenne éloigner des centroïdes
  • 19. Sommaire La classification La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Expériences Limites de l’étude
  • 20. 4. Expériences Expérience 1 : Avec un jeu de données synthétique 5 Variables, 300 individus : X 1 , X 2 , X 3 : Données formant 3 classes nettes X 4 , X 5 : Bruit Comme nous connaissons les 3 classes, nous allons comparer les résultats obtenus par l’algorithme des K-moyennes standard avec l’algorithme des K-moyennes avec pondération des poids dynamique. Pour effectuer cette comparaison, nous utiliserons l’ indice de Rand et le clustering accuracy qui permettent d’évaluer la performance d’une classification par comparaison avec la classification voulue.
  • 21. 4. Expériences Indice de Rand : Clustering accuracy : a i est le nombre de points affectés à la bonne classe N est le nombre total de point
  • 22. 4. Expériences Indice de Rand : Clustering accuracy : a i est le nombre de points affectés à la bonne classe N est le nombre total de point Erratum
  • 23. 4. Expériences X 1 , X 2 , X 3 : Données formant 3 classes nettes
  • 24. 4. Expériences X 4 , X 5 : Bruit
  • 25. 4. Expériences Expérience : 1) Génération des données 2) Choix aléatoire des poids 3) Algorithme K-moyennes classique 3) Algorithme K-moyennes classique 4) Recalcul des poids 5) Retour à étape 3. Après 10 itérations, finir la boucle
  • 26. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats
  • 27. 4. Expériences Algorithme K-moyennes classique K-moyennes avec pondération des poids dynamique Résultats Problème commun : La classification dépend des centroïdes et poids initiaux
  • 28. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Les poids convergent de façon similaire :
  • 29. 4. Expériences Solution commune : Faire tourner les algorithmes plusieurs fois et prendre le meilleur résultat. Résultats :
  • 30. 4. Expériences Expérience 2 : Avec 2 jeux de données réels Australian Credit Card data : 690 individus, 5 variables quantitatives, 8 variables qualitatives. Heart Diseases : 270 individus, 6 variables quantitatives, 9 variables qualitatives. Objectifs : Évaluer l’impact de β , paramètres utilisés dans la formule de calcul des poids. 2) Comparer les résultats obtenus avec les études précédentes réalisées sur ces mêmes jeux de données.
  • 31. 4. Expériences Résultats Australian Credit Card data
  • 32. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes !
  • 33. 4. Expériences Résultats Australian Credit Card data +0.02 de prévision que les études précédentes ! Erratum : 0.85 est aussi atteint lorsque = 8
  • 34. 4. Expériences Résultats Heart Diseases
  • 35. 4. Expériences Résultats Heart Diseases +0.02 de prévision que les études précédentes !
  • 36. 4. Expériences Qu’en est-il des poids ?
  • 37. 4. Expériences Qu’en est-il des poids ?
  • 38. 4. Expériences Résultats en supprimant les variables au poids faible Australian Credit Card data
  • 39. 4. Expériences Australian Credit Card data +0.03 de prévision que les études précédentes ! Résultats en supprimant les variables au poids faible
  • 40. 4. Expériences Heart Diseases Résultats en supprimant les variables au poids faible
  • 41. 4. Expériences +0.01 de prévision que les études précédentes ! Heart Diseases Résultats en supprimant les variables au poids faible
  • 42. 4. Expériences Résultats +0.01 de prévision que les études précédentes ! Heart Diseases Erratum : Les résultats sont ici moins bons qu’avant la suppression des variables Résultats en supprimant les variables au poids faible
  • 43. Sommaire La classification La méthode des K-moyennes K-moyennes avec pondération des poids dynamique Résultats obtenus Limites de l’étude
  • 44. 5. Limites de l’étude 1) Le choix de β semble vraiment empirique. L’étude constate simplement que selon la valeur de β , les résultats de la classification varient beaucoup, et que le meilleur résultat est meilleur que les résultats obtenus avec d’autres algorithmes des K-moyennes. Constatation, mais pas interprétation.
  • 45. 5. Limites de l’étude Heart Diseases Résultats en supprimant les variables au poids faible
  • 46. 5. Limites de l’étude 2) Complexité de l’algorithme ? L’article indique que la complexité est de O(tmnk) avec : k est le nombre de classes ; m est le nombre de variables ; n est le nombre d’individus ; t est le nombre d’itérations de l’algorithme. t ne devrait pas figurer dans O, car en incluant dedans, la complexité de l’algorithme n’est plus du tout estimable.
  • 47. 5. Limites de l’étude 2) Complexité de l’algorithme ? Exemple avec deux algorithmes de tri bubble sort est О(n²), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de bubble sort pourrait être également être notée O(t) (car une itération est O(1)). quicksort sort est О(nlogn), n étant le nombre d’éléments à classer. En utilisant un t indiquant le nombre d'itérations, la complexité de quicksort pourrait être également être notée O(t) (car une itération est O(1)). Conclusion : En utilisant un t indiquant le nombre d'itérations, cela rend les complexités incomparables entre elles. Même si cela permet d'évaluer la complexité d'une seule itération
  • 48. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  • 49. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Cet étude utilise l’indice de Rand et le clustering accuracy. Nous avons vu les différences entre ses deux indices sont parfois très importants.
  • 50. 5. Limites de l’étude 3) Mesure de qualité de l’indice de qualité ? Quid des autres ?
  • 51. 5. Limites de l’étude Conclusion Une étude très intéressante améliorant un algorithme classique de clarification (K-moyennes) Une approche dynamique des poids semblant bien fondée et répondant à un besoin existant. Les résultats semblent prometteurs mais auraient mérité à être mieux explorés.