SlideShare une entreprise Scribd logo
6
Plus lue
13
Plus lue
19
Plus lue
ok
ok
Plan
Définition de FP
Algorithme Apriori
Applications de FP
FP Growth
Etape de FP Growth
Exemple
Test avec pyfpgrowth
ok
Définition
Pattern (set of items, sequence, etc.), qui aparait fréquemment dans
une base de données (TI pixels)
Grace à fp mining nous pouvons répondre à:
Quels sont les produits qui ont souvent été achetés ensemble?
(lait et sucre)
Quelle est la prochaine cible après l'achat d'un PC
ok
Application de FP mining
FP mining peut servir à plusieurs tâches essentielles de fouile de
données :
association, corrélation, causalité
périodicité partielle, associations cycliques / temporelles
Applications:
analyse de données de paniers, marketing croisé, conception de catalogue,
analyse perte, classification, web log squence, analyse de l'ADN, etc.
ok
Algorithme Apriori
Proposé par Agrawal & Srikant 1994
Un algorithme de niveau similaire à celui de Mannila et al. 1994.
Idée principale:
Un sous-ensemble d'un ensemble d’item fréquent doit être fréquent
Par exemple, si {lait, sucre, café} est fréquent, {lait, café} doit être fréquent
lui aussi.
On remarque Si un sous ensemble est rare (pas fréquent), son sur-
ensemble peut ne pas l’ être !
ok
Algorithme Apriori
Le problème de la découverte de motifs fréquents dans ce cas consiste, étant donné un
contexte d’extraction défini
par un ensemble d’objets décrits par la liste de leurs attributs et un seuil de support
minimal minsup, à découvrir tous les motifs qui apparaissent plus de minsup fois dans
la
base. L’extraction des motifs fréquents consiste à parcourir itérativement par
niveaux l’ensemble des motifs. Durant chaque itération ou niveau k, un ensemble de
motifs candidats est créé en joignant les motifs fréquents découverts durant l’itération
précédente k-1 ; les supports de ces motifs sont calculés et les motifs non fréquents
sont
supprimés. Dans cette approche le problème de recherche de motifs fréquents est
exponentiel par rapport au nombre d’attributs. En effet, s’il y a n attributs, il y a 2n
motifs
possibles et dans le pire des cas ils sont tous fréquents. Ainsi la quantité énorme de
motifs
fréquents extraits requiert la mise en place d'un post-traitement efficace afin de cibler
les
motifs fréquents les plus utiles.
ok
Algorithme Apriori
L'algorithme Apriori:
Utilise des éléments fréquents (k-1) pour générer des k-itemsets
fréquents
L’étape importante d'Apriori: la génération des candidats et donc ensemble
de candidats énormes:
10^4 éléments fréquents 1-itemset va générer plus que 10^7 candidats 2-
itemsets
Pour trouver un motif fréquent de taille 100, par exemple {a1, a2, ..., a100},
il faut générer 2^100 cad environ 10^30 candidats.
Plusieurs parcours (scan) de la base de données:
Besoins (n +1) parcours, n est la longueur du motif le plus long
ok
FP Growth
Compression d’une base de données volumineuse en une structure
d'arbre compact (FP-tree).
fortement condensé, mais complet pour l’FP mining(aucune perte de
donnée)
éviter les plusieurs parcours de bases de données qui sont coûteuses
et les réduire en 2.
Évitez la génération de candidats: test sur sous-base de données
seulement!
ok
Fp tree
Ne casse jamais un long motif (pattern) d’une transaction.
Préserve des informations complètes pour l’FP mining.
Réduit les informations non pertinentes - les items peu fréquents sont
éliminés
Tri décroissante de fréquence: les items les plus fréquents sont plus
susceptibles d'être partagés.
Ne jamais dépasser la taille la base de données d'origine
ok
Pourquoi FP growth
Les études de performance montre que:
FPGrowth est plus rapide que Apriori, et aussi que la tree-projection
Pas de génération ni de test des candidats.
Utilise une structure de données compacte (FP-Tree)
Élimine les parcours répétée de la base de données
Opération basique dans la construction du FP-tree.
ok
Etape de FP growth
Construire FP tree:
1- Parcourir la base de donnée la première fois pour avoir les fréquence
des 1-itemset.
2- Trier les itemset en ordre décroissent selon leurs fréquence.
3- Un deuxième parcours pour la construction de l’FP Tree.
4- Construire conditional pattern base pour chaque noeud .
5- Construire conditional FP-tree pour chaque noeud.
6- Générer les motifs les plus fréquents
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exemple
ok
Exercice
Min support count 1
Transactions items
T1 1, 2, 4, 3
T2 1, 4, 3
T3 1, 4
ok
pyfpgrowth
Démo
ok

Contenu connexe

PPTX
Les algorithmes de génération des règles d association
PPTX
Introduction aux systèmes de recommandation.pptx
PDF
Data mining - Associativité
PDF
Cours ML et Deep Learning M2 2022-2023.pdf
PPT
PDF
Exposé segmentation
PPT
clustering
PDF
Introduction au Data Mining et Méthodes Statistiques
Les algorithmes de génération des règles d association
Introduction aux systèmes de recommandation.pptx
Data mining - Associativité
Cours ML et Deep Learning M2 2022-2023.pdf
Exposé segmentation
clustering
Introduction au Data Mining et Méthodes Statistiques

Tendances (20)

PPTX
Les algorithmes de génération des règles d association
PDF
Les systèmes de recommandations
PPTX
Règles d’association
PDF
Data Mining (Partie 1).pdf
PPTX
Présentation pfe
PPTX
Base de données graphe et Neo4j
PPTX
Techniques du data mining
PDF
Modélisation de données pour MongoDB
PPTX
Diagramme d'ishikawa Ansari Abdelali
PDF
BigData_Chp1: Introduction à la Big Data
PDF
exercices business intelligence
PDF
Cours d'introduction aux HTML5 & CSS3
PPTX
Introduction to Machine learning
PDF
Data mining - Introduction générale
PPT
Echantillonnage
PPTX
Calcul des prévisions
PDF
Exercice arbre de décision
PDF
Rapport data-mining
PDF
Support du cours : Programmation Web 2
PPTX
GP Chapitre 2 : Les méthodes de prévision
Les algorithmes de génération des règles d association
Les systèmes de recommandations
Règles d’association
Data Mining (Partie 1).pdf
Présentation pfe
Base de données graphe et Neo4j
Techniques du data mining
Modélisation de données pour MongoDB
Diagramme d'ishikawa Ansari Abdelali
BigData_Chp1: Introduction à la Big Data
exercices business intelligence
Cours d'introduction aux HTML5 & CSS3
Introduction to Machine learning
Data mining - Introduction générale
Echantillonnage
Calcul des prévisions
Exercice arbre de décision
Rapport data-mining
Support du cours : Programmation Web 2
GP Chapitre 2 : Les méthodes de prévision
Publicité

FP Growth Algorithm

  • 1. ok
  • 2. ok Plan Définition de FP Algorithme Apriori Applications de FP FP Growth Etape de FP Growth Exemple Test avec pyfpgrowth
  • 3. ok Définition Pattern (set of items, sequence, etc.), qui aparait fréquemment dans une base de données (TI pixels) Grace à fp mining nous pouvons répondre à: Quels sont les produits qui ont souvent été achetés ensemble? (lait et sucre) Quelle est la prochaine cible après l'achat d'un PC
  • 4. ok Application de FP mining FP mining peut servir à plusieurs tâches essentielles de fouile de données : association, corrélation, causalité périodicité partielle, associations cycliques / temporelles Applications: analyse de données de paniers, marketing croisé, conception de catalogue, analyse perte, classification, web log squence, analyse de l'ADN, etc.
  • 5. ok Algorithme Apriori Proposé par Agrawal & Srikant 1994 Un algorithme de niveau similaire à celui de Mannila et al. 1994. Idée principale: Un sous-ensemble d'un ensemble d’item fréquent doit être fréquent Par exemple, si {lait, sucre, café} est fréquent, {lait, café} doit être fréquent lui aussi. On remarque Si un sous ensemble est rare (pas fréquent), son sur- ensemble peut ne pas l’ être !
  • 6. ok Algorithme Apriori Le problème de la découverte de motifs fréquents dans ce cas consiste, étant donné un contexte d’extraction défini par un ensemble d’objets décrits par la liste de leurs attributs et un seuil de support minimal minsup, à découvrir tous les motifs qui apparaissent plus de minsup fois dans la base. L’extraction des motifs fréquents consiste à parcourir itérativement par niveaux l’ensemble des motifs. Durant chaque itération ou niveau k, un ensemble de motifs candidats est créé en joignant les motifs fréquents découverts durant l’itération précédente k-1 ; les supports de ces motifs sont calculés et les motifs non fréquents sont supprimés. Dans cette approche le problème de recherche de motifs fréquents est exponentiel par rapport au nombre d’attributs. En effet, s’il y a n attributs, il y a 2n motifs possibles et dans le pire des cas ils sont tous fréquents. Ainsi la quantité énorme de motifs fréquents extraits requiert la mise en place d'un post-traitement efficace afin de cibler les motifs fréquents les plus utiles.
  • 7. ok Algorithme Apriori L'algorithme Apriori: Utilise des éléments fréquents (k-1) pour générer des k-itemsets fréquents L’étape importante d'Apriori: la génération des candidats et donc ensemble de candidats énormes: 10^4 éléments fréquents 1-itemset va générer plus que 10^7 candidats 2- itemsets Pour trouver un motif fréquent de taille 100, par exemple {a1, a2, ..., a100}, il faut générer 2^100 cad environ 10^30 candidats. Plusieurs parcours (scan) de la base de données: Besoins (n +1) parcours, n est la longueur du motif le plus long
  • 8. ok FP Growth Compression d’une base de données volumineuse en une structure d'arbre compact (FP-tree). fortement condensé, mais complet pour l’FP mining(aucune perte de donnée) éviter les plusieurs parcours de bases de données qui sont coûteuses et les réduire en 2. Évitez la génération de candidats: test sur sous-base de données seulement!
  • 9. ok Fp tree Ne casse jamais un long motif (pattern) d’une transaction. Préserve des informations complètes pour l’FP mining. Réduit les informations non pertinentes - les items peu fréquents sont éliminés Tri décroissante de fréquence: les items les plus fréquents sont plus susceptibles d'être partagés. Ne jamais dépasser la taille la base de données d'origine
  • 10. ok Pourquoi FP growth Les études de performance montre que: FPGrowth est plus rapide que Apriori, et aussi que la tree-projection Pas de génération ni de test des candidats. Utilise une structure de données compacte (FP-Tree) Élimine les parcours répétée de la base de données Opération basique dans la construction du FP-tree.
  • 11. ok Etape de FP growth Construire FP tree: 1- Parcourir la base de donnée la première fois pour avoir les fréquence des 1-itemset. 2- Trier les itemset en ordre décroissent selon leurs fréquence. 3- Un deuxième parcours pour la construction de l’FP Tree. 4- Construire conditional pattern base pour chaque noeud . 5- Construire conditional FP-tree pour chaque noeud. 6- Générer les motifs les plus fréquents
  • 20. ok Exercice Min support count 1 Transactions items T1 1, 2, 4, 3 T2 1, 4, 3 T3 1, 4
  • 22. ok