SlideShare une entreprise Scribd logo
Recursive Neural Network summary
Réseau de neurones
récursif
Présenté par Nadir Kheloui
et Stephen Larroque
Étudiants M2 IAD à Paris 6
Un algorithme pour l’apprentissage
de structures de données
Par Richard Socher
et Cliff C.Lin, A. Ng, C. Manning
Stanford University
• Problématique
• Compositionnalité
• Présentation de la solution
• Algorithme et fonctions
• Performances
• Avantages/Inconvenients
• Améliorations et Conclusion
Plan
• Comment tagguer:
«Le pays de mon enfance» ?
Problématique
• Comment tagguer:
«Le pays de mon enfance» ?
Problématique
Données seules (mots) insuffisantes, besoin de connaitre la
structure des données!
• Utilisé en mathématiques, sémantique,
philosophie du langage, bd relationnelles, etc.
• Sens d’une expression complexe (ici groupe
de mots/régions) est définie par:
1.Les sens des atomes (mots/sous-expression)
2.Les règles pour les combiner
Principe de compositionnalité
• Sens des atomes => POS taggers, Named
Entity Recognition, Topic Modeling, Points Of
Interest, détection de régions...
• Reste à trouver les règles de composition!
Principe de compositionnalité
• Réseau de neurones récursif (!= récurrent)
• Approche ascendante «Bottom-up»
• Récursif ~ classification hiérarchique
• Supervisé (contrôle la forme de la structure)
• But: Apprendre la structure des données:
arbre sémantique (= règles de composition)
Présentation de la solution
• Récurrent: boucle et feedbacks arrières pendant
feedforward:
• Récursif: rappelle plusieurs fois le RN en
utilisant en entrée les sorties précédentes!
Récurrent vs récursif
Déroulement
Déroulement
Déroulement
Déroulement
Déroulement
Déroulement
Déroulement
• Entrées: X apprentissage (feuilles arbre), Y
arbres solutions
• Pré: SOM voisinage spatial pour x in X
• Sortie RN: 2 régions avec max similarité
• Sortie algorithme: arbre sémantique avec
scores à la racine et pour chaque noeuds
• Post: classifieur Softmax/KNN pour classer
racine score avec thème des voisins
Algorithme
• But: apprendre à construire arbres sémantiques (règles de
composition implicites) à partir d’exemples
• Tant que critere_arret:
– Tirer un exemple x au hasard dans X
– Initialise Arbre avec feuilles = atomes de x; et RN réseau de neurones
– Tant que longueur de x > 1 (pas convergé vers racine):
• Detecter 2 noeuds max sim à partir de sortie de RN.feedforward(x)
• Créer un parent pour ces 2 noeuds dans Arbre
• Enlever ces 2 noeuds de x
– J = Comparer Arbre avec y, arbre solution dans Y pour x (Max-Margin)
– RN.backpropagation(J)
=>Fin: retourner RN, réseau de neurones appris
Apprentissage
• Activation: Sigmoïde standard
• Coût: RNN Max-Margin Framework
Fonction d’activation et coût
• Inspiré de Taskar et al. 2004:
où: = pénalité (marge), écarte arbres incorrects
= score de similarité pour deux régions
• Pénalise tous les mauvais arbres (parsing)
• Marge: arbre correct score >> max arbre incorrect
• Similaire à SVM
• Réduit problème parsing ~= discrimination
RNN Max-Margin Framework
• Précision 88.1% contre GIST 84.0%
Performances
• Garantie de convergence arbre
• Plusieurs niveaux de sémantique
(score/représentation vectorielle pour chaque noeud)
• Fournit un score descripteur à la racine
(ex: utilisable pour recherche d’images)
• Converge rapidement (contrairement aux
réseaux récurrents) avec optimiseur
standard L-BFGS (et DropConnect?)
Avantages
• Sémantique et tagging d’image, descripteur
semi-local-global; détecteur de plagiat...
Cas d’exemple
• Sémantique et tagging d’image, descripteur
semi-local-global; détecteur de plagiat...
Cas d’exemple
• Problème super concave (RN+pleins
d’algos): aucune garantie d’optimalité globale
• Supervisé: nécessite de fournir un arbre
solution pour chaque exemple
• Tolérance des classes d’équivalence
d’arbres?
• Évaluation des performances? (CENTRIST)
Inconvénients
• Autres fonctions d’activation
• Semi ou non-supervisé?
• Perfs médiocres pour longues phrases (mais
courtes OK!)
• Deep recursive neural network
• Entropie pour calcul similarité
Améliorations?
• Garanties convergence et relativement rapide!
• Adapté à l’extraction d’arbres sémantiques
• Plusieurs niveaux d’analyse sémantique
• Peut être utilisé comme descripteur
global/tagger
• Potentiellement adaptable à n’importe quel
classifieur discriminatif pour apprendre des
arbres de composition!
Conclusion
– http://people.csail.mit.edu/torralba/code/spatialenvelope/
– http://smp.limsi.fr/index.php/Utilisation_des_descripteurs_GIST_e
– http://techtalks.tv/talks/54422/
– http://curtis.ml.cmu.edu/w/courses/index.php/Taskar_et_al._2004
– http://videolectures.net/nips09_torralba_uvs/
Liens
– Parsing Natural Scenes and Natural Language with
Recursive Neural Networks, by R.Socher, Cliff C. Lin, A.Ng,
C.Manning, The 28th International Conference on Machine
Learning (ICML 2011)
– Modeling the shape of the scene: a holistic representation
of the spatial envelope, A.Torralba, A.Oliva, International
Journal of Computer Vision, Vol. 42(3): 145-175, 2001.
http://people.csail.mit.edu/torralba/code/spatialenvelope/
– Max-margin parsing, by Ben Taskar, Taskar, B. and Klein, D.
and Collins, M. and Koller, D. and Manning, C.. In Proc. EMNLP,
2004.
http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf
– Regularization of Neural Networks using DropConnect, Li
Wan et al., 2013, ICML 2013
– Plus de références dans le rapport
Références
Slides Bonus
• But: construire un arbre sémantique pour un
exemple
• Idem que Apprentissage mais:
– sans propagation arrière
– on retourne l’Arbre appris
– Enfin on peut classer l’exemple avec score racine
dans classifieur Softmax ou KNN
Détection
• Descripteurs globaux avec perfs similaires à desc.
locaux
• Fournit un score pour décrire toute la scène
• Algorithme GIST:
– Calcul descripteur brut (filtres de Gabor)
– PCA
• Algorithme CENTRIST:
– Filtres Sobel
– Intensité par voisinage puis histogramme de cette map
GIST et CENTRIST
• Successeur spirituel de Dropout (Hinton13)
• Aide la convergence par stochasticité
• Quelques poids d’arcs entrants au hasard nullifiés
http://cs.nyu.edu/~wanli/dropc/
DropConnect
• Convergence largement plus rapide!
• Meilleure généralisation!
DropConnect Performances
• Agglomerative = Bottom-Up
• Visualisé comme un dendrogramme
Hierarchical Clustering
• RN au lieu de SVM
• Apprend fonctions (règles) non linéaires
• Adaptable à de nombreuses tâches (texte,
imagerie, etc.)
• Testé sur cas réels (pas Penn Treebank
POS)
Différences avec Taskar2004
Merci!

Contenu connexe

PDF
Réseaux neurons
PDF
Open Anti-Cheat System (OACS)
PDF
Brain-Computer Interface and States of Vigilance
PDF
Diffusion Tensor Imaging (DTI) for the study of disorders of consciousness
PDF
A (quick) introduction to Magnetic Resonance Imagery preprocessing and analysis
PPTX
Présentation pfe
PPTX
Algorithme knn
PDF
Algorithmes machine learning/ neural network / deep learning
Réseaux neurons
Open Anti-Cheat System (OACS)
Brain-Computer Interface and States of Vigilance
Diffusion Tensor Imaging (DTI) for the study of disorders of consciousness
A (quick) introduction to Magnetic Resonance Imagery preprocessing and analysis
Présentation pfe
Algorithme knn
Algorithmes machine learning/ neural network / deep learning

Similaire à Recursive Neural Network summary (20)

PPTX
Réseaux de neurones
PPT
Soutenance 17 Avril 2003
PDF
Cours rn 2006
PDF
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
PDF
Forum Labo Version DEF par Yvon Gervaise.pdf
PPTX
test
PDF
le NLP à l'ére de l'IA
PDF
Y Gervaise Conference 21-1-2025 à Université Rouen.pptx.pdf
PDF
Y Gervaise Cours- Conference 21-1-2025 à Université Rouen.pptx.pdf
PDF
Data Mining (Partie 2).pdf
PPTX
Une introduction à l'intelligence Artificielle Document sur IA.pptx
PDF
Arbre de décision.pdf
PPSX
Exposé réseaux des neurones (NN) - (RN)
PDF
Reds presentation ml_interpretability_raouf_aurelia
PDF
Apprentissage supervisé.pdf
PPT
Séminaire Inria IST - Référentiels et interoperabilité (2)
PPTX
PPTX
Fondementaux data science par fogoum.pptx
PPT
réseaux de neurones artificielles pour la reconnaissance optique du Tifinaghe
PDF
Les réseaux de neurones
Réseaux de neurones
Soutenance 17 Avril 2003
Cours rn 2006
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Forum Labo Version DEF par Yvon Gervaise.pdf
test
le NLP à l'ére de l'IA
Y Gervaise Conference 21-1-2025 à Université Rouen.pptx.pdf
Y Gervaise Cours- Conference 21-1-2025 à Université Rouen.pptx.pdf
Data Mining (Partie 2).pdf
Une introduction à l'intelligence Artificielle Document sur IA.pptx
Arbre de décision.pdf
Exposé réseaux des neurones (NN) - (RN)
Reds presentation ml_interpretability_raouf_aurelia
Apprentissage supervisé.pdf
Séminaire Inria IST - Référentiels et interoperabilité (2)
Fondementaux data science par fogoum.pptx
réseaux de neurones artificielles pour la reconnaissance optique du Tifinaghe
Les réseaux de neurones
Publicité

Plus de Stephen Larroque (8)

PDF
Pathway Evolution Algorithm in Netlogo
PDF
Sma presentation-bani-hotel-larroque
PDF
Resilient algorithms data structures intro by Giuseppe F.Italiano
PDF
Birdsong variability is modulated by LMAN in anterior forebrain pathway
PDF
Glial cells and astrocytes: neural networks modulators?
PDF
Tagged network (colored clique network) COGNITIVE 2015 by Stephen Larroque
PDF
Simulation des raisonnements éthiques par logiques non-monotones
PDF
Financement de la recherche en france, europe et dans le monde en 2014
Pathway Evolution Algorithm in Netlogo
Sma presentation-bani-hotel-larroque
Resilient algorithms data structures intro by Giuseppe F.Italiano
Birdsong variability is modulated by LMAN in anterior forebrain pathway
Glial cells and astrocytes: neural networks modulators?
Tagged network (colored clique network) COGNITIVE 2015 by Stephen Larroque
Simulation des raisonnements éthiques par logiques non-monotones
Financement de la recherche en france, europe et dans le monde en 2014
Publicité

Recursive Neural Network summary

  • 2. Réseau de neurones récursif Présenté par Nadir Kheloui et Stephen Larroque Étudiants M2 IAD à Paris 6 Un algorithme pour l’apprentissage de structures de données Par Richard Socher et Cliff C.Lin, A. Ng, C. Manning Stanford University
  • 3. • Problématique • Compositionnalité • Présentation de la solution • Algorithme et fonctions • Performances • Avantages/Inconvenients • Améliorations et Conclusion Plan
  • 4. • Comment tagguer: «Le pays de mon enfance» ? Problématique
  • 5. • Comment tagguer: «Le pays de mon enfance» ? Problématique Données seules (mots) insuffisantes, besoin de connaitre la structure des données!
  • 6. • Utilisé en mathématiques, sémantique, philosophie du langage, bd relationnelles, etc. • Sens d’une expression complexe (ici groupe de mots/régions) est définie par: 1.Les sens des atomes (mots/sous-expression) 2.Les règles pour les combiner Principe de compositionnalité
  • 7. • Sens des atomes => POS taggers, Named Entity Recognition, Topic Modeling, Points Of Interest, détection de régions... • Reste à trouver les règles de composition! Principe de compositionnalité
  • 8. • Réseau de neurones récursif (!= récurrent) • Approche ascendante «Bottom-up» • Récursif ~ classification hiérarchique • Supervisé (contrôle la forme de la structure) • But: Apprendre la structure des données: arbre sémantique (= règles de composition) Présentation de la solution
  • 9. • Récurrent: boucle et feedbacks arrières pendant feedforward: • Récursif: rappelle plusieurs fois le RN en utilisant en entrée les sorties précédentes! Récurrent vs récursif
  • 17. • Entrées: X apprentissage (feuilles arbre), Y arbres solutions • Pré: SOM voisinage spatial pour x in X • Sortie RN: 2 régions avec max similarité • Sortie algorithme: arbre sémantique avec scores à la racine et pour chaque noeuds • Post: classifieur Softmax/KNN pour classer racine score avec thème des voisins Algorithme
  • 18. • But: apprendre à construire arbres sémantiques (règles de composition implicites) à partir d’exemples • Tant que critere_arret: – Tirer un exemple x au hasard dans X – Initialise Arbre avec feuilles = atomes de x; et RN réseau de neurones – Tant que longueur de x > 1 (pas convergé vers racine): • Detecter 2 noeuds max sim à partir de sortie de RN.feedforward(x) • Créer un parent pour ces 2 noeuds dans Arbre • Enlever ces 2 noeuds de x – J = Comparer Arbre avec y, arbre solution dans Y pour x (Max-Margin) – RN.backpropagation(J) =>Fin: retourner RN, réseau de neurones appris Apprentissage
  • 19. • Activation: Sigmoïde standard • Coût: RNN Max-Margin Framework Fonction d’activation et coût
  • 20. • Inspiré de Taskar et al. 2004: où: = pénalité (marge), écarte arbres incorrects = score de similarité pour deux régions • Pénalise tous les mauvais arbres (parsing) • Marge: arbre correct score >> max arbre incorrect • Similaire à SVM • Réduit problème parsing ~= discrimination RNN Max-Margin Framework
  • 21. • Précision 88.1% contre GIST 84.0% Performances
  • 22. • Garantie de convergence arbre • Plusieurs niveaux de sémantique (score/représentation vectorielle pour chaque noeud) • Fournit un score descripteur à la racine (ex: utilisable pour recherche d’images) • Converge rapidement (contrairement aux réseaux récurrents) avec optimiseur standard L-BFGS (et DropConnect?) Avantages
  • 23. • Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat... Cas d’exemple
  • 24. • Sémantique et tagging d’image, descripteur semi-local-global; détecteur de plagiat... Cas d’exemple
  • 25. • Problème super concave (RN+pleins d’algos): aucune garantie d’optimalité globale • Supervisé: nécessite de fournir un arbre solution pour chaque exemple • Tolérance des classes d’équivalence d’arbres? • Évaluation des performances? (CENTRIST) Inconvénients
  • 26. • Autres fonctions d’activation • Semi ou non-supervisé? • Perfs médiocres pour longues phrases (mais courtes OK!) • Deep recursive neural network • Entropie pour calcul similarité Améliorations?
  • 27. • Garanties convergence et relativement rapide! • Adapté à l’extraction d’arbres sémantiques • Plusieurs niveaux d’analyse sémantique • Peut être utilisé comme descripteur global/tagger • Potentiellement adaptable à n’importe quel classifieur discriminatif pour apprendre des arbres de composition! Conclusion
  • 28. – http://people.csail.mit.edu/torralba/code/spatialenvelope/ – http://smp.limsi.fr/index.php/Utilisation_des_descripteurs_GIST_e – http://techtalks.tv/talks/54422/ – http://curtis.ml.cmu.edu/w/courses/index.php/Taskar_et_al._2004 – http://videolectures.net/nips09_torralba_uvs/ Liens
  • 29. – Parsing Natural Scenes and Natural Language with Recursive Neural Networks, by R.Socher, Cliff C. Lin, A.Ng, C.Manning, The 28th International Conference on Machine Learning (ICML 2011) – Modeling the shape of the scene: a holistic representation of the spatial envelope, A.Torralba, A.Oliva, International Journal of Computer Vision, Vol. 42(3): 145-175, 2001. http://people.csail.mit.edu/torralba/code/spatialenvelope/ – Max-margin parsing, by Ben Taskar, Taskar, B. and Klein, D. and Collins, M. and Koller, D. and Manning, C.. In Proc. EMNLP, 2004. http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf – Regularization of Neural Networks using DropConnect, Li Wan et al., 2013, ICML 2013 – Plus de références dans le rapport Références
  • 31. • But: construire un arbre sémantique pour un exemple • Idem que Apprentissage mais: – sans propagation arrière – on retourne l’Arbre appris – Enfin on peut classer l’exemple avec score racine dans classifieur Softmax ou KNN Détection
  • 32. • Descripteurs globaux avec perfs similaires à desc. locaux • Fournit un score pour décrire toute la scène • Algorithme GIST: – Calcul descripteur brut (filtres de Gabor) – PCA • Algorithme CENTRIST: – Filtres Sobel – Intensité par voisinage puis histogramme de cette map GIST et CENTRIST
  • 33. • Successeur spirituel de Dropout (Hinton13) • Aide la convergence par stochasticité • Quelques poids d’arcs entrants au hasard nullifiés http://cs.nyu.edu/~wanli/dropc/ DropConnect
  • 34. • Convergence largement plus rapide! • Meilleure généralisation! DropConnect Performances
  • 35. • Agglomerative = Bottom-Up • Visualisé comme un dendrogramme Hierarchical Clustering
  • 36. • RN au lieu de SVM • Apprend fonctions (règles) non linéaires • Adaptable à de nombreuses tâches (texte, imagerie, etc.) • Testé sur cas réels (pas Penn Treebank POS) Différences avec Taskar2004