Recursive Neural Network summary

Réseau de neurones
récursif
Présenté par Nadir Kheloui
et Stephen Larroque
Étudiants M2 IAD à Paris 6
Un algorithme pour l’apprentissage
de structures de données
Par Richard Socher
et Cliff C.Lin, A. Ng, C. Manning
Stanford University

• Problématique
• Compositionnalité
• Présentation de la solution
• Algorithme et fonctions
• Performances
• Avantages/Inconvenients
• Améliorations et Conclusion
Plan

• Comment tagguer:
«Le pays de mon enfance» ?
Problématique

• Comment tagguer:
«Le pays de mon enfance» ?
Problématique
Données seules (mots) insuffisantes, besoin de connaitre la
structure des données!

• Utilisé en mathématiques, sémantique,
philosophie du langage, bd relationnelles, etc.
• Sens d’une expression complexe (ici groupe
de mots/régions) est définie par:
1.Les sens des atomes (mots/sous-expression)
2.Les règles pour les combiner
Principe de compositionnalité

• Sens des atomes => POS taggers, Named
Entity Recognition, Topic Modeling, Points Of
Interest, détection de régions...
• Reste à trouver les règles de composition!
Principe de compositionnalité

• Réseau de neurones récursif (!= récurrent)
• Approche ascendante «Bottom-up»
• Récursif ~ classification hiérarchique
• Supervisé (contrôle la forme de la structure)
• But: Apprendre la structure des données:
arbre sémantique (= règles de composition)
Présentation de la solution

• Récurrent: boucle et feedbacks arrières pendant
feedforward:
• Récursif: rappelle plusieurs fois le RN en
utilisant en entrée les sorties précédentes!
Récurrent vs récursif

• Entrées: X apprentissage (feuilles arbre), Y
arbres solutions
• Pré: SOM voisinage spatial pour x in X
• Sortie RN: 2 régions avec max similarité
• Sortie algorithme: arbre sémantique avec
scores à la racine et pour chaque noeuds
• Post: classifieur Softmax/KNN pour classer
racine score avec thème des voisins
Algorithme

• But: apprendre à construire arbres sémantiques (règles de
composition implicites) à partir d’exemples
• Tant que critere_arret:
– Tirer un exemple x au hasard dans X
– Initialise Arbre avec feuilles = atomes de x; et RN réseau de neurones
– Tant que longueur de x > 1 (pas convergé vers racine):
• Detecter 2 noeuds max sim à partir de sortie de RN.feedforward(x)
• Créer un parent pour ces 2 noeuds dans Arbre
• Enlever ces 2 noeuds de x
– J = Comparer Arbre avec y, arbre solution dans Y pour x (Max-Margin)
– RN.backpropagation(J)
=>Fin: retourner RN, réseau de neurones appris
Apprentissage

• Activation: Sigmoïde standard
• Coût: RNN Max-Margin Framework
Fonction d’activation et coût

• Inspiré de Taskar et al. 2004:
où: = pénalité (marge), écarte arbres incorrects
= score de similarité pour deux régions
• Pénalise tous les mauvais arbres (parsing)
• Marge: arbre correct score >> max arbre incorrect
• Similaire à SVM
• Réduit problème parsing ~= discrimination
RNN Max-Margin Framework

• Précision 88.1% contre GIST 84.0%
Performances

• Garantie de convergence arbre
• Plusieurs niveaux de sémantique
(score/représentation vectorielle pour chaque noeud)
• Fournit un score descripteur à la racine
(ex: utilisable pour recherche d’images)
• Converge rapidement (contrairement aux
réseaux récurrents) avec optimiseur
standard L-BFGS (et DropConnect?)
Avantages

• Sémantique et tagging d’image, descripteur
semi-local-global; détecteur de plagiat...
Cas d’exemple

• Problème super concave (RN+pleins
d’algos): aucune garantie d’optimalité globale
• Supervisé: nécessite de fournir un arbre
solution pour chaque exemple
• Tolérance des classes d’équivalence
d’arbres?
• Évaluation des performances? (CENTRIST)
Inconvénients

• Autres fonctions d’activation
• Semi ou non-supervisé?
• Perfs médiocres pour longues phrases (mais
courtes OK!)
• Deep recursive neural network
• Entropie pour calcul similarité
Améliorations?

• Garanties convergence et relativement rapide!
• Adapté à l’extraction d’arbres sémantiques
• Plusieurs niveaux d’analyse sémantique
• Peut être utilisé comme descripteur
global/tagger
• Potentiellement adaptable à n’importe quel
classifieur discriminatif pour apprendre des
arbres de composition!
Conclusion

– http://people.csail.mit.edu/torralba/code/spatialenvelope/
– http://smp.limsi.fr/index.php/Utilisation_des_descripteurs_GIST_e
– http://techtalks.tv/talks/54422/
– http://curtis.ml.cmu.edu/w/courses/index.php/Taskar_et_al._2004
– http://videolectures.net/nips09_torralba_uvs/
Liens

– Parsing Natural Scenes and Natural Language with
Recursive Neural Networks, by R.Socher, Cliff C. Lin, A.Ng,
C.Manning, The 28th International Conference on Machine
Learning (ICML 2011)
– Modeling the shape of the scene: a holistic representation
of the spatial envelope, A.Torralba, A.Oliva, International
Journal of Computer Vision, Vol. 42(3): 145-175, 2001.
http://people.csail.mit.edu/torralba/code/spatialenvelope/
– Max-margin parsing, by Ben Taskar, Taskar, B. and Klein, D.
and Collins, M. and Koller, D. and Manning, C.. In Proc. EMNLP,
2004.
http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Taskar.pdf
– Regularization of Neural Networks using DropConnect, Li
Wan et al., 2013, ICML 2013
– Plus de références dans le rapport
Références

• But: construire un arbre sémantique pour un
exemple
• Idem que Apprentissage mais:
– sans propagation arrière
– on retourne l’Arbre appris
– Enfin on peut classer l’exemple avec score racine
dans classifieur Softmax ou KNN
Détection

• Descripteurs globaux avec perfs similaires à desc.
locaux
• Fournit un score pour décrire toute la scène
• Algorithme GIST:
– Calcul descripteur brut (filtres de Gabor)
– PCA
• Algorithme CENTRIST:
– Filtres Sobel
– Intensité par voisinage puis histogramme de cette map
GIST et CENTRIST

• Successeur spirituel de Dropout (Hinton13)
• Aide la convergence par stochasticité
• Quelques poids d’arcs entrants au hasard nullifiés
http://cs.nyu.edu/~wanli/dropc/
DropConnect

• Convergence largement plus rapide!
• Meilleure généralisation!
DropConnect Performances

• Agglomerative = Bottom-Up
• Visualisé comme un dendrogramme
Hierarchical Clustering

• RN au lieu de SVM
• Apprend fonctions (règles) non linéaires
• Adaptable à de nombreuses tâches (texte,
imagerie, etc.)
• Testé sur cas réels (pas Penn Treebank
POS)
Différences avec Taskar2004

Recursive Neural Network summary

Contenu connexe

Similaire à Recursive Neural Network summary (20)

Plus de Stephen Larroque (8)

Recursive Neural Network summary