SlideShare a Scribd company logo
Anthony Coutant, Philippe Leray, Hoel Le Capitaine
DUKe (Data, User, Knowledge) Team, LINA
26th June, 2014
Learning Probabilistic Relational Models using
Non-Negative Matrix Factorization
7ème Journées Francophones sur les Réseaux Bayésiens et les Modèles Graphiques Probabilistes
22 / 24
Context
• Probabilistic Relational Models (PRM)
– Attributes uncertainty in Relational datasets
• Relational datasets: attributes + link
• PRM with Reference Uncertainty (RU) model link uncertainty
• Partitioning individuals necessary in PRM-RU
33 / 24
Problem & Proposal
• PRM-RU partition individuals based on attributes only
• We propose to cluster the relationship information instead
• We show that :
– Attributes partitioning do not explain all relationships
– Relational partitioning can explain attributes oriented relationships
44 / 24
Flat datasets – Bayesian Networks
• Individuals supposed i.i.d.
P(G1)
A B
0,25 0,75
P(G2)
A B
0,25 0,75
Dataset
G1 G2 R
A B 1st
B A 1st
B B 2nd
B B 2nd
G1, G2
P(R|G1,G2) A,A A,B B,A B,B
1st division 0,8 0,5 0,5 0,2
2nd division 0,2 0,5 0,5 0,8
Grade 1
Ranking
Grade 2
55 / 24
Relational datasets – Relational schema
Student
Intelligence
Ranking
Registration
Grade
Satisfaction
1,n1
Instance
Schema
Course
Phil101
Difficulté
???
Note
???
Registration
#4563
Note
???
Satisfaction
???
Student
Jane Doe
Intelligence
???
Classement
???
Student
Jane Doe
Intelligence
high
Ranking
1st division
Registration
#4563
Note
???
Satisfaction
???
Registration
#4563
Grade
A
Satisfaction
high
Course
Phil101
Difficulty
high
Evaluation
high
Course
Difficulty
Evaluation
1,n 1
66 / 24
Probabilistic Relational Models (PRM) .
MEAN(G)
P(R|MEAN(G)) A B
1st division 0,8 0,2
2nd division 0,2 0,8
PRM
Schema
Instance
Student
Intelligence
Ranking
Registration
Grade
Satisfaction
1,n1Course
Difficulty
Evaluation
1,n 1
Evaluation Intelligence
Grade
Satisfaction
Difficulty Ranking
Course Registration Student
MEAN
MEAN
Course
Math
Difficulté
???
Note
???
Registration
#6251
Note
???
Satisfaction
???
Student
John Smith
Intelligence
???
Classement
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#5621
Note
???
Satisfaction
???
Registration
#4563
Grade
???
Satisfaction
???
Course
Phil
Difficulty
???
Evaluation
???
Instance
77 / 24
Probabilistic Relational Models (PRM) ..
MEAN(G)
P(R|MEAN(G)) A B
1st division 0,8 0,2
2nd division 0,2 0,8
PRM
Schema
Course
Math
Difficulté
???
Note
???
Registration
#6251
Note
???
Satisfaction
???
Student
John Smith
Intelligence
???
Classement
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#5621
Note
???
Satisfaction
???
Registration
#4563
Grade
???
Satisfaction
???
Course
Phil
Difficulty
???
Evaluation
???
Instance
Evaluation Intelligence
Grade
Satisfaction
Difficulty Ranking
Course Registration Student
MEAN
MEAN
Math.Diff
#4563.Grade
#5621.Grade
#6251.Grade
MEAN
GBN (Ground Bayesian Network)
Math.Eval
Phil.Diff
Phil.Eval
#4563.Satis #5621.Satis
#6251.Satis
MEAN
JD.Int
JS.Int
JD.Rank
JS.Rank
MEAN
MEAN
Instance
Student
Intelligence
Ranking
Registration
Grade
Satisfaction
1,n1Course
Difficulty
Evaluation
1,n 1
88 / 24
Uncertainty in Relational datasets
Course
Phil101
Difficulté
???
Note
???
Registration
#4563
Note
???
Satisfaction
???
Student
Jane Doe
Intelligence
???
Classement
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#4563
Note
???
Satisfaction
???
Registration
#4563
Grade
???
Satisfaction
???
Course
Phil101
Difficulty
???
Evaluation
???
Student
Jane Doe
Intelligence
???
Ranking
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#4563
Note
???
Satisfaction
???
Registration
#4563
Grade
A
Satisfaction
???
Course
Phil101
Difficulté
???
Note
???
Course
Phil101
Difficulty
???
Evaluation
high
Course
Phil101
Difficulté
???
Note
???
Registration
#4563
Note
???
Satisfaction
???
Student
Jane Doe
Intelligence
???
Classement
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#4563
Note
???
Satisfaction
???
Registration
#4563
Grade
???
Satisfaction
???
Course
Phil101
Difficulty
???
Evaluation
???
Student
Jane Doe
Intelligence
???
Ranking
???
Student
Jane Doe
Intelligence
???
Ranking
???
Registration
#4563
Note
???
Satisfaction
???
Registration
#4563
Grade
A
Satisfaction
???
Course
Phil101
Difficulté
???
Note
???
Course
Phil101
Difficulty
???
Evaluation
high
?
Attributes uncertainty (PRM)
Attributes and link uncertainty (PRM extensions)
?
99 / 24
• Reference uncertainty: P(r.Course = ci, r.Student = sj | r.exists = true)
• A random variable for each individual id? Not generalizable
• Solution: partitioning
Difficulty Intelligence
Course Student
Registration
Student
Evaluation RankingCourse
P(Student | Course.Difficulty)?
P(Course)?
PRM with reference uncertainty .
1010 / 24
• P(Student | ClusterStudent) follows a uniform law
Difficulty Intelligence
Course Student
Registration
ClusterCourse
Course
ClusterStudent
Student
P(CStudent | S.Intelligence)
low high
C1 0 1
C2 1 0
P(Student | CStudent)
C1 C2
s1 0 1
s2 1 0
Evaluation Ranking
PRM with reference uncertainty ..
1111 / 24
• P(Student | ClusterStudent) follows a uniform law
Difficulty Intelligence
Course Student
Registration
ClusterCourse
Course
ClusterStudent
Student
P(CStudent | S.Intelligence)
low high
C1 0 1
C2 1 0
P(Student | CStudent)
C1 C2
s1 0 1
s2 1 0
Evaluation Ranking
PRM with reference uncertainty ..
highlow
Biolow
high C1
C2
Students Population stats
50% 50%
Partition Function
1212 / 24
Attributes-oriented Partition Functions in PRM-RU
• PRM-RU: Clustering from attributes
• Assumption: attributes explain the relationship
• Not generalizable, relationship information not used for partitioning
Course Student
P(Green | Red) = 1
P(Purple | Blue) = 1
YES
1313 / 24
Attributes-oriented Partition Functions in PRM-RU
• PRM-RU: Clustering from attributes
• Assumption: attributes explain the relationship
• Not generalizable, relationship information not used for partitioning
Course Student
P(Green | Red) = 1
P(Purple | Blue) = 1
Course Student
P(Green | Red) = 1
P(Purple | Blue) = 1
YES IS THAT SO?
1414 / 24
Attributes-oriented Partition Functions in PRM-RU
• PRM-RU: Clustering from attributes
• Assumption: attributes explain the relationship
• Not generalizable, relationship information not used for partitioning
Course Student Course Student
P(Green | Red) = 1
P(Purple | Blue) = 1
P(Green | Red) = 0.5
P(Purple | Red) = 0.5
Course Student
P(Green | Red) = 0.5
P(Purple | Red) = 0.5
Course Student
P(Green | Red) = 1
P(Purple | Blue) = 1
YES NOIS THAT SO?
1515 / 24
Relationship-oriented Partitioning
• Objective: finding partitioning maximizing intra-partition edges
Course Student
P(Student.p1 | Course.p1) = 1
P(Student.p2 | Course.p2) = 1
p1
p2
Course Student
P(Green | Red) = 0.5
P(Purple | Red) = 0.5
1616 / 24
Experiments – Protocol – Dataset generation
Entity 2
Att 1
…
Att n
R
1,n 1
Entity 1
Att 1
…
Att n
1 1,n
Schema
Instance
Entity 1 Entity 2R
1717 / 24
Experiments – Protocol – Dataset generation
Entity 2
Att 1
…
Att n
R
1,n 1
Entity 1
Att 1
…
Att n
1 1,n
Schema
Instance
Entity 1 Entity 2
Attributes partitioning
favorable case
Relationship partitioning
favorable case
Entity 1 Entity 2
R
R
1818 / 24
Experiments – Protocol – Learning
Entity 1 Entity 2Relation
Att n
Att 1
Att n
Att 1
CE1
CE2
E2
E1
• Parameter learning on set up structure
• 2 PRM compared:
– Either with attributes partitioning
– Or with relational partitioning
1919 / 24
Experiments – Protocol – Evaluation
• For each generated dataset D
– Split D into 10 subsets {D1, …, D10}
– Perform 10 Folds CV each with one Di for test and others for training
• Do it for PRM with attributes partitioning : store the results of 10 log likelihood PattsLL[i]
• Do it for PRM with relationship partitioning : store the results of 10 log likelihood PrelLL[i]
– Evaluate mean and sd of PattsLL[i] and PrelLL[i]
– Evaluate significancy of relationship partitioning over attributes partitioning
2020 / 24
Experiments – Results
Random clusters
(independent from attributes)
k
2 4 16
n
25
50
100
200
Relational > Attributes partitioning
Attributes > Relational partitioning
Partitionings not significantly comparable
k
2 4 16
n
25
50
100
200
Attributes => Cluster
(fully dependent from attributes)
Green:
Red:
Orange:
2121 / 24
Experiments – About the NMF choice for partitioning
• NMF
– Find low dimension factor matrices which product approximates the original matrix
– A relationship between two entities is an adjacency matrix
• Motivation for NMF usage
– (Restrictively) captures latent information from both rows and columns: co-clustering
– Several extensions dedicated to more accurate co-clustering (NMTF)
– Extensions for Laplacian regularization
• Allow to capture both attributes and relationship information for clustering
– Extensions for Tensor factorization
• Allow to model n-ary relationships, n >= 2
– NMF = Good starting choice for the long-term needs?
2222 / 24
Experiments – About the NMF choice for partitioning
• But
– Troubles with performances in experimentations
– Very sensitive to initialization: crashes whenever reaching singular
state
– Moving toward large scale methods : graph based relational
clustering?
2323 / 24
Conclusion
• PRM-RU to define probability structure in relational datasets
• Need for partitioning
• PRM-RU use attributes oriented partitioning
• We propose to cluster the relationship information instead
• Experiments show that :
– Attributes partitioning do not explain all relationships
– Relational partitioning can explain attributes oriented relationships
2424 / 24
Perspectives
• Experiments on real life datasets
• Towards large scale partitioning methods
• PRM-RU Structure Learning using clustering algorithms
• What about other link uncertainty representations?
Anthony Coutant, Philippe Leray, Hoel Le Capitaine
DUKe (Data, User, Knowledge) Team, LINA
Questions?
7ème Journées Francophones sur les Réseaux Bayésiens et les Modèles Graphiques Probabilistes
(anthony.coutant | philippe.leray | hoel.lecapitaine)
@univ-nantes.fr

More Related Content

DOCX
Comparative analysis of algorithms_MADI
PPTX
Performance analysis of machine learning approaches in software complexity pr...
PDF
[slide] A Compare-Aggregate Model with Latent Clustering for Answer Selection
PDF
4 the sql_standard
PDF
Transformers to Learn Hierarchical Contexts in Multiparty Dialogue
PDF
Reference Scope Identification of Citances Using Convolutional Neural Network
PPTX
2011-10-28大咪報告
Comparative analysis of algorithms_MADI
Performance analysis of machine learning approaches in software complexity pr...
[slide] A Compare-Aggregate Model with Latent Clustering for Answer Selection
4 the sql_standard
Transformers to Learn Hierarchical Contexts in Multiparty Dialogue
Reference Scope Identification of Citances Using Convolutional Neural Network
2011-10-28大咪報告

What's hot (16)

PPTX
neural based_context_representation_learning_for_dialog_act_classification
PPTX
Towards advanced data retrieval from learning objects repositories
PDF
201511-TIA_Presentation
PDF
Parekh dfa
PPTX
Using Knowledge Building Forums in EFL Classroms - FIETxs2019
PDF
LP&IIS2013 PPT. Chinese Named Entity Recognition with Conditional Random Fiel...
PPTX
CIKM14: Fixing grammatical errors by preposition ranking
PPTX
Parcc public blueprints narrated math 04262013
PDF
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
PDF
Communication systems-theory-for-undergraduate-students-using-matlab
PPTX
AI to advance science research
PDF
Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model
PPTX
Software Quality Assessment Practices
PDF
The Pupil Has Become the Master: Teacher-Student Model-Based Word Embedding D...
PDF
Combining Committee-Based Semi-supervised and Active Learning and Its Applica...
PPTX
pptphrase-tagset-mapping-for-french-and-english-treebanks-and-its-application...
neural based_context_representation_learning_for_dialog_act_classification
Towards advanced data retrieval from learning objects repositories
201511-TIA_Presentation
Parekh dfa
Using Knowledge Building Forums in EFL Classroms - FIETxs2019
LP&IIS2013 PPT. Chinese Named Entity Recognition with Conditional Random Fiel...
CIKM14: Fixing grammatical errors by preposition ranking
Parcc public blueprints narrated math 04262013
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Communication systems-theory-for-undergraduate-students-using-matlab
AI to advance science research
Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model
Software Quality Assessment Practices
The Pupil Has Become the Master: Teacher-Student Model-Based Word Embedding D...
Combining Committee-Based Semi-supervised and Active Learning and Its Applica...
pptphrase-tagset-mapping-for-french-and-english-treebanks-and-its-application...
Ad

Similar to Learning Probabilistic Relational Models using Non-Negative Matrix Factorization (20)

PPTX
0 introduction
PPT
Download
 
PPT
Download
 
PPTX
Learning analytics and accessibility – #calrg 2015
PPTX
Machine Learning
PPTX
High Dimensional Biological Data Analysis and Visualization
PDF
Machine Learning Algorithms Introduction.pdf
PPT
convolutional_rbm.ppt
PDF
Factor Analysis and Correspondence Analysis Composite and Indicator Scores of...
PDF
Your Classifier is Secretly an Energy based model and you should treat it lik...
PDF
Capstone eLearning Deck
PDF
Nonlinear dimension reduction
 
PDF
Two strategies for large-scale multi-label classification on the YouTube-8M d...
PPTX
Building and deploying analytics
PDF
A Comparative Study of Heterogeneous Ensemble-Learning Techniques for Landsli...
PDF
Data analysis
PDF
PDF
Online Stochastic Tensor Decomposition for Background Subtraction in Multispe...
PPTX
Multi-method Evaluation in Scientific Paper Recommender Systems
PDF
K - Nearest neighbor ( KNN )
0 introduction
Download
 
Download
 
Learning analytics and accessibility – #calrg 2015
Machine Learning
High Dimensional Biological Data Analysis and Visualization
Machine Learning Algorithms Introduction.pdf
convolutional_rbm.ppt
Factor Analysis and Correspondence Analysis Composite and Indicator Scores of...
Your Classifier is Secretly an Energy based model and you should treat it lik...
Capstone eLearning Deck
Nonlinear dimension reduction
 
Two strategies for large-scale multi-label classification on the YouTube-8M d...
Building and deploying analytics
A Comparative Study of Heterogeneous Ensemble-Learning Techniques for Landsli...
Data analysis
Online Stochastic Tensor Decomposition for Background Subtraction in Multispe...
Multi-method Evaluation in Scientific Paper Recommender Systems
K - Nearest neighbor ( KNN )
Ad

Recently uploaded (20)

PDF
168300704-gasification-ppt.pdfhghhhsjsjhsuxush
PPTX
oil_refinery_comprehensive_20250804084928 (1).pptx
PPTX
iec ppt-1 pptx icmr ppt on rehabilitation.pptx
PPTX
Acceptance and paychological effects of mandatory extra coach I classes.pptx
PDF
.pdf is not working space design for the following data for the following dat...
PDF
Business Analytics and business intelligence.pdf
PDF
Foundation of Data Science unit number two notes
PPTX
IBA_Chapter_11_Slides_Final_Accessible.pptx
PPTX
climate analysis of Dhaka ,Banglades.pptx
PPTX
01_intro xxxxxxxxxxfffffffffffaaaaaaaaaaafg
PDF
Recruitment and Placement PPT.pdfbjfibjdfbjfobj
PPTX
Database Infoormation System (DBIS).pptx
PPTX
Qualitative Qantitative and Mixed Methods.pptx
PDF
annual-report-2024-2025 original latest.
PPTX
Introduction to Firewall Analytics - Interfirewall and Transfirewall.pptx
PPTX
Introduction to Basics of Ethical Hacking and Penetration Testing -Unit No. 1...
PPTX
Introduction to machine learning and Linear Models
PPTX
ALIMENTARY AND BILIARY CONDITIONS 3-1.pptx
PDF
Fluorescence-microscope_Botany_detailed content
PPTX
Introduction-to-Cloud-ComputingFinal.pptx
168300704-gasification-ppt.pdfhghhhsjsjhsuxush
oil_refinery_comprehensive_20250804084928 (1).pptx
iec ppt-1 pptx icmr ppt on rehabilitation.pptx
Acceptance and paychological effects of mandatory extra coach I classes.pptx
.pdf is not working space design for the following data for the following dat...
Business Analytics and business intelligence.pdf
Foundation of Data Science unit number two notes
IBA_Chapter_11_Slides_Final_Accessible.pptx
climate analysis of Dhaka ,Banglades.pptx
01_intro xxxxxxxxxxfffffffffffaaaaaaaaaaafg
Recruitment and Placement PPT.pdfbjfibjdfbjfobj
Database Infoormation System (DBIS).pptx
Qualitative Qantitative and Mixed Methods.pptx
annual-report-2024-2025 original latest.
Introduction to Firewall Analytics - Interfirewall and Transfirewall.pptx
Introduction to Basics of Ethical Hacking and Penetration Testing -Unit No. 1...
Introduction to machine learning and Linear Models
ALIMENTARY AND BILIARY CONDITIONS 3-1.pptx
Fluorescence-microscope_Botany_detailed content
Introduction-to-Cloud-ComputingFinal.pptx

Learning Probabilistic Relational Models using Non-Negative Matrix Factorization

  • 1. Anthony Coutant, Philippe Leray, Hoel Le Capitaine DUKe (Data, User, Knowledge) Team, LINA 26th June, 2014 Learning Probabilistic Relational Models using Non-Negative Matrix Factorization 7ème JournĂ©es Francophones sur les RĂ©seaux BayĂ©siens et les Modèles Graphiques Probabilistes
  • 2. 22 / 24 Context • Probabilistic Relational Models (PRM) – Attributes uncertainty in Relational datasets • Relational datasets: attributes + link • PRM with Reference Uncertainty (RU) model link uncertainty • Partitioning individuals necessary in PRM-RU
  • 3. 33 / 24 Problem & Proposal • PRM-RU partition individuals based on attributes only • We propose to cluster the relationship information instead • We show that : – Attributes partitioning do not explain all relationships – Relational partitioning can explain attributes oriented relationships
  • 4. 44 / 24 Flat datasets – Bayesian Networks • Individuals supposed i.i.d. P(G1) A B 0,25 0,75 P(G2) A B 0,25 0,75 Dataset G1 G2 R A B 1st B A 1st B B 2nd B B 2nd G1, G2 P(R|G1,G2) A,A A,B B,A B,B 1st division 0,8 0,5 0,5 0,2 2nd division 0,2 0,5 0,5 0,8 Grade 1 Ranking Grade 2
  • 5. 55 / 24 Relational datasets – Relational schema Student Intelligence Ranking Registration Grade Satisfaction 1,n1 Instance Schema Course Phil101 DifficultĂ© ??? Note ??? Registration #4563 Note ??? Satisfaction ??? Student Jane Doe Intelligence ??? Classement ??? Student Jane Doe Intelligence high Ranking 1st division Registration #4563 Note ??? Satisfaction ??? Registration #4563 Grade A Satisfaction high Course Phil101 Difficulty high Evaluation high Course Difficulty Evaluation 1,n 1
  • 6. 66 / 24 Probabilistic Relational Models (PRM) . MEAN(G) P(R|MEAN(G)) A B 1st division 0,8 0,2 2nd division 0,2 0,8 PRM Schema Instance Student Intelligence Ranking Registration Grade Satisfaction 1,n1Course Difficulty Evaluation 1,n 1 Evaluation Intelligence Grade Satisfaction Difficulty Ranking Course Registration Student MEAN MEAN Course Math DifficultĂ© ??? Note ??? Registration #6251 Note ??? Satisfaction ??? Student John Smith Intelligence ??? Classement ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #5621 Note ??? Satisfaction ??? Registration #4563 Grade ??? Satisfaction ??? Course Phil Difficulty ??? Evaluation ??? Instance
  • 7. 77 / 24 Probabilistic Relational Models (PRM) .. MEAN(G) P(R|MEAN(G)) A B 1st division 0,8 0,2 2nd division 0,2 0,8 PRM Schema Course Math DifficultĂ© ??? Note ??? Registration #6251 Note ??? Satisfaction ??? Student John Smith Intelligence ??? Classement ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #5621 Note ??? Satisfaction ??? Registration #4563 Grade ??? Satisfaction ??? Course Phil Difficulty ??? Evaluation ??? Instance Evaluation Intelligence Grade Satisfaction Difficulty Ranking Course Registration Student MEAN MEAN Math.Diff #4563.Grade #5621.Grade #6251.Grade MEAN GBN (Ground Bayesian Network) Math.Eval Phil.Diff Phil.Eval #4563.Satis #5621.Satis #6251.Satis MEAN JD.Int JS.Int JD.Rank JS.Rank MEAN MEAN Instance Student Intelligence Ranking Registration Grade Satisfaction 1,n1Course Difficulty Evaluation 1,n 1
  • 8. 88 / 24 Uncertainty in Relational datasets Course Phil101 DifficultĂ© ??? Note ??? Registration #4563 Note ??? Satisfaction ??? Student Jane Doe Intelligence ??? Classement ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #4563 Note ??? Satisfaction ??? Registration #4563 Grade ??? Satisfaction ??? Course Phil101 Difficulty ??? Evaluation ??? Student Jane Doe Intelligence ??? Ranking ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #4563 Note ??? Satisfaction ??? Registration #4563 Grade A Satisfaction ??? Course Phil101 DifficultĂ© ??? Note ??? Course Phil101 Difficulty ??? Evaluation high Course Phil101 DifficultĂ© ??? Note ??? Registration #4563 Note ??? Satisfaction ??? Student Jane Doe Intelligence ??? Classement ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #4563 Note ??? Satisfaction ??? Registration #4563 Grade ??? Satisfaction ??? Course Phil101 Difficulty ??? Evaluation ??? Student Jane Doe Intelligence ??? Ranking ??? Student Jane Doe Intelligence ??? Ranking ??? Registration #4563 Note ??? Satisfaction ??? Registration #4563 Grade A Satisfaction ??? Course Phil101 DifficultĂ© ??? Note ??? Course Phil101 Difficulty ??? Evaluation high ? Attributes uncertainty (PRM) Attributes and link uncertainty (PRM extensions) ?
  • 9. 99 / 24 • Reference uncertainty: P(r.Course = ci, r.Student = sj | r.exists = true) • A random variable for each individual id? Not generalizable • Solution: partitioning Difficulty Intelligence Course Student Registration Student Evaluation RankingCourse P(Student | Course.Difficulty)? P(Course)? PRM with reference uncertainty .
  • 10. 1010 / 24 • P(Student | ClusterStudent) follows a uniform law Difficulty Intelligence Course Student Registration ClusterCourse Course ClusterStudent Student P(CStudent | S.Intelligence) low high C1 0 1 C2 1 0 P(Student | CStudent) C1 C2 s1 0 1 s2 1 0 Evaluation Ranking PRM with reference uncertainty ..
  • 11. 1111 / 24 • P(Student | ClusterStudent) follows a uniform law Difficulty Intelligence Course Student Registration ClusterCourse Course ClusterStudent Student P(CStudent | S.Intelligence) low high C1 0 1 C2 1 0 P(Student | CStudent) C1 C2 s1 0 1 s2 1 0 Evaluation Ranking PRM with reference uncertainty .. highlow Biolow high C1 C2 Students Population stats 50% 50% Partition Function
  • 12. 1212 / 24 Attributes-oriented Partition Functions in PRM-RU • PRM-RU: Clustering from attributes • Assumption: attributes explain the relationship • Not generalizable, relationship information not used for partitioning Course Student P(Green | Red) = 1 P(Purple | Blue) = 1 YES
  • 13. 1313 / 24 Attributes-oriented Partition Functions in PRM-RU • PRM-RU: Clustering from attributes • Assumption: attributes explain the relationship • Not generalizable, relationship information not used for partitioning Course Student P(Green | Red) = 1 P(Purple | Blue) = 1 Course Student P(Green | Red) = 1 P(Purple | Blue) = 1 YES IS THAT SO?
  • 14. 1414 / 24 Attributes-oriented Partition Functions in PRM-RU • PRM-RU: Clustering from attributes • Assumption: attributes explain the relationship • Not generalizable, relationship information not used for partitioning Course Student Course Student P(Green | Red) = 1 P(Purple | Blue) = 1 P(Green | Red) = 0.5 P(Purple | Red) = 0.5 Course Student P(Green | Red) = 0.5 P(Purple | Red) = 0.5 Course Student P(Green | Red) = 1 P(Purple | Blue) = 1 YES NOIS THAT SO?
  • 15. 1515 / 24 Relationship-oriented Partitioning • Objective: finding partitioning maximizing intra-partition edges Course Student P(Student.p1 | Course.p1) = 1 P(Student.p2 | Course.p2) = 1 p1 p2 Course Student P(Green | Red) = 0.5 P(Purple | Red) = 0.5
  • 16. 1616 / 24 Experiments – Protocol – Dataset generation Entity 2 Att 1 … Att n R 1,n 1 Entity 1 Att 1 … Att n 1 1,n Schema Instance Entity 1 Entity 2R
  • 17. 1717 / 24 Experiments – Protocol – Dataset generation Entity 2 Att 1 … Att n R 1,n 1 Entity 1 Att 1 … Att n 1 1,n Schema Instance Entity 1 Entity 2 Attributes partitioning favorable case Relationship partitioning favorable case Entity 1 Entity 2 R R
  • 18. 1818 / 24 Experiments – Protocol – Learning Entity 1 Entity 2Relation Att n Att 1 Att n Att 1 CE1 CE2 E2 E1 • Parameter learning on set up structure • 2 PRM compared: – Either with attributes partitioning – Or with relational partitioning
  • 19. 1919 / 24 Experiments – Protocol – Evaluation • For each generated dataset D – Split D into 10 subsets {D1, …, D10} – Perform 10 Folds CV each with one Di for test and others for training • Do it for PRM with attributes partitioning : store the results of 10 log likelihood PattsLL[i] • Do it for PRM with relationship partitioning : store the results of 10 log likelihood PrelLL[i] – Evaluate mean and sd of PattsLL[i] and PrelLL[i] – Evaluate significancy of relationship partitioning over attributes partitioning
  • 20. 2020 / 24 Experiments – Results Random clusters (independent from attributes) k 2 4 16 n 25 50 100 200 Relational > Attributes partitioning Attributes > Relational partitioning Partitionings not significantly comparable k 2 4 16 n 25 50 100 200 Attributes => Cluster (fully dependent from attributes) Green: Red: Orange:
  • 21. 2121 / 24 Experiments – About the NMF choice for partitioning • NMF – Find low dimension factor matrices which product approximates the original matrix – A relationship between two entities is an adjacency matrix • Motivation for NMF usage – (Restrictively) captures latent information from both rows and columns: co-clustering – Several extensions dedicated to more accurate co-clustering (NMTF) – Extensions for Laplacian regularization • Allow to capture both attributes and relationship information for clustering – Extensions for Tensor factorization • Allow to model n-ary relationships, n >= 2 – NMF = Good starting choice for the long-term needs?
  • 22. 2222 / 24 Experiments – About the NMF choice for partitioning • But – Troubles with performances in experimentations – Very sensitive to initialization: crashes whenever reaching singular state – Moving toward large scale methods : graph based relational clustering?
  • 23. 2323 / 24 Conclusion • PRM-RU to define probability structure in relational datasets • Need for partitioning • PRM-RU use attributes oriented partitioning • We propose to cluster the relationship information instead • Experiments show that : – Attributes partitioning do not explain all relationships – Relational partitioning can explain attributes oriented relationships
  • 24. 2424 / 24 Perspectives • Experiments on real life datasets • Towards large scale partitioning methods • PRM-RU Structure Learning using clustering algorithms • What about other link uncertainty representations?
  • 25. Anthony Coutant, Philippe Leray, Hoel Le Capitaine DUKe (Data, User, Knowledge) Team, LINA Questions? 7ème JournĂ©es Francophones sur les RĂ©seaux BayĂ©siens et les Modèles Graphiques Probabilistes (anthony.coutant | philippe.leray | hoel.lecapitaine) @univ-nantes.fr

Editor's Notes

  • #3: Beaucoup de jeux de donnĂ©es relationnels impliquant individus de diffĂ©rents types + diverses relations entre eux. Besoin d’algorithmes spĂ©cifiques pour l’apprentissage, car relaxent hypothèse i.i.d faite gĂ©nĂ©ralement PRM sont une extension des RB pour les donnĂ©es relationnelles Les PRM classiques gèrent l’incertitude au niveau des attributs de chaque individu, supposant les relations connues Hors, un jeu de donnĂ©es relationnel comporte Ă  la fois une notion descriptive des entitĂ©s (attributs) et une dimension topologique (la façon dont les individus sont connectĂ©s) Il est important de gĂ©rer l’incertitude topologique en plus de l’incertitude d’attributs Plusieurs extensions des PRM pour cela : PRM-RU, PRM-EU … PRM-RU est intĂ©ressante car elle expose de façon claire le besoin d’un partitionnement pour s’abstraire d’un jeu de donnĂ©es On s’intĂ©resse ici Ă  la question du choix d’un partitionnement, et de son impact sur l’apprentissage de ces PRM-RU.
  • #4: La dĂ©finition et l’apprentissage d’un PRM-RU nĂ©cessite de partitionner les individus impliquĂ©s dans une relation. Toutefois, la seule technique de partitionnement dĂ©finie dans la littĂ©rature repose uniquement sur les attributs des individus. ConsĂ©quence : la topologie rĂ©elle de la relation n’est pas prise en compte pour modĂ©liser l’incertitude de liens entre individus ! Nous proposons de partitionner les individus de façon topologique en lieu et place de l’approche historique. Nous montrons de façon expĂ©rimentale que : 1) un partitionnement orientĂ© attributs n’explique pas toutes les relations; 2) un partitionnement relationnel peut expliquer Ă  la fois des relations indĂ©pendantes des attributs, mais aussi des relations expliquĂ©es par les attributs.
  • #5: Beaucoup d’algorithmes d’apprentissage automatique supposent que les donnĂ©es considĂ©rĂ©es sont i.i.d. (identiquement et indĂ©pendamment distribuĂ©es). De tels jeux de donnĂ©es peuvent ĂŞtre reprĂ©sentĂ©s par des tableaux individus x attribut. Ici, par exemple, je considère un jeu de donnĂ©es oĂą chaque ligne reprĂ©sente les rĂ©sultats scolaires d’un Ă©tudiant. Un rĂ©seau BayĂ©sien sur ce jeu de donnĂ©es peut exprimer des dĂ©pendances / indĂ©pendances probabilistes entre les attributs d’un unique Ă©tudiant. Je peux par exemple exprimer le fait que le classement d’un Ă©tudiant dĂ©pende de ses notes. En revanche, je ne peux pas exprimer la dĂ©pendance entre le classement d’un Ă©tudiant, et le classement de ses pairs.
  • #6: Les jeux de donnĂ©es relationnels sont plus complexes. Un jeu de donnĂ©es ne respecte plus seulement la dĂ©finition d’un ensemble d’attributs de façon tabulaire, mais obĂ©it aux lois d’un schĂ©ma relationnel. Le schĂ©ma relationnel dĂ©crit l’ensemble des types d’entitĂ©s existant dans les donnĂ©es, les attributs dĂ©crivant ces entitĂ©s, et les types de relations possibles entre eux. Si nous Ă©tendons le jeu de donnĂ©es prĂ©cĂ©dent, nous pouvons par exemple dĂ©finir une relation entre des individus Ă©tudiants et des individus cours, de type « inscription », chaque entitĂ© et relation Ă©tant dĂ©crite par divers attributs. Une instance de ce schĂ©ma est alors un jeu de donnĂ©es qui respecte ce schĂ©ma. Un exemple en est donnĂ© en bas.
  • #7: Un PRM est un modèle graphique probabiliste dirigĂ© dĂ©fini sur un schĂ©ma relationnel. Il reprĂ©sente un patron de distribution de probabilitĂ©s dĂ©fini sur l’ensemble des instances possibles de ce schĂ©ma.
  • #8: Etant donnĂ© un PRM et une instance respectant le mĂŞme schĂ©ma relationnel, il est possible de crĂ©er un RĂ©seau BayĂ©sien dĂ©roulĂ©, mis Ă  plat, appelĂ© « Ground Bayesian Network » qui permet de faire de l’infĂ©rence sur les valeurs d’attributs des diffĂ©rents individus du jeu de donnĂ©es considĂ©rĂ©.
  • #9: Les PRM ne gèrent que l’incertitude au niveau des attributs des diffĂ©rents individus, et supposent les relations entre ces individus connus. Notre but est par exemple, en haut, de trouver quelle est la difficultĂ© probable d’un cours en fonction des diffĂ©rents Ă©tudiants qui y sont inscrits, et les notes qu’ils ont obtenus sur ce cours. Mais il peut ĂŞtre intĂ©ressant de gĂ©rer le cas oĂą les relations sont Ă©galement incertaines, pour faire de la dĂ©tection automatique de liens. Par exemple, en bas, nous pourrions vouloir trouver l’étudiant le plus probablement attachĂ© Ă  un lien d’inscription concernant un cours particulier, Ă©tant donnĂ© les caractĂ©ristiques du cours, de l’inscription, et des Ă©tudiants candidats. Des extensions des PRM existent pour cela.
  • #10: Parmi les extensions des PRM, les PRM avec incertitude de rĂ©fĂ©rence essaient de modĂ©liser l’incertitude de liens par une distribution de probabilitĂ©s de type P(endpoints | existence du lien). Cette extension ajoute pour cela des distributions sur l’ensemble des individus possibles au niveau de chaque relation. La question Ă  laquelle il faut maintenant rĂ©pondre concerne le choix de la structure probabiliste. NaĂŻvement, on pourrait tenter d’apprendre une distribution de probabilitĂ©s sur l’ensemble des clĂ©s des individus impliquĂ©s. Toutefois, cela n’est pas gĂ©nĂ©ralisable. Une solution proposĂ©e dans les PRM-RU pour pallier ce problème, est de partitionner les individus impliquĂ©s dans la relation.
  • #11: Nous introduisons donc 2 variables alĂ©atoires au total pour chaque point d’entrĂ©e d’une relation. L’idĂ©e est alors de choisir un individu dans un processus en 2 temps : 1) choisir un groupe d’individus selon une distribution de probabilitĂ©s dĂ©finie; 2) choisir alĂ©atoirement un individu de ce groupe, selon une loi uniforme. La complexitĂ© du choix est alors rĂ©duite car les dimensions des distributions Ă  apprendre au niveau des variables de partitionnement sont très rĂ©duites.
  • #12: Il ne reste plus qu’à effectivement partitionner les individus. Pour chaque variable « cluster », il faut associer une fonction de partition permettant de regrouper les individus. La variable « cluster » est alors dĂ©fini sur l’ensemble des clusters de cette fonction.
  • #13: Le problème dans les PRM-RU provient de la façon dont sont dĂ©finies les fonctions de partition, oĂą les seuls attributs des individus de l’entitĂ© considĂ©rĂ©s sont utilisĂ©s. L’hypothèse faite est alors très forte : on considère que la relation est pleinement expliquĂ©e par les attributs des types d’entitĂ©s liĂ©s. Paradoxalement, cela signifie que l’apprentissage des variables permettant de faire de la dĂ©tection de liens n’utilisent pas directement les liens du jeu de donnĂ©es d’apprentissage. Cela n’est pas gĂ©nĂ©ralisable dans tous les cas. Prenons par exemple le graphe biparti ci-dessous, instance de la relation binaire dĂ©finie prĂ©cĂ©demment entre les Ă©tudiants et les cours. Je considère ici que deux individus d’une mĂŞme couleur ont la mĂŞme configuration d’attributs. Ici, si je tente d’apprendre des distributions sur ma relation, les attributs seuls vont me permettre un bon apprentissage, car tous les cours rouges sont liĂ©s Ă  tous les Ă©tudiants verts et tous les cours bleus sont liĂ©s Ă  tous les Ă©tudiants violets. Les distributions de probabilitĂ© sont alors informatives et discriminantes.
  • #14: Si je prends un second exemple, ce n’est plus si clair. Je vais ainsi toujours apprendre les mĂŞmes distributions de probabilitĂ© que prĂ©cĂ©demment, disant que si un lien est liĂ© Ă  un cours rouge, alors il va nĂ©cessairement ĂŞtre liĂ© Ă  un Ă©tudiant vert. Toutefois, cela signifie qu’une fois le choix de la couleur et donc du groupe effectuĂ©, je peux prendre alĂ©atoirement n’importe quel individu vert. Or, la topologie de la relation exhibe 4 composantes connexes diffĂ©rentes, sĂ©parant les deux individus rouges et verts, m’informant que chaque individu d’une paire colorĂ©e doit ĂŞtre traitĂ©e diffĂ©remment pour cette relation.
  • #15: Dans le dernier cas, la relation est encore plus mĂ©langĂ©e et les distributions apprises ne sont plus informatives. J’ai des composantes connexes intĂ©ressantes, mais elle sont masquĂ©es par des distributions de probabilitĂ©s consensuelles entre les individus colorĂ©es.
  • #16: Notre but est de partitionner les individus d’une relation de telle façon que le nombre de liens Ă  l’intĂ©rieur de chaque groupe soit maximal. Ă€ partir de ce partitionnement, notre but est d’apprendre des distributions de probabilitĂ©s qui reflètent le plus fidèlement possible la topologie de la relation. Si je reprends le dernier exemple de la slide prĂ©cĂ©dente, je pourrais obtenir un meilleur apprentissage de paramètres en dĂ©coupant mes individus selon les composantes du graphe, et non pas selon les couleurs des individus.
  • #17: Nous avons souhaitĂ© confrontĂ© les deux techniques de partitionnement et leur impact sur l’apprentissage d’un PRM-RU. Pour cela, nous avons construit deux types de jeux de donnĂ©es. Chacun de ces jeux de donnĂ©es respecte le mĂŞme schĂ©ma relationnel simple, composĂ© d’une seule relation binaire entre deux entitĂ©s. Chacun de ces jeux de donnĂ©es exhibe diffĂ©rents sous-groupes, avec des prĂ©fĂ©rences fortes pour d’autres sous-groupes de l’autre entitĂ©.
  • #18: La diffĂ©rence entre les deux jeux de donnĂ©es provient de la rĂ©partition des individus dans ces sous-groupes. Le premier jeu de donnĂ©es dĂ©fini une implication totale entre la valeur des attributs d’un individu et son appartenance Ă  un groupe. Le second jeu de donnĂ©es dĂ©fini une indĂ©pendance totale entre attributs et groupe affectĂ©. Le premier jeu est censĂ© favoriser l’approche de partitionnement par attributs, et l’autre est censĂ© favoriser l’approche orientĂ©e relation.
  • #19: La comparaison a Ă©tĂ© faite entre deux apprentissage de paramètres d’une structure fixĂ©e de PRM. Deux versions de PRM ont Ă©tĂ© considĂ©rĂ©es : une avec un partitionnement par attributs, l’autre avec un partitionnement relationnel.
  • #20: Le protocole d’évaluation est le suivant : 1) dĂ©couper un jeu de donnĂ©es en 10 parties. 2) Faire un apprentissage en validation croisĂ©e en 10 Ă©tapes en prenant chaque fois un jeu de donnĂ©es comme jeu de tests. 3) Stocker les 10 log vraisemblances calculĂ©es pour le PRM avec partitionnement attributs. Faire de mĂŞme pour le PRM avec partitionnement relationnel. 4) Evaluer la significativitĂ© des rĂ©sultats par un z-test.
  • #21: Les rĂ©sultats obtenus pour chaque jeu de donnĂ©es sont les suivants. Un carrĂ© vert indique que l’approche relationnelle est significativement meilleure que l’approche par attributs. Un carrĂ© rouge exprime l’idĂ©e inverse. Un carrĂ© orange montre une zone oĂą le test statistique ne permet pas de trancher. Dans le cas d’un jeu de donnĂ©es avec groupes indĂ©pendants des attributs, Ă  gauche ici, on peut voir que notre mĂ©thode est significativement meilleure sauf lorsque le ratio n / k est très faible. Des phĂ©nomènes de sur apprentissage peuvent expliquer ce comportement. De l’autre cĂ´tĂ©, lorsque les attributs expliquent une relation, nous ne pouvons pas discerner de schĂ©ma clair. Nous pouvons donc dire que notre mĂ©thode s’applique autant que la mĂ©thode historique pour ces relations. Notre approche semble donc plus gĂ©nĂ©ralisable.
  • #22: Avant de conclure, je voulais parler de la mĂ©thode de partitionnement que nous avons choisi Ă  l’écriture de ce papier pour l’approche relationnelle. Nous avons choisi une implĂ©mentation de NMF minimisant une KL-divergence car c’est une technique de factorisation qui a Ă©tĂ© montrĂ©e Ă©quivalente Ă  pLSA, nous donnant une interprĂ©tation solide en terme de probabilitĂ©s pour notre problème. Nous avons fait ce choix Ă  l’origine pour diverses raisons autres que la seule interprĂ©tabilitĂ©. (cf. slide pour la suite)