SlideShare a Scribd company logo
Word	
  Sense	
  Induc-on	
  &	
  
   Disambigua-on	
  Using	
  	
  
Hierarchical	
  Random	
  Graphs	
Ioannis	
  Klapa=is	
  &	
  Suresh	
  Manandhar	
  
                         	
  
               EMNLP	
  2010	
  
             発表者	
  :	
  M2	
  松田	
  
Abstract	
•  Unsupervised	
  WSD	
  
   –  Known	
  as	
  Word	
  Sense	
  Induc-on(WSI)	
  
   –  クラスタリングに基づくWSD	
  
•  本研究ではグラフをベースにしている	
  
   –  多くのWSIではグラフのノードをフラットにクラスタ
      リングする	
  
   –  対して、本研究ではグラフに存在している階層構
      造を用いることで性能を上げようと試みている	
  
語義の階層構造とグラフ	
•  多義語 paper	
  の共
   起グラフの例	
  
  –  密にリンクしている
     部分とそうでない
     部分がある	
  
  –  フラットなクラスタリ
     ングだと落としてし
     まう情報がある
階層構造の推測	
 Observed	
  Graph	
     Inferred	
  Hierarchy	
  

                                                  D2	
  
   B	
          D	
  



                                 D0	
                              D1	
  

   A	
          C	
  
                         A	
              B	
              C	
              D	
  



類似度に基づくグラフを元にして、階層関係を表したグラフを作成
研究の目的	
•  Infer	
  the	
  hierarchical	
  structure	
  (binary	
  tree)	
  of	
  
   a	
  graph	
  made	
  by	
  the	
  contexts	
  of	
  a	
  polysemous	
  
   word.	
  
    –  多義語のコンテキストから作成されたグラフから、
       階層構造(二分木)を推定する	
  
•  Apply	
  the	
  inferred	
  binary	
  tree	
  to	
  WSD	
  &	
  
   compare	
  with	
  flat	
  clustering.	
  
    –  推定された二分木をWSDに適用し、フラットなクラ
       スタリングとの比較を行う	
  
提案手法の概要	




        Step.1	
                 Step.2	
           Step.3	
        Step.4	
対象語のコンテキストから	
              グラフ(G)から、	
          Gold-­‐Standard   木の親
共起関係に基づくグラフ	
  (G)	
        階層構造を表               データから、そ           方向に
を作る	
                       した二分木(H)             れぞれのノード           足しあわ
G	
  :	
  無向、unweighted	
   の構造を推定	
             に対して語義            せて
                            (Hierarchical	
      の確率を振る	
          argmax	
  
                            Random	
  Graph)
Step.	
  1	

GRAPH	
  CREATION
Graph	
  Crea-on	
  (1/3)	
•  対象語を含んだコンテキスト(パラグラフ)から
   キーワードを抽出	
  
 –  対照コーパス(BNC)と出現確率を比較して、Log-­‐
    Likelihood	
  ra-oが一定以上の名詞	
  
   •  足切りパラメータ p1	
  
 –  Balancedなコンテキストに比べて、対象語と共起
    しやすい(独立でないと)名詞を抽出している	
  
•  以下、コンテキスト=抽出された名詞の集合
   で表す	
  
Graph	
  Crea-on	
  (2/3)	
•  グラフのノード	
  
  –  対象語を含むそれぞれのコンテキスト	
  
•  グラフのエッジ	
  
  –  コンテキスト同士の類似度を測り、一定値以上の
     場合、その間にエッジを張る	
  
    •  足切りパラメータ p3	
              simcl (A,B) + simwd (A,B)
    W (A,B) =                          ・・・式(1)	
                          2
                       こんな感じの無向グラフ	
  (G)	
  が	
  
                           出来上がる
Graph	
  Crea-on	
  (3/3)	
                   simcl (A,B) + simwd (A,B)
         W (A,B) =
                               2
    •  simcl	
  :	
  コロケーションに基づく類似度	
  
      –  コロケーションの抽出にも	
  Log-­‐Likelihood	
  ra-oを
!        使用	
  
      –  足切りパラメータ p2	
  	
  
    •  simwd:	
  Bag-­‐of-­‐Wordsに基づく類似度	
  
    •  いずれも	
  Jaccard	
  係数を用いて類似度を計算	
  
Step.2	

INFERRING	
  GRAPH	
  HIERARCHY
Hierarchical	
  Random	
  Graphs	
  	
•  Model	
  :n	
  個の葉ノードと n-­‐1	
  個の内部ノード
   からなる二分木	
  
•  内部ノードの集合を D	
  とおく	
               分かりにくいので	
  
                                         後で	
   –  	
  	
  D = {D1, D2 ,...Dn!1 }
•  もとのグラフ	
  G	
  において、 Dk	
  に対応するエッ
   ジが存在する確率を θk	
  とおく	
  
•  Dのトポロジカルな構造と各内部ノードに関連
   づく確率変数のベクトルをセットにして、	
   !
   –  HRG	
  	
  :        と定義	
  
                    H (D, ! )
HRG	
  (例)	



  もとのグラフ G	




   HRG	
  H
HRG	
  parameteriza-on	
  	
    •  目標:もとのグラフ G	
  と統計的に類似した
                           !
       HRGになるようなパラメータ D と ! を選ぶ	
  
           !
     –  !	
  	
  は	
  Dのトポロジーさえ決まれば	
  MLE	
  で簡単に
        	
  	
  
        求まる.	
  
     –  	
  D	
  はsuper-­‐exponen-alに組み合わせが大きくなる
            	
  	
               !
        ので、	
  MCMC	
  で求める.	
  


!
        左右どちらの二分木が、	
  
     元のグラフの性質を反映している?
!
           HRG	
  parameteriza-on	
  (!	
  )	
                                      	
  	
  
 •  D	
  k	
  	
  をHRGの内部ノードとする	
  
     	
  
 •  l(Dk ) r(D	
  	
  )	
  	
  をそれぞれ、 の左、右の	
  subtree	
  
       ,	
  	
  	
  	
  	
  	
  k                       Dk
     に存在する葉ノードの個数とする	
  
 •  	
  	
  (D	
  k	
  	
  	
  	
  を Dk の	
  subtree	
  同士を結ぶエッジのうち、
     f 	
  	
  	
   )
! もとのグラフ	
  G	
  に存在するものの数とする	
             !

 •  すると、 ! k の最尤推定値は	
  
     !
              f (Dk )
      !k =
           l(Dk )r(Dk )
       直感的に言うと・・・・	
  
       	
  	
  	
  	
  左の葉と右の葉を結ぶすべてのパスのうち、	
  G	
  に実際存在するものの割合
!
                HRG	
  parameteriza-on	
  (!	
  )	
                                           	
  	
  
•  Example	
  for	
  node	
  D2:	
  
    –  f(D2)	
  =	
  2,	
  there	
  are	
  2	
  edges,	
  AB	
  &	
  CD	
  
    –  l(D2)	
  =2,	
  there	
  are	
  2	
  ver-ces	
  on	
  the	
  le=	
  subtree.	
  
    –  r(D2)	
  =	
  2,	
  the	
  are	
  2	
  ver8ces	
  on	
  the	
  right	
  subtree.	
  
    –  Hence	
  the	
  probability	
  is	
  2/4	
  =	
  0.5	
  
HRG	
  parameteriza-on	
  (	
  	
  	
  )	
                                        D

•  尤度関数	
  (Clauset	
  et	
  al.,	
  2008)	
  :	
  
             !
        L(D, ! ) =          " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk )
                                              k)
                            Dk !D




•  L	
  (A)	
  =	
  0.105	
  
•  L	
  (B)	
  =	
  0.062	
  
	
  
尤度関数について	
  (1/2)	
     !
L(D, ! ) =   " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk )
             Dk !D


h(! k ) = !! k log! k ! (1! ! k )log(1! ! k )      とおいて対数をとると、	


         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                     Dk "D

対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標	
  
(対数をとるのは主にアンダーフローを防ぐため)
尤度関数について	
  (2/2)	
                        それぞれ、左(右)の葉の数	
  
                        (木のルートに近いノードほど大きな値)	

         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                Dk "D

-­‐h(θ)は右図のようにθが	
  
0か1に近いときに最大値をとる	


 曖昧性の低いノードほど高い値	


θが0か1に近いノードが多い場合に対数尤度が大きくなる	
  
もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ	
                 θはDのトポロジ(およびG)が決まれば一意に決まるので、	
  
                 対数尤度を最大化するような	
  D	
  を求める問題に落ちる
MCMC	
  Sampling	
•  先ほど述べたように、θは簡単に求まる	
  
•  しかし、尤度が最大になるようなDは、二分木
   のすべての構造を列挙しなければ求まらない	
  
•  そこで、木の構造をすこしづつ変化させ、尤
   度の変化を見ながら最適な構造を見つける	


  Markov	
  Chain	
  Monte	
  Carlo(MCMC)法を用いる
具体的なサンプリング法	




S  Given	
  a	
  current	
  dendrogram	
     Dcurr
         Dk
S  ノード    をランダムに選択する	
  (Figure	
  (A)).	
  
S  子Subtreeのどちらかを兄弟Subtreeと入れ替える	
  (Figures	
  (B),(C))	
  
S  Metropolis-­‐Has-ngs	
  ruleに基づいて採択を判定する	
  
                     !
!                                                      L(Dnext )
     S  尤度が上がるなら採択、下がる場合でも                                      の確率で採択	
  
                                                       L(Dcurr )
                                     (おおよそ	
  O(n2)	
  くらいのステップ数で収束するらしい)
Step.3	

SENSE	
  MAPPING
Sense	
  Mapping	
•  推定されたHRGを実際にWSDに用いるには、
   「語義」と対応付ける必要がある	
  
 –  内部ノードDiが語義skに関連づく確率をタグ付き
    コーパスから学習	
     F(D )	
  :	
  D の下にある葉(コ   i    i
                                          ンテキスト)の集合	
  
                 | F(Di )! F "(sk ) |     F’(sk)	
  :	
  コーパスの中で語
   P(sk | Di ) =
                     | F(Di ) |           義skとタグ付けされてい
                                          るコンテキストの集合	

タグ付きコーパスとの語彙のオーバーラップをはかって、	
  
それぞれの内部ノードに対して語義の確率をマッピングしている	
 タグ付きコーパスとしてはSemeval	
  2007	
  English	
  lexical	
  sampleデータを使用
Step.4	

SENSE	
  TAGGING
Sense	
  Tagging	

  •    Let	
  	
  	
  c	
  j	
  	
  be	
  an	
  untagged	
  instance.	
  
                              	
  
  •    This	
  will	
  be	
  leaf	
  in	
  the	
  dendrogram.	
  
  •    Example:	
  context	
  C	
  in	
  Figure	
  (A).	
  
! •    H(c	
  	
  j	
  )	
  set	
  of	
  parents	
  for	
  context	
   c j
       	
  	
  	
  	
  	
   	
  
  •    Score	
  assigned	
  to	
  sense	
  	
  sk

       w(sk , c j ) =            % p(s        k   | Di ) " # i
                                                  !                     例:	
  
                             D i $ H (c j )
                                                                        w(s1,C)	
  =	
  (0*1+	
  (2/3)*0.25)	
  =	
  0.16	
  	
  
                                   !                                    w(s2,C)	
  =	
  (1*1+(1/3)*0.25)=	
  1.08.	
  	
  
  スコアが最も高い語義をleaf-­‐nodeに対応する	
  
                                                                        よって,	
  s2	
  が	
  leaf-­‐node	
  Cに対応する語義	
  
  語義として出力する
EVALUATION
Evalua-on	
  Sehng	
•  データセット:	
  
   –  Semeval-­‐2007	
  sense	
  induc-on	
  task	
  
•  評価指標:	
  
   –  F1-­‐score	
  
•  Baselines:	
  
   –  フラットクラスタリング using	
  weighted	
  graphs	
  (CWW)	
  
   –  フラットクラスタリング using	
  unweighted	
  graphs	
  
      (CWU)	
  
        •  Chinese	
  Whispers	
  (Biemann,	
  2006)	
  という手法を用いている	
  
   –  階層的凝集型クラスタリング(HAC)	
  
        •  average	
  linkageに基づくもの	
  (伝統的な手法)	
  
Result(1/2)	




•  パラメータ: すべて共起に基づくグラフGのもの	
  
  –  p1,	
  p2	
  :	
  単語、コロケーションの抽出のためのしきい値(対数尤度比)	
  
  –  p3	
  :	
  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)	
  
•  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出
   ている	
  
•  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の
   両方の関係を考慮できるため性能が向上した	
  
  –  と著者らは主張している・・・	
  
Result(2/2)	
System	
                                                          Performance	
  (%)	
  
HRGs	
                                                            87.6	
  
(Brody	
  &	
  Lapata,	
  2009)	
                                 87.3	
  
(Niu	
  et	
  al.,	
  2007)	
                                     86.8	
  
(Klapa=is	
  and	
  Manandhar,	
  2008)	
                         86.4	
  
HAC	
                                                             86.0	
  
CWU	
                                                             85.1	
  
CWW	
                                                             84.7	
  
(Pedersen,	
  2007)	
                                             84.5	
  
MFS	
                                                             80.9	
  

                                  F1-­‐score	
  for	
  SemEval-­‐2007	
  WSI	
  task	
  dataset.	
  
                 State-­‐of-­‐the-­‐artな他の手法と比べても高い性能	
  
                  (ただし、上位3つは有意な差ではないらしい)
Conclusion	
•  Unsupervised	
  method	
  for	
  inferring	
  the	
  
   hierarchical	
  grouping	
  of	
  the	
  senses	
  of	
  a	
  
   polysemous	
  word.	
  
•  Graphs	
  exhibit	
  hierarchical	
  organiza-on	
  
   captured	
  by	
  HRGs,	
  in	
  effect	
  providing	
  
   improved	
  WSD	
  performance	
  compared	
  to	
  	
  
   –  Flat	
  graph	
  clustering.	
  
   –  Hierarchical	
  Agglomera-ve	
  Clustering	
  
感想、疑問等	
•  Hierarchical	
  Random	
  Graphの尤度関数の解釈が難しい	
  
•  グラフ	
  G	
  を unweighted	
  にしてしまうのはもったいない気が
   する	
  
  –  関連性には「程度」がある	
  
  –  足切りパラメータに意味があるのかよくわからない	
  
•  MCMCの収束条件について何も書いてない	
  
•  凝集クラスタリング(HAC)に対して有意に性能が向上する
   理由がイマイチ納得いかない	
  
•  途中からGold-­‐Standardを用いているので評価指標が公平
   なものであるか判断が難しい	
  
  –  WSDとして評価するためには必要なものではあるが・・・	
  
  –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ
     ちらの結果も見たかった	
  
おまけ	
•  Hierarchical	
  Random	
  Graphの原論文
   (Nature2008(leker),	
  ICML2006)も当たってみた	
  
  –  いろいろと応用があるらしい	
  
     •  Missing	
  ling	
  detec-on,	
  link	
  predic-on	
  
     •  Community	
  detec-on	
  
     •  Personalized	
  recommenda-on	
  etc…	
  
•  NLPの分野ではまだほとんど応用されていない
   手法なので、興味のある方は触ってみるといい
   かも	
  
  –  著者がコードも配っています	
  
  –  	
  	
  
ANY	
  QUESTION	
  OR	
  COMMENT?

More Related Content

PDF
Information Retrieval
PDF
Shunsuke Horii
PDF
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
PDF
演習発表 Sari v.1.1
PDF
Topic model
PDF
ウェーブレット木の世界
PDF
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
PDF
4thNLPDL
Information Retrieval
Shunsuke Horii
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
演習発表 Sari v.1.1
Topic model
ウェーブレット木の世界
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
4thNLPDL

What's hot (17)

PDF
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PDF
情報検索の基礎(11章)
PPTX
Information retrieval model
PPTX
Neural word embedding as implicit matrix factorization の論文紹介
PDF
単語の分散表現と構成性の計算モデルの発展
PDF
OWLで何が言えるか
PDF
演習発表 Sari v.1.2
PDF
OWLで何が書けるか
PDF
第5章 拡張モデル(前半)
PDF
K-means hashing (CVPR'13) とハッシング周り
PDF
DSIRNLP#1 ランキング学習ことはじめ
PDF
A summary on “On choosing and bounding probability metrics”
PPTX
yyoshida thesis
PDF
「統計的学習理論」第1章
PDF
Introduction to Categorical Programming
PDF
単語・句の分散表現の学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
情報検索の基礎(11章)
Information retrieval model
Neural word embedding as implicit matrix factorization の論文紹介
単語の分散表現と構成性の計算モデルの発展
OWLで何が言えるか
演習発表 Sari v.1.2
OWLで何が書けるか
第5章 拡張モデル(前半)
K-means hashing (CVPR'13) とハッシング周り
DSIRNLP#1 ランキング学習ことはじめ
A summary on “On choosing and bounding probability metrics”
yyoshida thesis
「統計的学習理論」第1章
Introduction to Categorical Programming
単語・句の分散表現の学習
Ad

Viewers also liked (8)

PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
A Machine Learning Framework for Programming by Example
PPTX
Vanishing Component Analysis
PDF
Unified Expectation Maximization
PDF
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
PDF
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
PDF
いまさら聞けない “モデル” の話 @DSIRNLP#5
PDF
Practical recommendations for gradient-based training of deep architectures
Approximate Scalable Bounded Space Sketch for Large Data NLP
A Machine Learning Framework for Programming by Example
Vanishing Component Analysis
Unified Expectation Maximization
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
いまさら聞けない “モデル” の話 @DSIRNLP#5
Practical recommendations for gradient-based training of deep architectures
Ad

Similar to Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010) (20)

PPTX
R seminar on igraph
PPTX
Learning Depthwise Separable Graph Convolution from Data Manifold
PPTX
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
PDF
Math tutorial public
PDF
テーマ別勉強会(R言語)#3.pdf
PDF
Icml2011 reading-sage
PPT
Blueprintsについて
PDF
R による文書分類入門
KEY
形式手法とalloyの紹介
PDF
Thinking in Cats
PDF
Introduction to Categorical Programming (Revised)
PPTX
mathemaical_notation
PDF
Intoroduction of Pandas with Python
PDF
Scalaプログラミング・マニアックス
PPTX
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
PDF
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
PDF
第1回R勉強会@東京
PDF
Sort
PDF
スペクトラルグラフ理論入門
PDF
文献紹介:Gate-Shift Networks for Video Action Recognition
R seminar on igraph
Learning Depthwise Separable Graph Convolution from Data Manifold
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
Math tutorial public
テーマ別勉強会(R言語)#3.pdf
Icml2011 reading-sage
Blueprintsについて
R による文書分類入門
形式手法とalloyの紹介
Thinking in Cats
Introduction to Categorical Programming (Revised)
mathemaical_notation
Intoroduction of Pandas with Python
Scalaプログラミング・マニアックス
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
第1回R勉強会@東京
Sort
スペクトラルグラフ理論入門
文献紹介:Gate-Shift Networks for Video Action Recognition

More from Koji Matsuda (11)

PPTX
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
PPTX
KB + Text => Great KB な論文を多読してみた
PPTX
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
PPTX
知識を紡ぐための言語処理と、 そのための言語資源
PDF
「今日から使い切る」 ための GNU Parallel による並列処理入門
PDF
場所参照表現タグ付きコーパスの 構築と評価
PPTX
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
PDF
Information-Theoretic Metric Learning
PDF
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
PDF
研究室内PRML勉強会 11章2-4節
PDF
研究室内PRML勉強会 8章1節
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
KB + Text => Great KB な論文を多読してみた
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
知識を紡ぐための言語処理と、 そのための言語資源
「今日から使い切る」 ための GNU Parallel による並列処理入門
場所参照表現タグ付きコーパスの 構築と評価
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Information-Theoretic Metric Learning
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 8章1節

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

  • 1. Word  Sense  Induc-on  &   Disambigua-on  Using     Hierarchical  Random  Graphs Ioannis  Klapa=is  &  Suresh  Manandhar     EMNLP  2010   発表者  :  M2  松田  
  • 2. Abstract •  Unsupervised  WSD   –  Known  as  Word  Sense  Induc-on(WSI)   –  クラスタリングに基づくWSD   •  本研究ではグラフをベースにしている   –  多くのWSIではグラフのノードをフラットにクラスタ リングする   –  対して、本研究ではグラフに存在している階層構 造を用いることで性能を上げようと試みている  
  • 3. 語義の階層構造とグラフ •  多義語 paper  の共 起グラフの例   –  密にリンクしている 部分とそうでない 部分がある   –  フラットなクラスタリ ングだと落としてし まう情報がある
  • 4. 階層構造の推測 Observed  Graph   Inferred  Hierarchy   D2   B   D   D0   D1   A   C   A   B   C   D   類似度に基づくグラフを元にして、階層関係を表したグラフを作成
  • 5. 研究の目的 •  Infer  the  hierarchical  structure  (binary  tree)  of   a  graph  made  by  the  contexts  of  a  polysemous   word.   –  多義語のコンテキストから作成されたグラフから、 階層構造(二分木)を推定する   •  Apply  the  inferred  binary  tree  to  WSD  &   compare  with  flat  clustering.   –  推定された二分木をWSDに適用し、フラットなクラ スタリングとの比較を行う  
  • 6. 提案手法の概要 Step.1 Step.2 Step.3 Step.4 対象語のコンテキストから   グラフ(G)から、   Gold-­‐Standard 木の親 共起関係に基づくグラフ  (G)   階層構造を表 データから、そ 方向に を作る   した二分木(H) れぞれのノード 足しあわ G  :  無向、unweighted の構造を推定   に対して語義 せて (Hierarchical   の確率を振る argmax   Random  Graph)
  • 8. Graph  Crea-on  (1/3) •  対象語を含んだコンテキスト(パラグラフ)から キーワードを抽出   –  対照コーパス(BNC)と出現確率を比較して、Log-­‐ Likelihood  ra-oが一定以上の名詞   •  足切りパラメータ p1   –  Balancedなコンテキストに比べて、対象語と共起 しやすい(独立でないと)名詞を抽出している   •  以下、コンテキスト=抽出された名詞の集合 で表す  
  • 9. Graph  Crea-on  (2/3) •  グラフのノード   –  対象語を含むそれぞれのコンテキスト   •  グラフのエッジ   –  コンテキスト同士の類似度を測り、一定値以上の 場合、その間にエッジを張る   •  足切りパラメータ p3 simcl (A,B) + simwd (A,B) W (A,B) = ・・・式(1) 2 こんな感じの無向グラフ  (G)  が   出来上がる
  • 10. Graph  Crea-on  (3/3) simcl (A,B) + simwd (A,B) W (A,B) = 2 •  simcl  :  コロケーションに基づく類似度   –  コロケーションの抽出にも  Log-­‐Likelihood  ra-oを ! 使用   –  足切りパラメータ p2     •  simwd:  Bag-­‐of-­‐Wordsに基づく類似度   •  いずれも  Jaccard  係数を用いて類似度を計算  
  • 12. Hierarchical  Random  Graphs   •  Model  :n  個の葉ノードと n-­‐1  個の内部ノード からなる二分木   •  内部ノードの集合を D  とおく   分かりにくいので   後で –     D = {D1, D2 ,...Dn!1 } •  もとのグラフ  G  において、 Dk  に対応するエッ ジが存在する確率を θk  とおく   •  Dのトポロジカルな構造と各内部ノードに関連 づく確率変数のベクトルをセットにして、   ! –  HRG    :        と定義   H (D, ! )
  • 13. HRG  (例) もとのグラフ G HRG  H
  • 14. HRG  parameteriza-on   •  目標:もとのグラフ G  と統計的に類似した ! HRGになるようなパラメータ D と ! を選ぶ   ! –  !    は  Dのトポロジーさえ決まれば  MLE  で簡単に     求まる.   –   D  はsuper-­‐exponen-alに組み合わせが大きくなる     ! ので、  MCMC  で求める.   ! 左右どちらの二分木が、   元のグラフの性質を反映している?
  • 15. ! HRG  parameteriza-on  (!  )     •  D  k    をHRGの内部ノードとする     •  l(Dk ) r(D    )    をそれぞれ、 の左、右の  subtree     ,            k Dk に存在する葉ノードの個数とする   •     (D  k        を Dk の  subtree  同士を結ぶエッジのうち、 f       ) ! もとのグラフ  G  に存在するものの数とする   ! •  すると、 ! k の最尤推定値は   ! f (Dk ) !k = l(Dk )r(Dk ) 直感的に言うと・・・・          左の葉と右の葉を結ぶすべてのパスのうち、  G  に実際存在するものの割合
  • 16. ! HRG  parameteriza-on  (!  )     •  Example  for  node  D2:   –  f(D2)  =  2,  there  are  2  edges,  AB  &  CD   –  l(D2)  =2,  there  are  2  ver-ces  on  the  le=  subtree.   –  r(D2)  =  2,  the  are  2  ver8ces  on  the  right  subtree.   –  Hence  the  probability  is  2/4  =  0.5  
  • 17. HRG  parameteriza-on  (      ) D •  尤度関数  (Clauset  et  al.,  2008)  :   ! L(D, ! ) = " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk ) k) Dk !D •  L  (A)  =  0.105   •  L  (B)  =  0.062    
  • 18. 尤度関数について  (1/2) ! L(D, ! ) = " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk ) Dk !D h(! k ) = !! k log! k ! (1! ! k )log(1! ! k ) とおいて対数をとると、 ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D 対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標   (対数をとるのは主にアンダーフローを防ぐため)
  • 19. 尤度関数について  (2/2) それぞれ、左(右)の葉の数   (木のルートに近いノードほど大きな値) ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D -­‐h(θ)は右図のようにθが   0か1に近いときに最大値をとる 曖昧性の低いノードほど高い値 θが0か1に近いノードが多い場合に対数尤度が大きくなる   もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ θはDのトポロジ(およびG)が決まれば一意に決まるので、   対数尤度を最大化するような  D  を求める問題に落ちる
  • 20. MCMC  Sampling •  先ほど述べたように、θは簡単に求まる   •  しかし、尤度が最大になるようなDは、二分木 のすべての構造を列挙しなければ求まらない   •  そこで、木の構造をすこしづつ変化させ、尤 度の変化を見ながら最適な構造を見つける Markov  Chain  Monte  Carlo(MCMC)法を用いる
  • 21. 具体的なサンプリング法 S  Given  a  current  dendrogram   Dcurr Dk S  ノード    をランダムに選択する  (Figure  (A)).   S  子Subtreeのどちらかを兄弟Subtreeと入れ替える  (Figures  (B),(C))   S  Metropolis-­‐Has-ngs  ruleに基づいて採択を判定する   ! ! L(Dnext ) S  尤度が上がるなら採択、下がる場合でも の確率で採択   L(Dcurr ) (おおよそ  O(n2)  くらいのステップ数で収束するらしい)
  • 23. Sense  Mapping •  推定されたHRGを実際にWSDに用いるには、 「語義」と対応付ける必要がある   –  内部ノードDiが語義skに関連づく確率をタグ付き コーパスから学習   F(D )  :  D の下にある葉(コ i i ンテキスト)の集合   | F(Di )! F "(sk ) | F’(sk)  :  コーパスの中で語 P(sk | Di ) = | F(Di ) | 義skとタグ付けされてい るコンテキストの集合 タグ付きコーパスとの語彙のオーバーラップをはかって、   それぞれの内部ノードに対して語義の確率をマッピングしている タグ付きコーパスとしてはSemeval  2007  English  lexical  sampleデータを使用
  • 25. Sense  Tagging •  Let      c  j    be  an  untagged  instance.     •  This  will  be  leaf  in  the  dendrogram.   •  Example:  context  C  in  Figure  (A).   ! •  H(c    j  )  set  of  parents  for  context   c j             •  Score  assigned  to  sense    sk w(sk , c j ) = % p(s k | Di ) " # i ! 例:   D i $ H (c j ) w(s1,C)  =  (0*1+  (2/3)*0.25)  =  0.16     ! w(s2,C)  =  (1*1+(1/3)*0.25)=  1.08.     スコアが最も高い語義をleaf-­‐nodeに対応する   よって,  s2  が  leaf-­‐node  Cに対応する語義   語義として出力する
  • 27. Evalua-on  Sehng •  データセット:   –  Semeval-­‐2007  sense  induc-on  task   •  評価指標:   –  F1-­‐score   •  Baselines:   –  フラットクラスタリング using  weighted  graphs  (CWW)   –  フラットクラスタリング using  unweighted  graphs   (CWU)   •  Chinese  Whispers  (Biemann,  2006)  という手法を用いている   –  階層的凝集型クラスタリング(HAC)   •  average  linkageに基づくもの  (伝統的な手法)  
  • 28. Result(1/2) •  パラメータ: すべて共起に基づくグラフGのもの   –  p1,  p2  :  単語、コロケーションの抽出のためのしきい値(対数尤度比)   –  p3  :  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)   •  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出 ている   •  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の 両方の関係を考慮できるため性能が向上した   –  と著者らは主張している・・・  
  • 29. Result(2/2) System   Performance  (%)   HRGs   87.6   (Brody  &  Lapata,  2009)   87.3   (Niu  et  al.,  2007)   86.8   (Klapa=is  and  Manandhar,  2008)   86.4   HAC   86.0   CWU   85.1   CWW   84.7   (Pedersen,  2007)   84.5   MFS   80.9   F1-­‐score  for  SemEval-­‐2007  WSI  task  dataset.   State-­‐of-­‐the-­‐artな他の手法と比べても高い性能   (ただし、上位3つは有意な差ではないらしい)
  • 30. Conclusion •  Unsupervised  method  for  inferring  the   hierarchical  grouping  of  the  senses  of  a   polysemous  word.   •  Graphs  exhibit  hierarchical  organiza-on   captured  by  HRGs,  in  effect  providing   improved  WSD  performance  compared  to     –  Flat  graph  clustering.   –  Hierarchical  Agglomera-ve  Clustering  
  • 31. 感想、疑問等 •  Hierarchical  Random  Graphの尤度関数の解釈が難しい   •  グラフ  G  を unweighted  にしてしまうのはもったいない気が する   –  関連性には「程度」がある   –  足切りパラメータに意味があるのかよくわからない   •  MCMCの収束条件について何も書いてない   •  凝集クラスタリング(HAC)に対して有意に性能が向上する 理由がイマイチ納得いかない   •  途中からGold-­‐Standardを用いているので評価指標が公平 なものであるか判断が難しい   –  WSDとして評価するためには必要なものではあるが・・・   –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ ちらの結果も見たかった  
  • 32. おまけ •  Hierarchical  Random  Graphの原論文 (Nature2008(leker),  ICML2006)も当たってみた   –  いろいろと応用があるらしい   •  Missing  ling  detec-on,  link  predic-on   •  Community  detec-on   •  Personalized  recommenda-on  etc…   •  NLPの分野ではまだほとんど応用されていない 手法なので、興味のある方は触ってみるといい かも   –  著者がコードも配っています   –     
  • 33. ANY  QUESTION  OR  COMMENT?