SlideShare a Scribd company logo
WSDM  2016  勉強会  
Extracting  Search  Query  Patterns  
via  the  Pairwise  Coupled  Topic  Model
ohtaman  
2016/03/07
やりたいこと
• 検索索クエリからユーザー情報を抽出したい。そのた
めに検索索クエリから各単語のカテゴリを推定した
い。
NY  restaurant
LOCATION,  SERVICE
NY  という  LOCATION  にいる/⾏行行く  
Restaurant  という  SERVICE  を利利⽤用する
検索索クエリ
カテゴリ
ユーザー情報
先⾏行行研究
• Query  Template:  テンプレート(カテゴリーの列列)を⾃自動で抽出する  
• ドメインを絞らなければ精度度がでない  
• ⼈人⼿手による教師データの作成が必要  
• LDA:  最も有名なトピックモデル  
• ⽂文書数にパラメータ数が⽐比例例する。⼀一般に検索索クエリは⾮非常に膨⼤大なの
で、メモリの⼯工夫が必要になる。  
• BTM:  単語のペアに対するトピックモデル  
• トピック同⼠士の関係はわからない
問題設定
• 検索索クエリが与えられたとき、以下の知識識を抽出  
1.クエリ中の単語の属するカテゴリのセット  
2.カテゴリと単語の  is-‐‑‒a  関係  
3.クエリからクエリパターン(カテゴリの列列)へのマッピン
グ
モデル
• 以下のようなトピックモデルを考える  
•                                       は⼀一般にはM次のテンソルとなるた
め、計算困難  ⇨  2次の積でかけると仮定する
Pairwise  Decomposition
•                                       を2次の積の形に制限する  
• 2次の  ”sub  model”  の積の形で表すことができる  
• 実は規格化係数の計算は未だ  O(K^m)
PCTM
•                                                   と                                                      を直接モ
デル化  
• 事前分布を導⼊入
要するに
• トピック同⼠士の共起をモデリングする
BTMとの違い
• BTM  では、共起語が同じトピックに属するが、
PCTMでは、単語それぞれが別のトピックに属する
検証
検証概要
• 提案⼿手法とLDA、BTMを⽐比較  
• いろいろな⽅方法で検証してみる  
• AOL  と  Yahoo!  Japan  の検索索クエリを利利⽤用
Word  Intrusion
• 1つのトピックから幾つか単語を抽出し、1つだけ
別トピックの単語(intruder)を混ぜる。⼈人間に
(intruder)を当てさせる  
• PCTM  は  LDA  と同等で、  BTM  に若若⼲干劣劣る
Topic  Intrusion
• 検索索クエリと、関連するトピックを3つ、関係のない
トピックを1つ提⽰示する。⼈人間に関係のないトピック
を当てさせる  
• BTMとPCTMでそこまで多きな差はない。PCTMはク
エリの単語数が多いと有利利
Query  Selection
• 実際のクエリと、各モデルで⽣生成されたクエリをそ
れぞれ複数表⽰示。元のクエリと同じ意図のクエリが
多い⼿手法を⼈人間が選択  
• PCTM  は  LDA  や  BTM  よりも良良い!
Keyword  Prediction
• テストデータを⽤用意し、各クエリから1単語ランダ
ムに除去。パープレキシティを計算  
• PTCM  は  BTM  よりも良良い!
Query  Generation
• 各モデルを⽤用いて、もっともらしい2語のクエリを
上位10,000件⽣生成。別途⽤用意した2語の実クエリ
100,000件の中に含まれているか否かを調べる  
• PCTM  のほうが  LDA/BTM  よりも良良い!
トピックの内容
• LOCATION  関連のトピックの中⾝身を⾒見見ると、LDA/
BTMでは  “lottery”  など  “LOCATIONと共起する単
語”も同じトピックに含まれてしまっているのがわ
かる
トピック間の関係
• PCTMはLDA/BTMと違って、トピック間の関係性
を簡単に⾒見見る事ができる
まとめ
• PCTM  (Pairwise  Coupled  Topic  Model)という⼿手
法を提案した  
• PCTM  を⽤用いると、検索索クエリ中の各単語の属する
トピックの推定と、トピック間の関係を⾒見見ることが
できる  
• 幾つかの検証では、既存⼿手法を⼤大きく上回る精度度を
得た

More Related Content

PDF
Deepboosting
PDF
Generative junji
PDF
TensorFlowで逆強化学習
PPT
自動翻訳ツールの概要と応用(ネットショップ向け)
PDF
日英機械翻訳のための構文辞書
PPTX
A survery of topic model in bioinformatics
PPTX
PFI seminar 2010/05/27 統計的機械翻訳
PDF
TensorFlow DevSummitを概観する
Deepboosting
Generative junji
TensorFlowで逆強化学習
自動翻訳ツールの概要と応用(ネットショップ向け)
日英機械翻訳のための構文辞書
A survery of topic model in bioinformatics
PFI seminar 2010/05/27 統計的機械翻訳
TensorFlow DevSummitを概観する

Viewers also liked (11)

PDF
Activity forecasting
PDF
NNで広告配信のユーザー最適化をやってみた。@ TFUG #3
PPTX
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
PDF
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
PDF
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
PDF
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
PPTX
Ml15min発表資料(提出用)
PDF
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
PDF
10分でわかったつもりになるlean start up ~リーンスタートアップって何ですか?~
PDF
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
PDF
農業Aiハッカソンやってみた(第10回 Machine Learning 15minutes!)
Activity forecasting
NNで広告配信のユーザー最適化をやってみた。@ TFUG #3
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
Ml15min発表資料(提出用)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
10分でわかったつもりになるlean start up ~リーンスタートアップって何ですか?~
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
農業Aiハッカソンやってみた(第10回 Machine Learning 15minutes!)
Ad

Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model