Submit Search
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
1 like
623 views
Mitsuhisa Ohta
WSDM 2016 勉強会 資料
Technology
Read more
1 of 19
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
More Related Content
PDF
Deepboosting
Mitsuhisa Ohta
PDF
Generative junji
Mitsuhisa Ohta
PDF
TensorFlowで逆強化学習
Mitsuhisa Ohta
PPT
自動翻訳ツールの概要と応用(ネットショップ向け)
fengruoyouqing
PDF
日英機械翻訳のための構文辞書
Kanji Takahashi
PPTX
A survery of topic model in bioinformatics
Tsukasa Fukunaga
PPTX
PFI seminar 2010/05/27 統計的機械翻訳
Preferred Networks
PDF
TensorFlow DevSummitを概観する
Y OCHI
Deepboosting
Mitsuhisa Ohta
Generative junji
Mitsuhisa Ohta
TensorFlowで逆強化学習
Mitsuhisa Ohta
自動翻訳ツールの概要と応用(ネットショップ向け)
fengruoyouqing
日英機械翻訳のための構文辞書
Kanji Takahashi
A survery of topic model in bioinformatics
Tsukasa Fukunaga
PFI seminar 2010/05/27 統計的機械翻訳
Preferred Networks
TensorFlow DevSummitを概観する
Y OCHI
Viewers also liked
(11)
PDF
Activity forecasting
jh3rox
PDF
NNで広告配信のユーザー最適化をやってみた。@ TFUG #3
Junichiro Katsuta
PPTX
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
Silicon Studio Corporation
PDF
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
ksmzn
PDF
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
koba cky
PDF
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
Masato Taruishi
PPTX
Ml15min発表資料(提出用)
WEBFARMER. ltd.
PDF
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
PDF
10分でわかったつもりになるlean start up ~リーンスタートアップって何ですか?~
圭 進藤
PDF
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
PDF
農業Aiハッカソンやってみた(第10回 Machine Learning 15minutes!)
Kohei Mochida
Activity forecasting
jh3rox
NNで広告配信のユーザー最適化をやってみた。@ TFUG #3
Junichiro Katsuta
CEDEC 2011 コンピュータ・グラフィクス関連の最新論文紹介 ~Shape Matching法とその周辺技術~
Silicon Studio Corporation
「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」
ksmzn
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
koba cky
TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方
Masato Taruishi
Ml15min発表資料(提出用)
WEBFARMER. ltd.
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
10分でわかったつもりになるlean start up ~リーンスタートアップって何ですか?~
圭 進藤
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
農業Aiハッカソンやってみた(第10回 Machine Learning 15minutes!)
Kohei Mochida
Ad
Wsdm2016: Extracting Search Query Patterns via the Pairwise Coupled Topic Model
1.
WSDM 2016 勉強会
Extracting Search Query Patterns via the Pairwise Coupled Topic Model ohtaman 2016/03/07
2.
やりたいこと • 検索索クエリからユーザー情報を抽出したい。そのた めに検索索クエリから各単語のカテゴリを推定した い。 NY restaurant LOCATION,
SERVICE NY という LOCATION にいる/⾏行行く Restaurant という SERVICE を利利⽤用する 検索索クエリ カテゴリ ユーザー情報
3.
先⾏行行研究 • Query Template:
テンプレート(カテゴリーの列列)を⾃自動で抽出する • ドメインを絞らなければ精度度がでない • ⼈人⼿手による教師データの作成が必要 • LDA: 最も有名なトピックモデル • ⽂文書数にパラメータ数が⽐比例例する。⼀一般に検索索クエリは⾮非常に膨⼤大なの で、メモリの⼯工夫が必要になる。 • BTM: 単語のペアに対するトピックモデル • トピック同⼠士の関係はわからない
4.
問題設定 • 検索索クエリが与えられたとき、以下の知識識を抽出 1.クエリ中の単語の属するカテゴリのセット
2.カテゴリと単語の is-‐‑‒a 関係 3.クエリからクエリパターン(カテゴリの列列)へのマッピン グ
5.
モデル • 以下のようなトピックモデルを考える •
は⼀一般にはM次のテンソルとなるた め、計算困難 ⇨ 2次の積でかけると仮定する
6.
Pairwise Decomposition •
を2次の積の形に制限する • 2次の ”sub model” の積の形で表すことができる • 実は規格化係数の計算は未だ O(K^m)
7.
PCTM •
と を直接モ デル化 • 事前分布を導⼊入
8.
要するに • トピック同⼠士の共起をモデリングする
9.
BTMとの違い • BTM では、共起語が同じトピックに属するが、 PCTMでは、単語それぞれが別のトピックに属する
10.
検証
11.
検証概要 • 提案⼿手法とLDA、BTMを⽐比較 •
いろいろな⽅方法で検証してみる • AOL と Yahoo! Japan の検索索クエリを利利⽤用
12.
Word Intrusion • 1つのトピックから幾つか単語を抽出し、1つだけ 別トピックの単語(intruder)を混ぜる。⼈人間に (intruder)を当てさせる
• PCTM は LDA と同等で、 BTM に若若⼲干劣劣る
13.
Topic Intrusion • 検索索クエリと、関連するトピックを3つ、関係のない トピックを1つ提⽰示する。⼈人間に関係のないトピック を当てさせる
• BTMとPCTMでそこまで多きな差はない。PCTMはク エリの単語数が多いと有利利
14.
Query Selection • 実際のクエリと、各モデルで⽣生成されたクエリをそ れぞれ複数表⽰示。元のクエリと同じ意図のクエリが 多い⼿手法を⼈人間が選択
• PCTM は LDA や BTM よりも良良い!
15.
Keyword Prediction • テストデータを⽤用意し、各クエリから1単語ランダ ムに除去。パープレキシティを計算
• PTCM は BTM よりも良良い!
16.
Query Generation • 各モデルを⽤用いて、もっともらしい2語のクエリを 上位10,000件⽣生成。別途⽤用意した2語の実クエリ 100,000件の中に含まれているか否かを調べる
• PCTM のほうが LDA/BTM よりも良良い!
17.
トピックの内容 • LOCATION 関連のトピックの中⾝身を⾒見見ると、LDA/ BTMでは
“lottery” など “LOCATIONと共起する単 語”も同じトピックに含まれてしまっているのがわ かる
18.
トピック間の関係 • PCTMはLDA/BTMと違って、トピック間の関係性 を簡単に⾒見見る事ができる
19.
まとめ • PCTM (Pairwise
Coupled Topic Model)という⼿手 法を提案した • PCTM を⽤用いると、検索索クエリ中の各単語の属する トピックの推定と、トピック間の関係を⾒見見ることが できる • 幾つかの検証では、既存⼿手法を⼤大きく上回る精度度を 得た
Download