Probabilistic fasttext for multi sense word embeddings

2018年7月8日, ACL2018 読み会 @ LINE株式会社
図・表は特に注釈がない場合は本論文より引用

この論文の貢献を一言で
• 多義語、低頻度語・未知語、意味の広がりのすべてを表現する
単語埋め込み手法を提案し、実験で性能を示した
1

単語分散表現（復習）
• 単語を低次元の特徴空間のベクトルで表現したもの
• 手法は様々
• 単語の共起行列を特異値分解
• Vector Space Models [Turney and Pantel, 2010]
• エネルギーベースの識別モデル
• Skipgram, CBoW [Mikolov+’13]
• 生成モデル
• RAND-WALK [Arora+’16]
2

典型的なモデル
• Skipgram [Mikolov+’13]
• ターゲット単語 wt の文脈語（周辺単語）を予測するモデル
• 目的関数
3
... particularly in the multimodal density case where ...
wt-3 wt-2 wt-1 wt wt+1 wt+2 wt+3

Skipgramの弱点
• 未知語に弱い
• コーパス中に出現しないので対応するベクトルがない
• 超低頻度語（典型的には5回未満）は未知語扱い
• 低頻度語に弱い
• 十分な学習ができない
• 低頻度語のベクトルは表現能力に乏しい
4

低頻度語・未知語への対応
• fastText [Bojanowski+ ‘16]
• 単語をサブワード(文字n-grams)に分割
• 各単語ベクトルはサブワードベクトルの和（下記はtrigramの場合）
• skipgramと同様の学習
• 低頻度・未知語の欠点を克服
5
... particularly in the multimodal density case where ...
<mu, mul, ult, ..., oda, dal, al>

Skipgram, fastTextの弱点
• 語義数１を仮定
• 多義語は様々な文脈で出現する
• 異なる語義と共起する文脈語は意味的に離れていて欲しいが、
近くなってしまう
6

多義語に対応したモデル
• いろいろあるが基本的な戦略は、語義ごとにベクトルを用意する
• 例：MSSG(Multi Sense SkipGram) [Neelakantan+ ‘14]
• 文脈語ベクトルをクラスタリング
• クラスタ数＝意味数
• クラスタ重心が意味ベクトル
• 文脈語の平均ベクトルと意味ベクトルの類似度
最大の意味をその単語のベクトルとする
• 意味ベクトルから文脈語を予測 (Skipgram同様)
7
Neelakantan+ ’14

意味の広がりを埋め込みたい
• 今までのモデルは単語を点で表現
• 意味の広がりを不確実性で表現するという戦略
• 単語を点ではなく分布（ガウシアン）で表現
• 島岡ら ‘14
• word2gauss [Vilnis and McCallum ‘14]
• さらに、多義語拡張版
• word2gm [Athiwaratkun and Wilson ‘17]
• 単語を Gaussian Mixture で表現
• １つの峰が１つの意味に対応
8

word2g, word2gm の気持ち
• 多義語 rock の気持ちになってみる
9
多義対応
分布埋め込み
多義語の分散が大きくなる問題
語義数１
分布埋め込み
語義ごとの
点埋め込み
語義数１の
点埋め込み
Athiwaratkun and Wilson ’17

word2gm のモデル
10
• 混合ガウス分布でモデル化
• ガウシアンの数 K → 意味の数
• 共分散行列 Σ → 意味の広がり（対角行列で十分）
• 混合率 p → 意味の強さ？

word2gm の弱点
• Skipgram 同様、低頻度語・未知語に弱い
• これを克服したのが本研究
11

提案手法
• K=1(単峰)：PFT-G、K>1(多峰)：PFT-GM
• 平均 μ を元単語とサブワードベクトルの平均で表現する（fastText と同じ発想）
• 例：beautiful
• ただし、2つ目以降のガウシアンの平均には
サブワードは入れない
• サブワードの影響を減らし各コンポーネントの
平均を独立させるため
12
NGwは単語wのサブワード集合
zgはサブワードgのベクトル
word2gmと違うところ

まとめると
手法多義語低頻度語・未知語広がり
Skipgram ☓ ☓ ☓
fastText ☓ ○ ☓
w2g △ ☓ ○
w2gm ○ ☓ ○
MSSGなど ○ ☓ ☓
PFT-G △ ○ ○
PFT-GM ○ ○ ○
Subword level Dictionary level
deterministic fastText Skipgram
probabilistic PFT-G, PFT-GM w2g, w2gm
13

Similarity Measure
• 分布間の距離は expected likelihood kernel:
• エネルギー関数
• Partial Energy
• rock と pop のコンポーネント間の相互作用（K=2）
14
閉形式で書ける
Partial Energy: ξ
単語 f, g 間の各コンポーネント間(i,j)のエネルギー
実際は ∑ に spherical（∑∝I）を仮定するとRBFカーネル

Loss Function
• Max-Margin Ranking Objective
• 以下の Loss を最小化する（mはハイパラ）
• ΔE ≧ m → L = 0
• ΔE が m 以上離れているとなにもしない
• ΔE < m → L = m - ΔE
• ΔE が m 未満だと損失増やす
15
正例負例

Word Sampling
• どちらも頻度をスムージングする効果
• sub-sampling
• 単語 w を選ぶときに以下の確率で捨てる（ t は定数、f は頻度)
• negative sampling [Mikolov’13]
• Uはユニグラム分布、3/4乗は頻度スムージングのため
16

実験
• Nearest neighbors
• Word Similarity
• Subword Decomposition
17

トレーニングデータ
• 英、仏、独、伊
• 頻度５未満の単語は捨てる（下記の ”→” ）
• UKWAK＋WACKYPEDIA（約33億語→約268万語）
• FRWAC（16億→130万）
• DEWAC（17億→270万）
• ITWAC（19億→140万）
18

ハイパパラメター
• 英語でグリッドサーチして決めたものを他言語でも使用
• m, α, γ(学習率)
• その他
• ガウシアンの混合数 K = 2
• context window l = 10
• sub-sampling閾値 t = 10e-5
• 文字ngramsの n = {3,4,5,6}
19

結果：Nearest Neighbor
• 多義語 rock, star, cell の近傍単語はどうなっているか
20
PFT-GM
PFT-G
subword の効果で単語の構成要素がオー
バーラップしている単語が上位にくる
(例えばrock)
bank:0は銀行
bank:1は土手
unimodal なので、溶岩(lava-rock)と音楽
ジャンル (rock-pop)がrockの近傍にくる

Word Similarity①
• ９つのデータセット
• 単語ペアについて類似度スコアが人手でつけられたもの
• 評価
• 人手評価との相関（スピアマン相関係数 ρ ）
• 類似度
• 各モード間の平均 μ のコサイン類似度の最大値を使う
21

結果：Word Similarity①
• 平均で PFT-GM が一番つよい
• PFT-Gは、比較対象である W2G, FT よりつおい
• D=300で、PFT-GMよりW2GMがしばしば強い
• インスタンス小（MC30とか）なので ρ がノイズに汚染されたかも
22

Word Similarity②
• 多義語に対する性能を評価
• データセット：SCWS（多義語を多くふくんだやつ）
• 比較手法
• HUANG (Huang+’12)
• TIAN (Tian+’14)
• NEELAKANTAN (Neelakantan+’14)
• CHEN (Chen+’14)
• W2GM (Athiwaratkun and Wilson ’17)
• W2GM（分布埋め込み）との比較
• 50次元と300次元でPFT-GMのほうが良い
• サブワードの効果
• 語義ごとの点埋め込みとの比較
• 50次元ではNEELAKANTANのほうがよい
• 300次元ではNEELAKANTANと並ぶ
23
（正直びみょうでは…）

仏独伊の結果
• Nearest Neighbor と Word Similarity
24

Subword Decomposition
• subword を共有することで低頻出語の性能向上が目的のひとつ
• 低頻度語は学習データが不十分
• subword “abnorm” は ”abnormal” や ”abnormarity” でトレーニングされる
• 単語の平均ベクトル μ と、その単語を構成するサブワードベクトルとの
コサイン類似度の上位サブワードが、その単語の意味（偏角）へ主に寄
与したサブワード
• 単語の上位サブワードのオーバーラップが確認できれば、それらの単語
でサブワード共有によって意味が表現されていることがわかる
• サブワード共有 → 更新回数大 → ベクトルの質向上
• 例：”abnormal” と “abnormality”
• top5が共通（右図）
• 他にも下記のような多くのレアワードでサブワード共有を観測した
• autobiographer、circumnavigations、hypersensitivity
25

混合ガウス分布の混合数 K について
• ほとんどの単語が K=2 で表現できる
• K=2 がちょうど良い（オッカムの剃刀）
• 語義数が K 未満の単語は裾野が重くなってしまう
• （分散固定の影響？）
• K=1で２つ以上の意味を捉えている模様
• e.g. (“cell”, “jail”) (“cell”, “biology”) (“cell”, “phone”)
• それぞれで類似度 > 0
• 多義語のベクトルは各語義の線形結合で表現される [Arora+’16]
• ただし、これは頻度比に上限があるため低頻度の語義の類似度は正し
くないかもしれない
• 何が言いたいかというと、K の選択はそんなに自明ではない？
26

Conclusion and Future Works
• Conclusion
• 多義語、低頻度語・未知語、意味の広がりのすべてを表現する単語埋
め込み手法を提案し、実験で性能を示した
• Future Works
• 分散共分散行列も学習する場合の計算量と単語ベクトルの性能のト
レードオフを評価したい
• 多義語を考慮したマルチリンガルな分散表現
27

所感
• 分布埋め込みの最大の嬉しみである uncertainty の評価やってないのが
残念（そもそも分散は固定している）
• e.g. entailment
• cf. HIERARCHICAL DENSITY ORDER EMBEDDINGS, ICLR2018
• 分布埋め込みを利用して、階層構造をフラットなコーパスから捉える研究
• negative sampling の工夫
• フラットコーパスから単に乱択するのではなく、真に共起しない集合をつくって、そこから乱択
28

Probabilistic fasttext for multi sense word embeddings

More Related Content

What's hot (20)

Similar to Probabilistic fasttext for multi sense word embeddings (20)

More from Makoto Takenaka (10)

Probabilistic fasttext for multi sense word embeddings

Editor's Notes