SlideShare a Scribd company logo
2018年7月8日, ACL2018 読み会 @ LINE株式会社
図・表は特に注釈がない場合は本論文より引用
この論文の貢献を一言で
• 多義語、低頻度語・未知語、意味の広がりのすべてを表現する
単語埋め込み手法を提案し、実験で性能を示した
1
単語分散表現(復習)
• 単語を低次元の特徴空間のベクトルで表現したもの
• 手法は様々
• 単語の共起行列を特異値分解
• Vector Space Models [Turney and Pantel, 2010]
• エネルギーベースの識別モデル
• Skipgram, CBoW [Mikolov+’13]
• 生成モデル
• RAND-WALK [Arora+’16]
2
典型的なモデル
• Skipgram [Mikolov+’13]
• ターゲット単語 wt の文脈語(周辺単語)を予測するモデル
• 目的関数
3
... particularly in the multimodal density case where ...
wt-3 wt-2 wt-1 wt wt+1 wt+2 wt+3
Skipgramの弱点
• 未知語に弱い
• コーパス中に出現しないので対応するベクトルがない
• 超低頻度語(典型的には5回未満)は未知語扱い
• 低頻度語に弱い
• 十分な学習ができない
• 低頻度語のベクトルは表現能力に乏しい
4
低頻度語・未知語への対応
• fastText [Bojanowski+ ‘16]
• 単語をサブワード(文字n-grams)に分割
• 各単語ベクトルはサブワードベクトルの和(下記はtrigramの場合)
• skipgramと同様の学習
• 低頻度・未知語の欠点を克服
5
... particularly in the multimodal density case where ...
<mu, mul, ult, ..., oda, dal, al>
Skipgram, fastTextの弱点
• 語義数1を仮定
• 多義語は様々な文脈で出現する
• 異なる語義と共起する文脈語は意味的に離れていて欲しいが、
近くなってしまう
6
多義語に対応したモデル
• いろいろあるが基本的な戦略は、語義ごとにベクトルを用意する
• 例:MSSG(Multi Sense SkipGram) [Neelakantan+ ‘14]
• 文脈語ベクトルをクラスタリング
• クラスタ数=意味数
• クラスタ重心が意味ベクトル
• 文脈語の平均ベクトルと意味ベクトルの類似度
最大の意味をその単語のベクトルとする
• 意味ベクトルから文脈語を予測 (Skipgram同様)
7
Neelakantan+ ’14
意味の広がりを埋め込みたい
• 今までのモデルは単語を点で表現
• 意味の広がりを不確実性で表現するという戦略
• 単語を点ではなく分布(ガウシアン)で表現
• 島岡ら ‘14
• word2gauss [Vilnis and McCallum ‘14]
• さらに、多義語拡張版
• word2gm [Athiwaratkun and Wilson ‘17]
• 単語を Gaussian Mixture で表現
• 1つの峰が1つの意味に対応
8
word2g, word2gm の気持ち
• 多義語 rock の気持ちになってみる
9
多義対応
分布埋め込み
多義語の分散が大きくなる問題
語義数1
分布埋め込み
語義ごとの
点埋め込み
語義数1の
点埋め込み
Athiwaratkun and Wilson ’17
word2gm のモデル
10
• 混合ガウス分布でモデル化
• ガウシアンの数 K → 意味の数
• 共分散行列 Σ → 意味の広がり(対角行列で十分)
• 混合率 p → 意味の強さ?
word2gm の弱点
• Skipgram 同様、低頻度語・未知語に弱い
• これを克服したのが本研究
11
提案手法
• K=1(単峰):PFT-G、K>1(多峰):PFT-GM
• 平均 μ を元単語とサブワードベクトルの平均で表現する(fastText と同じ発想)
• 例:beautiful
• ただし、2つ目以降のガウシアンの平均には
サブワードは入れない
• サブワード の影響を減らし各コンポーネントの
平均を独立させるため
12
NGwは単語wのサブワード集合
zgはサブワードgのベクトル
word2gmと違うところ
まとめると
手法 多義語 低頻度語・未知語 広がり
Skipgram ☓ ☓ ☓
fastText ☓ ○ ☓
w2g △ ☓ ○
w2gm ○ ☓ ○
MSSGなど ○ ☓ ☓
PFT-G △ ○ ○
PFT-GM ○ ○ ○
Subword level Dictionary level
deterministic fastText Skipgram
probabilistic PFT-G, PFT-GM w2g, w2gm
13
Similarity Measure
• 分布間の距離は expected likelihood kernel:
• エネルギー関数
• Partial Energy
• rock と pop のコンポーネント間の相互作用(K=2)
14
閉形式で書ける
Partial Energy: ξ
単語 f, g 間の各コンポーネント間(i,j)のエネルギー
実際は ∑ に spherical(∑∝I)を仮定するとRBFカーネル
Loss Function
• Max-Margin Ranking Objective
• 以下の Loss を最小化する(mはハイパラ)
• ΔE ≧ m → L = 0
• ΔE が m 以上離れているとなにもしない
• ΔE < m → L = m - ΔE
• ΔE が m 未満だと損失増やす
15
正例 負例
Word Sampling
• どちらも頻度をスムージングする効果
• sub-sampling
• 単語 w を選ぶときに以下の確率で捨てる( t は定数、f は頻度)
• negative sampling [Mikolov’13]
• Uはユニグラム分布、3/4乗は頻度スムージングのため
16
実験
• Nearest neighbors
• Word Similarity
• Subword Decomposition
17
トレーニングデータ
• 英、仏、独、伊
• 頻度5未満の単語は捨てる(下記の ”→” )
• UKWAK+WACKYPEDIA(約33億語→約268万語)
• FRWAC(16億→130万)
• DEWAC(17億→270万)
• ITWAC(19億→140万)
18
ハイパパラメター
• 英語でグリッドサーチして決めたものを他言語でも使用
• m, α, γ(学習率)
• その他
• ガウシアンの混合数 K = 2
• context window l = 10
• sub-sampling閾値 t = 10e-5
• 文字ngramsの n = {3,4,5,6}
19
結果:Nearest Neighbor
• 多義語 rock, star, cell の 近傍単語 はどうなっているか
20
PFT-GM
PFT-G
subword の効果で単語の構成要素がオー
バーラップしている単語が上位にくる
(例えばrock)
bank:0は銀行
bank:1は土手
unimodal なので、溶岩(lava-rock)と音楽
ジャンル (rock-pop)がrockの近傍にくる
Word Similarity①
• 9つのデータセット
• 単語ペアについて類似度スコアが人手でつけられたもの
• 評価
• 人手評価との相関(スピアマン相関係数 ρ )
• 類似度
• 各モード間の平均 μ のコサイン類似度の最大値を使う
21
結果:Word Similarity①
• 平均で PFT-GM が一番つよい
• PFT-Gは、比較対象である W2G, FT よりつおい
• D=300で、PFT-GMよりW2GMがしばしば強い
• インスタンス小(MC30とか)なので ρ がノイズに汚染されたかも
22
Word Similarity②
• 多義語に対する性能を評価
• データセット:SCWS(多義語を多くふくんだやつ)
• 比較手法
• HUANG (Huang+’12)
• TIAN (Tian+’14)
• NEELAKANTAN (Neelakantan+’14)
• CHEN (Chen+’14)
• W2GM (Athiwaratkun and Wilson ’17)
• W2GM(分布埋め込み)との比較
• 50次元と300次元でPFT-GMのほうが良い
• サブワードの効果
• 語義ごとの点埋め込みとの比較
• 50次元ではNEELAKANTANのほうがよい
• 300次元ではNEELAKANTANと並ぶ
23
(正直びみょうでは…)
仏独伊の結果
• Nearest Neighbor と Word Similarity
24
Subword Decomposition
• subword を共有することで低頻出語の性能向上が目的のひとつ
• 低頻度語は学習データが不十分
• subword “abnorm” は ”abnormal” や ”abnormarity” でトレーニングされる
• 単語の平均ベクトル μ と、その単語を構成するサブワードベクトルとの
コサイン類似度の上位サブワードが、その単語の意味(偏角)へ主に寄
与したサブワード
• 単語の上位サブワードのオーバーラップが確認できれば、それらの単語
でサブワード共有によって意味が表現されていることがわかる
• サブワード共有 → 更新回数大 → ベクトルの質向上
• 例:”abnormal” と “abnormality”
• top5が共通(右図)
• 他にも下記のような多くのレアワードでサブワード共有を観測した
• autobiographer、circumnavigations、hypersensitivity
25
混合ガウス分布の混合数 K について
• ほとんどの単語が K=2 で表現できる
• K=2 がちょうど良い(オッカムの剃刀)
• 語義数が K 未満の単語は裾野が重くなってしまう
• (分散固定の影響?)
• K=1で2つ以上の意味を捉えている模様
• e.g. (“cell”, “jail”) (“cell”, “biology”) (“cell”, “phone”)
• それぞれで類似度 > 0
• 多義語のベクトルは各語義の線形結合で表現される [Arora+’16]
• ただし、これは頻度比に上限があるため低頻度の語義の類似度は正し
くないかもしれない
• 何が言いたいかというと、K の選択はそんなに自明ではない?
26
Conclusion and Future Works
• Conclusion
• 多義語、低頻度語・未知語、意味の広がりのすべてを表現する単語埋
め込み手法を提案し、実験で性能を示した
• Future Works
• 分散共分散行列も学習する場合の計算量と単語ベクトルの性能のト
レードオフを評価したい
• 多義語を考慮したマルチリンガルな分散表現
27
所感
• 分布埋め込みの最大の嬉しみである uncertainty の評価やってないのが
残念(そもそも分散は固定している)
• e.g. entailment
• cf. HIERARCHICAL DENSITY ORDER EMBEDDINGS, ICLR2018
• 分布埋め込みを利用して、階層構造をフラットなコーパスから捉える研究
• negative sampling の工夫
• フラットコーパスから単に乱択するのではなく、真に共起しない集合をつくって、そこから乱択
28

More Related Content

PDF
Character level CNN [CNNで自然言語処理]
PDF
ナレッジグラフ入門
PDF
画像認識モデルを作るための鉄板レシピ
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
自己教師学習(Self-Supervised Learning)
PDF
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
PDF
全力解説!Transformer
Character level CNN [CNNで自然言語処理]
ナレッジグラフ入門
画像認識モデルを作るための鉄板レシピ
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Transformerを多層にする際の勾配消失問題と解決法について
自己教師学習(Self-Supervised Learning)
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
全力解説!Transformer

What's hot (20)

PDF
自然言語処理に基づく商品情報の整理および構造化
PPTX
機械学習を民主化する取り組み
PDF
ディープラーニングのフレームワークと特許戦争
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
PDF
Lucas kanade法について
PPTX
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
PDF
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
PDF
Data-centricなML開発
PPTX
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
研究室における研究・実装ノウハウの共有
PPTX
サーベイ論文:画像からの歩行者属性認識
PDF
ELBO型VAEのダメなところ
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
PDF
確率モデルを使ったグラフクラスタリング
自然言語処理に基づく商品情報の整理および構造化
機械学習を民主化する取り組み
ディープラーニングのフレームワークと特許戦争
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
Lucas kanade法について
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
[DL輪読会]Flow-based Deep Generative Models
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
Data-centricなML開発
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
これからの Vision & Language ~ Acadexit した4つの理由
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】Scaling Laws for Neural Language Models
研究室における研究・実装ノウハウの共有
サーベイ論文:画像からの歩行者属性認識
ELBO型VAEのダメなところ
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
確率モデルを使ったグラフクラスタリング
Ad

Similar to Probabilistic fasttext for multi sense word embeddings (20)

PDF
一般化線形混合モデル入門の入門
PDF
KDD2014 勉強会
PDF
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
4thNLPDL
PDF
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
PPTX
Prml 1.3~1.6 ver3
PDF
Let中部2012シンポスライド
PDF
反応時間データをどう分析し図示するか
PDF
ノンパラベイズ入門の入門
PDF
R による文書分類入門
PDF
Reusing weights in subword aware neural language models
PDF
大規模日本語ブログコーパスにおける言語モデルの構築と評価
PDF
2016word embbed
PPTX
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
PDF
深層生成モデルと世界モデル
PDF
アンサンブル木モデル解釈のためのモデル簡略化法
PDF
みどりぼん読書会 第4章
一般化線形混合モデル入門の入門
KDD2014 勉強会
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
A scalable probablistic classifier for language modeling: ACL 2011 読み会
Approximate Scalable Bounded Space Sketch for Large Data NLP
深層生成モデルと世界モデル(2020/11/20版)
4thNLPDL
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Prml 1.3~1.6 ver3
Let中部2012シンポスライド
反応時間データをどう分析し図示するか
ノンパラベイズ入門の入門
R による文書分類入門
Reusing weights in subword aware neural language models
大規模日本語ブログコーパスにおける言語モデルの構築と評価
2016word embbed
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
深層生成モデルと世界モデル
アンサンブル木モデル解釈のためのモデル簡略化法
みどりぼん読書会 第4章
Ad

More from Makoto Takenaka (10)

PDF
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
PDF
[論文紹介] Towards Understanding Linear Word Analogies
PDF
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
PDF
Understanding the origin of bias in word embeddings
PPTX
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
PPTX
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
PPTX
Deep neural models of semantic shift
PPTX
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
PDF
multimodal word distributions
PDF
Adversarial Multi-task Learning for Text Classification
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Towards Understanding Linear Word Analogies
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Understanding the origin of bias in word embeddings
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
Deep neural models of semantic shift
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
multimodal word distributions
Adversarial Multi-task Learning for Text Classification

Probabilistic fasttext for multi sense word embeddings

Editor's Notes

  • #18: 頻度f大でP大
  • #22: subwordの効果でオーバーラップした単語が近くにくる 上位100近傍の意味のある単語を抽出