SlideShare a Scribd company logo
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年6月21日
読み手 竹中誠(小町研)
特に断わりがない限り図表は論文より引用
NAACL2018
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
背景
• 単語の意味変化を捉えたい→Diachronic model(通時的モデル)
• 従来手法では時間方向はある区間(time bin)で切っていた
• time bin内では時刻非依存(synchronic model)
• time binの問題点
• 区切り方が非自明
• 広くても分解能が悪い
• かといって狭くするとデータが足りない(Data Issue)
1
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
この論文の貢献
• 通時的分散表現モデルとして、時刻方向に連続なモデルをつ
くった
• 単語の意味変化を評価するタスクをつくった
• 単語の意味変化の速さ(速度)を捉えられることを示した
(分散表現がtに関して微分可能なので解析的に速さが決まるこ
とが嬉しい)
2
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
時間を連続的に扱えるとなにが嬉しいか
• そもそも時間は連続だから
• 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切
るのではなく連続量として取り扱うことで意味の変化を”滑ら
か”に表現したい
3
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
従来手法
• 従来手法は時間方向を time binで分割するモデル
• 主な違いは bin 幅と bin 間(時間方向)の依存性の入れ方
• LargeBin (Hamilton et al., 2016b)
• 10年区切りでSGNS(synchronic)で学習したモデル
• bin 間に依存関係は入れない
• SmallBinPreInit (Kim et al., 2014)
• 1年区切りでSGNS(synchronic)で学習したモデル
• Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する
• SmallBinReg (Bamler and Mandt, 2017)
• ターゲット単語と文脈単語をガウシアンの平均で点推定(MAP推定)
• 一発目の事前分布:N(0, α1I)
• bin間の依存関係はベイズ更新で入れる
• t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる
• 分散は単位行列Iの定数α倍。αはハイパパラメタ。
4
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
提案手法:DiffTime
• 基本的なアイデア
• NNで連続空間に埋め込む
• 時間空間と単語空間をがっちゃんこ
• →時間依存の単語分散表現ができた。
Time Component
Word Component
Integration Component
5
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
DiffTimeのロス関数
• SGNSの拡張
• SGNSの正例 (w,c)
• DiffTimeの正例 (w,c,t)
• NegativeSamplingは同様にk個の負例を unigram 分布 Pd から
ランダムサンプリング
6
普通のSGNSのロス(1単語)→
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Training
• Google books ngram corpus 110年分
• English Fiction
• 1900〜2009年
• 出版数で単語頻度を正規化(5倍違うので)
• コーパスから(word, context, year, freq)のタプルを構成
• sub-sampling’ t = 10^-5
7
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Evaluation(Synchronic)
• そもそも Synchronic な埋め込みができているかを Time 固定
で評価する
• MEN Word Similarity タスク
• 2単語と人手の類似度スコア
• スピアマンの相関係数:ρ
• 結果
• すべてのモデルで先行研究とコンパラ
• →よさそう
8
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Evaluation(Diachronic)
• そのままでは定量評価できない(goldがない)
• そこで、単語の意味変化を捉えるタスクを提案
• →Synthetic Task
• 2単語の合成語(Synthetic word)の意味の変化を考える
• 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化
したと考える
• 変化の仕方をシグモイド曲線でモデル化
9
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Synthetic Word(合成語)
• 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2
• e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster
• r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ
• r1○r2 と r1 or r2 の類似性を評価したい
• どうやって評価するか?
• r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類
似度で評価する
• →BLESSデータセットは単語にクラスがついていて嬉しい(次頁)
10
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Appendix. BLESS dataset
• BLESSとは
• (単語、単語クラス、関係)のタプルになったデータ
• クラスがfruitの単語たち(下右図はオリジナルBLESS)
• 本研究では10年区切りで頻度上位20000語のみ使う
• →fruitクラスの単語は7個になった(下左図)
11
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Sigmoidal Path
• r1とr2 間の意味遷移のパスをシグモイドで定義
• パス(gold)はランダムに生成する
• e.g. banana○lobster
• bananaの意味とlobsterの意味間を遷移する
• s=0.05
• 意味の変化の”どの程度徐々に“かを表す
• m=1957
• bananaとlobsterの意味に等しい時点が1957年
s =
m =
s,mは下記の区間の一様分布から選ぶ
・s→∞ で step function
・shift(t=m) = 0.5 なので、
m は合成語 r1○r2が、r1とr2の両方の意味
を同程度に持つ時点であることを意味する。
12
time
r1○r2 の r1 の意味成分量
r1○r2 の r2 の意味成分量
グラフ出典:https://ja.wikipedia.org/wiki/シグモイド
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
合成語をコーパスに組み込む
• google books ngram →(word, context, year, freq)をつくったので、これに組み込む
• word = r1 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x shift(t, r1○r2)
• word = r2 の全タプルに関して、下記の置換を実施
• w → r1○r2
• freq → freq x (1-shift(t, r1○r2))
• 例えば、banana○lobster の場合
• (banana, Malaysia, year, freq)
→ banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster)
• (lobster, claws, year, freq)
→ banana○lobster, claws, year, freq*(1-shift(year, banana○lobster))
• 何をしていることになるのか?
• r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している
• 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift
と(1-shift)で元々の頻度を調整する
• これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに(sigmoidal)に変化
していく様をモデル化することができる
13
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの定量評価
• 合成語を組み込んだコーパスでモデルを訓練する
• モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する
• r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能
• モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価
r1○r2と、cls1の重心との類似度
14
・cls1は、r1が属するBLESSのクラスの単語の集合
・cls2は、r2が属するBLESSのクラスの単語の集合
r1○r2と、cls2の重心との類似度
gold
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの定量評価
• 15の合成語を3セット、合計45の合成語の平均 MSE の結果
• 提案手法(DiffTime)が先行研究を outperform
• 合成語の意味の変化もなめらかに表現できた
15
提案手法
提案手法
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モデルの限界
• 合成語を仮定している
• 実世界は合成語だけではない
• 二つの語義間の遷移だけの決め打ちモデル
• gaining/losingやnarrowing/broadeningのような共通の変化を説明
できない
• 意味変化の曲線を sigmoidal に限定している
16
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
意味変化のスピード
• 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、
tで微分すればすなわちそれが意味変化のスピード
• いくつかの単語に関して、近傍単語とのcos-simの変化と意味
変化のスピードを対応させてみた(次頁)
17
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
いくつかの単語の意味の変化について
• apple
• Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし
• コーパスのジャンルがフィクションだからかも
• gay
• 1950年ごろにドラスティックな変化がある
• 1900年のmid〜lateにかけて(Harper2014と無矛盾)
• mail
• mailをおくる手段がかわったので変化している(email)
• 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから
• canadian
• 近傍単語が地理的な意味の単語から civil な単語へシフトしている
• 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい(独立→WWⅠ?(Francis1997参
照とのこと)
• cell
• 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ
• 予測に反して早い段階でスピード≠0になっているのは、時間を連続的に扱ったがための弱点(意図しない補
間)
19
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
time period の同定
• h1の活性化関数がtanhなので、h1の符号反転前後(h1=0の
とき)を time pointと解釈
• time pointsをプロットしたのがFig5→
• 1940sまでは等間隔に分布
• 1950s-1956sは大きなバースト
• 1980sは2つ存在
• モデルが意味変化の増大を捉えている
• ただし、この解析は微妙
• 100ノードある h1 のうち 0 になるのは16%
• ほとんどの h1 のノードは time periods 間の遷移に寄与しない
20
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
まとめ
• 通時的分散表現のモデルを構築した
• 単語の意味変化をどれくらい正確にモデル化できているかを定
量化するための合成語のタスクをつくりモデル間の比較を可能
とした
• モデルが微分可能であることをつかって意味の変化スピードを
示した
21

More Related Content

PPTX
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
PDF
実装レベルで学ぶVQVAE
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
Transformer メタサーベイ
PDF
効率的学習 / Efficient Training(メタサーベイ)
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
OSS強化学習フレームワークの比較
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
実装レベルで学ぶVQVAE
【メタサーベイ】Vision and Language のトップ研究室/研究者
Transformer メタサーベイ
効率的学習 / Efficient Training(メタサーベイ)
【DL輪読会】Can Neural Network Memorization Be Localized?
OSS強化学習フレームワークの比較
モデルアーキテクチャ観点からのDeep Neural Network高速化

What's hot (20)

PDF
VAEs for multimodal disentanglement
PDF
Reinforcement Learning @ NeurIPS2018
PDF
PRML学習者から入る深層生成モデル入門
PPTX
G社のNMT論文を読んでみた
PDF
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
PPTX
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
PDF
機械学習モデルのハイパパラメータ最適化
PDF
[DL輪読会]Relational inductive biases, deep learning, and graph networks
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PDF
ドメイン適応の原理と応用
PDF
論文紹介 Pixel Recurrent Neural Networks
PDF
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
PDF
Deep Learningによる超解像の進歩
PPTX
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
PDF
記号創発ロボティクスの狙い
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
VAEs for multimodal disentanglement
Reinforcement Learning @ NeurIPS2018
PRML学習者から入る深層生成モデル入門
G社のNMT論文を読んでみた
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
機械学習モデルのハイパパラメータ最適化
[DL輪読会]Relational inductive biases, deep learning, and graph networks
Domain Adaptation 発展と動向まとめ(サーベイ資料)
ドメイン適応の原理と応用
論文紹介 Pixel Recurrent Neural Networks
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learningによる超解像の進歩
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
記号創発ロボティクスの狙い
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Ad

Similar to Deep neural models of semantic shift (20)

PPTX
通時的な単語の意味変化の検出のサーベイ (Dynamic Word Embeddings Survey)
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PPTX
Nl237 presentation
PDF
言語資源と付き合う
PDF
読解支援プレゼン 4 28
PDF
Segmenting Sponteneous Japanese using MDL principle
PDF
Semantic_Matching_AAAI16_論文紹介
PDF
Characterizing transferred epithet as alternation
PPTX
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PPTX
[DL輪読会]It's not just size that maters small language models are also few sho...
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
PDF
TensorFlow math ja 05 word2vec
PDF
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
PDF
Deep Learningと自然言語処理
PPTX
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PPTX
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
PPTX
Icml読み会 deep speech2
PDF
読解支援@2015 06-05
通時的な単語の意味変化の検出のサーベイ (Dynamic Word Embeddings Survey)
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Nl237 presentation
言語資源と付き合う
読解支援プレゼン 4 28
Segmenting Sponteneous Japanese using MDL principle
Semantic_Matching_AAAI16_論文紹介
Characterizing transferred epithet as alternation
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
[DL輪読会]It's not just size that maters small language models are also few sho...
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
TensorFlow math ja 05 word2vec
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Deep Learningと自然言語処理
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
Icml読み会 deep speech2
読解支援@2015 06-05
Ad

More from Makoto Takenaka (7)

PDF
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
PDF
[論文紹介] Towards Understanding Linear Word Analogies
PDF
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
PDF
Understanding the origin of bias in word embeddings
PPTX
Probabilistic fasttext for multi sense word embeddings
PDF
multimodal word distributions
PDF
Adversarial Multi-task Learning for Text Classification
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Towards Understanding Linear Word Analogies
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Understanding the origin of bias in word embeddings
Probabilistic fasttext for multi sense word embeddings
multimodal word distributions
Adversarial Multi-task Learning for Text Classification

Deep neural models of semantic shift

  • 1. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 2018年6月21日 読み手 竹中誠(小町研) 特に断わりがない限り図表は論文より引用 NAACL2018
  • 2. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 背景 • 単語の意味変化を捉えたい→Diachronic model(通時的モデル) • 従来手法では時間方向はある区間(time bin)で切っていた • time bin内では時刻非依存(synchronic model) • time binの問題点 • 区切り方が非自明 • 広くても分解能が悪い • かといって狭くするとデータが足りない(Data Issue) 1
  • 3. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University この論文の貢献 • 通時的分散表現モデルとして、時刻方向に連続なモデルをつ くった • 単語の意味変化を評価するタスクをつくった • 単語の意味変化の速さ(速度)を捉えられることを示した (分散表現がtに関して微分可能なので解析的に速さが決まるこ とが嬉しい) 2
  • 4. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 時間を連続的に扱えるとなにが嬉しいか • そもそも時間は連続だから • 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切 るのではなく連続量として取り扱うことで意味の変化を”滑ら か”に表現したい 3
  • 5. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 従来手法 • 従来手法は時間方向を time binで分割するモデル • 主な違いは bin 幅と bin 間(時間方向)の依存性の入れ方 • LargeBin (Hamilton et al., 2016b) • 10年区切りでSGNS(synchronic)で学習したモデル • bin 間に依存関係は入れない • SmallBinPreInit (Kim et al., 2014) • 1年区切りでSGNS(synchronic)で学習したモデル • Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する • SmallBinReg (Bamler and Mandt, 2017) • ターゲット単語と文脈単語をガウシアンの平均で点推定(MAP推定) • 一発目の事前分布:N(0, α1I) • bin間の依存関係はベイズ更新で入れる • t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる • 分散は単位行列Iの定数α倍。αはハイパパラメタ。 4
  • 6. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 提案手法:DiffTime • 基本的なアイデア • NNで連続空間に埋め込む • 時間空間と単語空間をがっちゃんこ • →時間依存の単語分散表現ができた。 Time Component Word Component Integration Component 5
  • 7. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University DiffTimeのロス関数 • SGNSの拡張 • SGNSの正例 (w,c) • DiffTimeの正例 (w,c,t) • NegativeSamplingは同様にk個の負例を unigram 分布 Pd から ランダムサンプリング 6 普通のSGNSのロス(1単語)→
  • 8. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Training • Google books ngram corpus 110年分 • English Fiction • 1900〜2009年 • 出版数で単語頻度を正規化(5倍違うので) • コーパスから(word, context, year, freq)のタプルを構成 • sub-sampling’ t = 10^-5 7
  • 9. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Synchronic) • そもそも Synchronic な埋め込みができているかを Time 固定 で評価する • MEN Word Similarity タスク • 2単語と人手の類似度スコア • スピアマンの相関係数:ρ • 結果 • すべてのモデルで先行研究とコンパラ • →よさそう 8
  • 10. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Diachronic) • そのままでは定量評価できない(goldがない) • そこで、単語の意味変化を捉えるタスクを提案 • →Synthetic Task • 2単語の合成語(Synthetic word)の意味の変化を考える • 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化 したと考える • 変化の仕方をシグモイド曲線でモデル化 9
  • 11. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Synthetic Word(合成語) • 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2 • e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster • r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ • r1○r2 と r1 or r2 の類似性を評価したい • どうやって評価するか? • r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類 似度で評価する • →BLESSデータセットは単語にクラスがついていて嬉しい(次頁) 10
  • 12. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Appendix. BLESS dataset • BLESSとは • (単語、単語クラス、関係)のタプルになったデータ • クラスがfruitの単語たち(下右図はオリジナルBLESS) • 本研究では10年区切りで頻度上位20000語のみ使う • →fruitクラスの単語は7個になった(下左図) 11
  • 13. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Sigmoidal Path • r1とr2 間の意味遷移のパスをシグモイドで定義 • パス(gold)はランダムに生成する • e.g. banana○lobster • bananaの意味とlobsterの意味間を遷移する • s=0.05 • 意味の変化の”どの程度徐々に“かを表す • m=1957 • bananaとlobsterの意味に等しい時点が1957年 s = m = s,mは下記の区間の一様分布から選ぶ ・s→∞ で step function ・shift(t=m) = 0.5 なので、 m は合成語 r1○r2が、r1とr2の両方の意味 を同程度に持つ時点であることを意味する。 12 time r1○r2 の r1 の意味成分量 r1○r2 の r2 の意味成分量 グラフ出典:https://ja.wikipedia.org/wiki/シグモイド
  • 14. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 合成語をコーパスに組み込む • google books ngram →(word, context, year, freq)をつくったので、これに組み込む • word = r1 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x shift(t, r1○r2) • word = r2 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x (1-shift(t, r1○r2)) • 例えば、banana○lobster の場合 • (banana, Malaysia, year, freq) → banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster) • (lobster, claws, year, freq) → banana○lobster, claws, year, freq*(1-shift(year, banana○lobster)) • 何をしていることになるのか? • r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している • 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift と(1-shift)で元々の頻度を調整する • これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに(sigmoidal)に変化 していく様をモデル化することができる 13
  • 15. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 合成語を組み込んだコーパスでモデルを訓練する • モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する • r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能 • モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価 r1○r2と、cls1の重心との類似度 14 ・cls1は、r1が属するBLESSのクラスの単語の集合 ・cls2は、r2が属するBLESSのクラスの単語の集合 r1○r2と、cls2の重心との類似度 gold
  • 16. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 15の合成語を3セット、合計45の合成語の平均 MSE の結果 • 提案手法(DiffTime)が先行研究を outperform • 合成語の意味の変化もなめらかに表現できた 15 提案手法 提案手法
  • 17. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの限界 • 合成語を仮定している • 実世界は合成語だけではない • 二つの語義間の遷移だけの決め打ちモデル • gaining/losingやnarrowing/broadeningのような共通の変化を説明 できない • 意味変化の曲線を sigmoidal に限定している 16
  • 18. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 意味変化のスピード • 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、 tで微分すればすなわちそれが意味変化のスピード • いくつかの単語に関して、近傍単語とのcos-simの変化と意味 変化のスピードを対応させてみた(次頁) 17
  • 19. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18
  • 20. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University いくつかの単語の意味の変化について • apple • Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし • コーパスのジャンルがフィクションだからかも • gay • 1950年ごろにドラスティックな変化がある • 1900年のmid〜lateにかけて(Harper2014と無矛盾) • mail • mailをおくる手段がかわったので変化している(email) • 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから • canadian • 近傍単語が地理的な意味の単語から civil な単語へシフトしている • 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい(独立→WWⅠ?(Francis1997参 照とのこと) • cell • 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ • 予測に反して早い段階でスピード≠0になっているのは、時間を連続的に扱ったがための弱点(意図しない補 間) 19
  • 21. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University time period の同定 • h1の活性化関数がtanhなので、h1の符号反転前後(h1=0の とき)を time pointと解釈 • time pointsをプロットしたのがFig5→ • 1940sまでは等間隔に分布 • 1950s-1956sは大きなバースト • 1980sは2つ存在 • モデルが意味変化の増大を捉えている • ただし、この解析は微妙 • 100ノードある h1 のうち 0 になるのは16% • ほとんどの h1 のノードは time periods 間の遷移に寄与しない 20
  • 22. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University まとめ • 通時的分散表現のモデルを構築した • 単語の意味変化をどれくらい正確にモデル化できているかを定 量化するための合成語のタスクをつくりモデル間の比較を可能 とした • モデルが微分可能であることをつかって意味の変化スピードを 示した 21