SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Ordered Neurons: IntegratingTree Structures into
Recurrent Neural Networks (ICLR2019)
Kazuki Fujikawa, DeNA
サマリ
• 書誌情報
– Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
• ICLR2019(Best paper)
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville
• 概要
– 系列データから抽出される特徴量が階層化されて学習されるように設計された
”ON-LSTM” (Ordered Neuron LSTM) を提案
• Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入
– 言語モデルや教師なし構文解析などのタスクで有効性を確認
2
アウトライン
• 背景
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 提案手法
• 実験・結果
4
背景
• 自然言語は、単純な系列ではなく階層構造で考えることができる
• ニューラル言語モデルにも階層構造を導入することが重要である可能性がある
– DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている
– 長期に渡った依存関係を学習しやすくできる可能性がある
– 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する
5
図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
アウトライン
• 背景
• 提案手法
• 実験・結果
6
ON-LSTM
• 着想
– 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような
木構造や各ノードの特徴が学習されるようにしたい
– (a) の構文木は (b) の Block と見なすこともできる
– LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる
• トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す
• 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い
• 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する
LSTMのメモリ状態は全て更新される
7
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– 標準のLSTMのメモリ更新
① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出
② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出
③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTM
• 下図 “ON GATES” の部分以外は標準のLSTMと同様
9
ON GATES
図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
10
𝑔 𝑘 =
exp(𝒛 𝑘)
𝑘′ exp(𝒛 𝑘′)
𝑔 𝑘 =
𝑘′≤𝑘
𝑔 𝑘
𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙)
活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
11
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
12
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
13
𝑓𝑡 𝑖 𝑡
°
𝑤𝑡
=
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
14
𝑓𝑡 𝑤𝑡
− = 𝑖 𝑡 と重複していない部分
→ 𝑓𝑡をそのまま利用
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
15
𝑓𝑡 𝑤𝑡
° = 𝑖 𝑡 と重複している部分
→ 𝑓𝑡との合議で決定
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
ON-LSTM
16
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
ON-LSTM
17
アウトライン
• 背景
• 提案手法
• 実験・結果
18
実験1: 言語モデル
• 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価
– データセット: Penn TreeBank (PTB)
– ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた
• 結果・考察
– レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善
– AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、
本研究とは共存可能
19
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
20
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
21
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
22
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
23
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
24
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 結果・考察
– 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較
• 2層目のmaster forget gateでparsingした場合が最も良い結果となった
• 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった
可能性が考えられる
25
ON-LSTM 2nd-layer Human expert annotations
結論
• RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案
– 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む
– 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の
ようなデータ構造を表現できるようにした
• 言語モデル、教師なし構文解析のタスクで有効性を検証
– ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって
言語モデル自体の性能を改善することができた
26
References
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree
Structures into Recurrent Neural Networks. In ICLR2019.
• Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM
Language Models. In ICLR2018.
• Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax
bottleneck: A high-rank rnn language model. In ICLR2018.
27

More Related Content

PDF
実装ディープラーニング
PPTX
[ICLR2016] 採録論文の個人的まとめ
PDF
PFI Christmas seminar 2009
PDF
最近のRのランダムフォレストパッケージ -ranger/Rborist-
PDF
DTrace for biginners part(2)
PDF
Tsukuba.R #7 5/9
PDF
パターン認識 第10章 決定木
PDF
深層学習レポート Day1 (小川成)
実装ディープラーニング
[ICLR2016] 採録論文の個人的まとめ
PFI Christmas seminar 2009
最近のRのランダムフォレストパッケージ -ranger/Rborist-
DTrace for biginners part(2)
Tsukuba.R #7 5/9
パターン認識 第10章 決定木
深層学習レポート Day1 (小川成)

Similar to Ordered neurons integrating tree structures into recurrent neural networks (20)

PDF
Rnncamp2handout
PPTX
深層学習による自然言語処理の研究動向
PDF
Recurrent Neural Networks
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PDF
Learning to forget continual prediction with lstm
PDF
2016word embbed supp
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
PDF
RNN-based Translation Models (Japanese)
PDF
TensorFlow math ja 05 word2vec
PDF
ニューラルネットワークを用いた自然言語処理
PPTX
Paper: seq2seq 20190320
PDF
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
PDF
ChainerによるRNN翻訳モデルの実装+@
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PDF
Chainer with natural language processing hands on
PDF
LSTM (Long short-term memory) 概要
PDF
音声認識と深層学習
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
DOCX
レポート深層学習Day3
PDF
Deep Learningの基礎と応用
Rnncamp2handout
深層学習による自然言語処理の研究動向
Recurrent Neural Networks
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Learning to forget continual prediction with lstm
2016word embbed supp
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
RNN-based Translation Models (Japanese)
TensorFlow math ja 05 word2vec
ニューラルネットワークを用いた自然言語処理
Paper: seq2seq 20190320
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
ChainerによるRNN翻訳モデルの実装+@
子どもの言語獲得のモデル化とNN Language ModelsNN
Chainer with natural language processing hands on
LSTM (Long short-term memory) 概要
音声認識と深層学習
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
レポート深層学習Day3
Deep Learningの基礎と応用
Ad

More from Kazuki Fujikawa (15)

PDF
Stanford Covid Vaccine 2nd place solution
PDF
BMS Molecular Translation 3rd place solution
PDF
ACL2020 best papers
PPTX
Kaggle参加報告: Champs Predicting Molecular Properties
PDF
NLP@ICLR2019
PPTX
Kaggle参加報告: Quora Insincere Questions Classification
PPTX
A closer look at few shot classification
PPTX
Graph convolutional policy network for goal directed molecular graph generation
PDF
Conditional neural processes
PDF
NIPS2017 Few-shot Learning and Graph Convolution
PPTX
Matrix capsules with em routing
PDF
Predicting organic reaction outcomes with weisfeiler lehman network
PDF
SchNet: A continuous-filter convolutional neural network for modeling quantum...
PDF
Matching networks for one shot learning
PDF
DeNAにおける機械学習・深層学習活用
Stanford Covid Vaccine 2nd place solution
BMS Molecular Translation 3rd place solution
ACL2020 best papers
Kaggle参加報告: Champs Predicting Molecular Properties
NLP@ICLR2019
Kaggle参加報告: Quora Insincere Questions Classification
A closer look at few shot classification
Graph convolutional policy network for goal directed molecular graph generation
Conditional neural processes
NIPS2017 Few-shot Learning and Graph Convolution
Matrix capsules with em routing
Predicting organic reaction outcomes with weisfeiler lehman network
SchNet: A continuous-filter convolutional neural network for modeling quantum...
Matching networks for one shot learning
DeNAにおける機械学習・深層学習活用
Ad

Recently uploaded (10)

PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介

Ordered neurons integrating tree structures into recurrent neural networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Ordered Neurons: IntegratingTree Structures into Recurrent Neural Networks (ICLR2019) Kazuki Fujikawa, DeNA
  • 2. サマリ • 書誌情報 – Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks • ICLR2019(Best paper) • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville • 概要 – 系列データから抽出される特徴量が階層化されて学習されるように設計された ”ON-LSTM” (Ordered Neuron LSTM) を提案 • Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入 – 言語モデルや教師なし構文解析などのタスクで有効性を確認 2
  • 5. 背景 • 自然言語は、単純な系列ではなく階層構造で考えることができる • ニューラル言語モデルにも階層構造を導入することが重要である可能性がある – DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている – 長期に渡った依存関係を学習しやすくできる可能性がある – 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する 5 図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
  • 7. ON-LSTM • 着想 – 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような 木構造や各ノードの特徴が学習されるようにしたい – (a) の構文木は (b) の Block と見なすこともできる – LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる • トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す • 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い • 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する LSTMのメモリ状態は全て更新される 7
  • 8. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – 標準のLSTMのメモリ更新 ① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出 ② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出 ③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する 8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 9. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTM • 下図 “ON GATES” の部分以外は標準のLSTMと同様 9 ON GATES 図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 10. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 10 𝑔 𝑘 = exp(𝒛 𝑘) 𝑘′ exp(𝒛 𝑘′) 𝑔 𝑘 = 𝑘′≤𝑘 𝑔 𝑘 𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙) 活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
  • 11. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 11 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 12. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 12 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 13. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 13 𝑓𝑡 𝑖 𝑡 ° 𝑤𝑡 =
  • 14. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 14 𝑓𝑡 𝑤𝑡 − = 𝑖 𝑡 と重複していない部分 → 𝑓𝑡をそのまま利用
  • 15. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 15 𝑓𝑡 𝑤𝑡 ° = 𝑖 𝑡 と重複している部分 → 𝑓𝑡との合議で決定
  • 16. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ON-LSTM 16
  • 17. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する ON-LSTM 17
  • 19. 実験1: 言語モデル • 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価 – データセット: Penn TreeBank (PTB) – ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた • 結果・考察 – レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善 – AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、 本研究とは共存可能 19
  • 20. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 20 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 21. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 21 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 22. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 22 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 23. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 23 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 24. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 24 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 25. 実験2: 教師なし構文解析 • 結果・考察 – 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較 • 2層目のmaster forget gateでparsingした場合が最も良い結果となった • 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった 可能性が考えられる 25 ON-LSTM 2nd-layer Human expert annotations
  • 26. 結論 • RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案 – 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む – 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の ようなデータ構造を表現できるようにした • 言語モデル、教師なし構文解析のタスクで有効性を検証 – ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって 言語モデル自体の性能を改善することができた 26
  • 27. References • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks. In ICLR2019. • Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM Language Models. In ICLR2018. • Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax bottleneck: A high-rank rnn language model. In ICLR2018. 27