ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation"

ACL 2015 読み会 @小町研
Gated Recursive Neural Network
for Chinese Word Segmentation
Xinchi Chen, Xipeng Qiu, Chenxi Zhu,
Xuanjing Huang
首都大学東京情報通信システム学域小町研究室
M2 塘優旗
2015/10/2 ACL 2015 読み会 @小町研 1

Abstract
中国語の単語わかち書きタスク
素性選択の負担軽減が注目されているが、これまでのNNは離散的な
featuresを用いたtraditionalな手法のようにcomplicated feature
compositions を抽出できなかった
reset gate, update gateという二つのゲートを持つ Gated Recursive
Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わ
せを取り入れることができて素性選択が必要ない
GRNNはdeepなので layer-wise trainingを利用することでgradient
diffusion （勾配拡散）の問題を回避
現時点での最高精度を達成
2015/10/2 ACL 2015 読み会 @小町研 2

Chinese
Word Segmentation
文字ベースの系列ラベリング
{B, M, E, S} = { Begin, Middle, End, Single }
2015/10/2 ACL 2015 読み会 @小町研 3
ＢＥＢＥＥＢＳ

ACL 2015 読み会 @小町研 4
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
•RNN
• 系列のモデル化を行うために位
相グラフが必要
•directed acyclic graph (DAG)有
向非巡回グラフ
• ある頂点 v から出発し、辺をた
どり、頂点 v に戻ってこない
• 文字の組み合わせをボトム層か
ら連続してミックスすることで
モデル化できる
• 各ノードは複数文字の
complicated feature composition
とみなせる

2015/10/2 ACL 2015 読み会 @小町研 5
Gated Recursive
for Chinese
Word Segmentation
文字セット：
文字embedding：
↓
h_i : 隠れノード，d次元
g : 非線形関数, シグモイドなど

2015/10/2 ACL 2015 読み会 @小町研 6
Gated Recursive
complicated combination features
を表現するにはシンプルすぎるため、
gated recurrent neural network (Cho et al.,
2014b; Chung et al., 2014) を参考に
2種類のゲートの導入
• reset gate (r_L, r_R)
• 右，左それぞれの子ノードから情報読み込み
• update gate
• 子ノードの情報を統合する際に何を保持するか
決定
→ どのようにアップデートし、
combination information を利用するかを
決定
update gate
reset gate

2015/10/2 ACL 2015 読み会 @小町研 7
Gated Recursive
for Chinese
Word Segmentation
最後のレイヤー（出力）
エンベディングが1stレイヤーに入力
され、１つの固定長ベクトルになるま
で上層のレイヤーまで繰り返し伝達さ
れる
異なるニューロンの出力は、異なる
feature compositionsとみなす
最後に全てのニューロンの出力を連結
しベクトル x_i を得る
x_i を線形変換することで、文字 c_i
に対しての各タグのスコアを得る
q : 総ノード数

3つのゲートの要素は同じ次元
が正規化されている
2015/10/2 ACL 2015 読み会 @小町研 8
Gated Recursive Unit
• update gate の定義
new activation
• j-th hidden node の更新式
正規化

2015/10/2 ACL 2015 読み会 @小町研 9
Gated Recursive Unit
• reset gates の定義
new activation
• j-th activationの定義、更新
reset gate :
係数 :
シグモイド関数
reset gates は right , left のchild nodeの出力を選択の仕方をコントロールし、
結果的に new activation を得る
update gates は new activation, left child, right child の選択としてみなすこ
とができる
→ この gating mechanism は文字のコンビネーションを効率よくモデル化できる

Inference
GRNN によって各文字に対してラベル付
けされるスコアが得られたため，Viterbi
アルゴリズムを利用して系列全体を通し
て最適なラベル列を推定する
先行研究にならい、transition matrix を導
入し，タグ間の遷移のスコアとして利用
する
2015/10/2 ACL 2015 読み会 @小町研 10
ＢＥＢＥＳ→ へ遷移するスコア
従って、sentence-level のスコア付けは以下のようになる

2015/10/2 ACL 2015 読み会 @小町研 11
Training
- Layer-wise Training
Deep Learning の学習は難しい
 gradient diffusion (勾配の拡散)
 overfitting のリスク
(Hinton and Salakhutdinov, 2006)
Layer-wise Training
 Layer を１つづつ追加して学習を行う
1. 隠れ層の1層目のみ学習
2. 1層目の学習が終わったら2つの隠れ層の学習を行う。一番上の隠れ層まで繰り返し
学習を行う（１~ ）
3. 最後の層まで学習が終わったら現在のパラメータを初期値として１~ の層にお
いて学習を行う

2015/10/2 ACL 2015 読み会 @小町研 12
Training
- Max-Margin criterion
Taskar et al., 2005 によって提案
モデルの決定境界の頑健さに着目することで確率、尤度の代替となる
尺度を与える
：全ての可能なラベル列のセット
：正解ラベル列
：予測ラベル列
 与えられた文 x _i に対して
 Margin Loss
 トレーニングインスタンス
に対して最もスコアのものを探索
 Max-Margin training の目的は最
も高いスコアとなるタグ系列が
正解と一致すること

Subgradien Method
 Ratliff et al., 2007
 最急降下の帰納法
 gradient-like direction を計算
目的関数の最小化
 (Socher et al., 2013a) にならう
 AdaGrad (Duchi et al., 2011) を利用してみ
にバッチでパラメータを更新
上記の式から m training exampleに対し
ての正規化された目的関数 J(θ)を定義
下記式を最小化することで正しいタグ系列
のスコアが増加し、間違っているタグ系列
のスコアが減少する
2015/10/2 ACL 2015 読み会 @小町研 13
Training
- Max-Margin training

Experiments
ドメインの異なる二種類のテキストで実験
1. Newswire （Web上で配信されるニュース）
2. Micro-blog
評価
•一般的なBakeoff scoring program
•Precision, Recall, F1-score
2015/10/2 ACL 2015 読み会 @小町研 14

Experiments (Newswire)
- データセット
•PKU, MSRA
• the second International Chinese Word Segmentation Bakeoff
(Emerson, 2005) で提供
• Training set：train data中の90%
• Development set : train data中の10%
•CTB6
• Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による
• 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構
造化されたコーパス
• Training, Development, Test のデータセットの分割は(Yang and Xue,
2012) らにならう
→ 前処理：中国語の熟語、英字、数字は特殊記号で置き換える
2015/10/2 ACL 2015 読み会 @小町研 15

- ハイパーパラメータ
batch size：20
文字エンベディングサイズ
• 計算機リソース、実験結果にお
けるunderfit を考慮して決定
Dropout (Srivastava et al.,
2014)
• 過学習を避ける
• 効率、パフォーマンスを考慮し
て右のrateにする
2015/10/2 ACL 2015 読み会 @小町研 16

Experiments(Newswire)
2015/10/2 ACL 2015 読み会 @小町研 17
Layer-wise training の効果を
調査
提案手法：
window幅 5，
recursion layer 5
異なるrecursion layer で実験
各モデルの収束スピードの比
較
パフォーマンスの比較

- F値の収束スピード
異なるレイヤー数、layer-wise
trainingを行ったかどうか
1 layer
最後の線形スコア関数のみ利用
非線形レイヤーがないためunderfit,
性能低い
5 layer
5層利用し、全てのニューロンを利
用
ただ単に学習すると遅い、性能低
い
Layer-wise
5層利用してもF値の収束が早く，
性能も良い
2015/10/2 ACL 2015 読み会 @小町研 18

- テストセットにおける評価
PKU (test set)における性能評価
layer-wise training を利用した場合が常に一番良い結果
→ layer-wise を利用することで layer数が増えても高い性能で安
定する
2015/10/2 ACL 2015 読み会 @小町研 19

Results (Newswire)
- Gated Recursive Architectureの効果
2015/10/2 ACL 2015 読み会 @小町研 20
Character Embedding（文字エンベディング）ランダム初期化
Gated Recursive Architecture の導入により性能向上

Results (Newswire)
- pre-trained, bigram の効果
2015/10/2 ACL 2015 読み会 @小町研 21
文字embedding :
ランダム初期化
文字embedding :
中国語Wikipedia，
word2vecで
事前学習
bigram feature
embedding の利用
（Pei et al., 2014 ）

Experiments(Micro-blog)
データセット
• NLPCC 2015 dataset1 (Qiu et al., 2015)
• NLPCC 2015 のシェアドタスクで提供
• Sina Weibo から抽出
• Training set : Training data中の90%
• Development set : Training data中の10%
• 比較的informalなテキスト
• 以下のような様々なトピックを含む
2015/10/2 ACL 2015 読み会 @小町研 22

Results (Micro-blog)
2015/10/2 ACL 2015 読み会 @小町研 23
提案手法（以下を利用）
• pre-trained
• bigram character embeddings
比較手法
• FNLP3 (Qiu et al., 2013)
• CRF++ toolkit（デフォルト）

Conclusion
Gated recursive neural network (GRNN) を提案し、3種のベンチ
マークセットで state-of-the-art を達成
GRNN中の各ニューロンは入力文字列の複雑な組み合わせと見な
せ、traditional な手法における洗練された素性の選択を再現する
能力があるといえる
中国語の単語分かち書きタスクは特殊になりうる（マイクロブ
ログなど）が、提案モデルは簡単に適応させることができ、その
他のラベリングタスクにおいても対応させることができる
将来的には、その他のラベリングタスクにおいても調査したい
2015/10/2 ACL 2015 読み会 @小町研 24

ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation"

More Related Content

What's hot (20)

Similar to ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation" (20)

ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation"

Editor's Notes