EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

EMNLP 2015 読み会 @小町研
“Morphological Analysis for Unsegmented
Languages using Recurrent Neural Network
Language Model “
Hajime Morita, Daisuke Kawahara, Sadao Kurohashi
首都大学東京情報通信システム学域
小町研究室 M2 塘優旗
1

Abstract
 Recurrent Neural Network Language Model
(RNNLM) を利用し、新たな形態素解析モ
デルを提案
 意味的に一般化された言語モデルとして
RNNLMを利用
 二つの日本語コーパスにおいて、提案手法
がベースラインに比べて良い結果を示した
2

Proposed Method
 RNNLM を利用することで意味的に尤もらしい単語列を考
慮して形態素解析を行う手法
 RNNME (Recurrent Neural Net-work trained jointly with
Maximum Entropy) language model (Mikolov et al., 2011;
Mikolov, 2012) をRNNLMの実装として利用
3

Recurrent Neural Network
Language Model (RNNLM)
 Auto Segmented Corpus
 生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を
JUMANで自動解析し作成
 JUMANにおける解析誤りが含まれる
 Training
 Auto Segmented Corpus中のPOSタグ無し，レンマ化された単語
列で学習
 学習されたモデルは，自動解析における誤りを含む
 Re-training
 人手でラベル付けされたコーパスで再学習
 機能語の単語列に関するエラーの解消のため
4

Base Model
 教師有り形態素解析モデル（単語分割，レンマ化，POS
タグ付け）を Base Model として利用
 Train data：アノテーション済み1万文のコーパス
 解析手順
1. 入力文の文字列を辞書を利用し参照
2. 単語ラティスの構築
3. ラティス中の最もスコアの高いパスを探索
5

Base Model
 辞書 - 80万単語
 レンマ，POS，活用形の情報を含む
 JUMAN辞書
 追加辞書 – 日本語Wikipedia中の記事中の箇条書き，記事タイトル
で主に構成
 Scoring function
 Features
 単語の基本形, POS, 活用形のunigram, bigram (Kudo et al. 2004)
 文字種，trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル

Base Model
 Training
 重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
 out-of-vocabulary (OOV) の取り扱い
 解析時：文字種で入力列を分割することで自動で単語を生成
 学習時：辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
 Decording
 second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7

RNNLM Integrated Model
 タグ付けされた系列に対してのRNNLM，ベースモデ
ルによるそれぞれのスコア（score_R, score_B）を統
合
 OOV単語に対してのスコア付け
8
C_p : OOVへの定数ペナルティ
L_p : 単語長に対してのペナルティ
length(n) : 次の単語 n の長さ
α：補間パラメータ

RNNLM Integrated Model
 Decording
 RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し，ビーム幅中の可能
なcontext 候補のみ保持する
 十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
 各候補は context を表現するベクトルを持ち，
二つの単語の履歴を持つ
9

Experiments - Data sets
 人手タグ付きコーパス
（RNNLMの再学習, base model の学習に利用）
 Kyoto University Text Corpus (Kawahara et al.,
2002)
 Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
 Test : 2000, Develop : 500, Train : 45000
10

Experiments - Baselines
 JUMAN
 MeCab
 Base model のみ
 Base model + 従来の言語モデル
 3-gram 言語モデル（同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成）
11

Experiments - Settings
 事前に設定するパラメータ
 ビーム幅：5
 C_p = 5 (Mikolov et al. 2011)のデフォルト値
 チューニングするパラメータ
 development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain（提案手法） 0.3 1.5

Experiments - Evaluation
 単語分かち書き, POSタグ付けのジョイン
ト評価のF値
 ドメイン：News, Web, ALL(News + Web)
 ブートストラッピング(Zhang et al., 2004)
を用いて提案手法とその他のモデルの優位
性をテスト
13

Experiments - Results
 提案手法が全ての点で最高精度
14

 Segmentation で特に大きな改善
 レンマ化されたPOSタグ付けのされていな
い単語列をベースに学習されたRNNLMを
利用することによる
15

 単語分割の具体例
 上記のようなベースラインの解析誤りは言語モデル
を作成する際に利用される自動作成コーパスにおけ
るエラーに由来する
 RNNLMを利用し、意味的な単語の遷移が捉えること
ができれば提案手法で正しい解析が可能になる 16
手法解析結果
JUMAN 外国 / 人参 / 政権
Base + SRILM
Base + RNNLM_retrain（提案手法）外国人 / 参政権

 単語分割の具体例
 ベースラインのような分割は文法的には問題ないが、
意味的に解釈することは難しい
 RNNLMが意味的に尤もらしい単語列を学習するため、
提案手法ではうまくいく
17
手法解析結果
JUMAN 健康/な/どの/点/で
Base + SRILM
Base + RNNLM_retrain（提案手法）健康/など/の/点/で

Conclusion
 RNNLM を自動的に単語分割を行ったコーパス、人手で作
成したコーパスで学習することで形態素解析の新しいモ
デルを提案
 RNNLMによって単語系列の意味的な尤もらしさを捉える
ことでベースモデルのエラーを減少
 Future Work
 RNNLMモデル由来の素性を設計し、それらを統合された学習フ
レームワークに組み込みたい
 中国語やタイ語のような単語分割のされていない言語にも適用し
たい
18

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

More Related Content

What's hot (17)

Similar to EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" (18)

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

Editor's Notes