SlideShare a Scribd company logo
EMNLP 2015 読み会 @小町研
“Morphological Analysis for Unsegmented
Languages using Recurrent Neural Network
Language Model “
Hajime Morita, Daisuke Kawahara, Sadao Kurohashi
首都大学東京 情報通信システム学域
小町研究室 M2 塘 優旗
1
Abstract
 Recurrent Neural Network Language Model
(RNNLM) を利用し、新たな形態素解析モ
デルを提案
 意味的に一般化された言語モデルとして
RNNLMを利用
 二つの日本語コーパスにおいて、提案手法
がベースラインに比べて良い結果を示した
2
Proposed Method
 RNNLM を利用することで意味的に尤もらしい単語列を考
慮して形態素解析を行う手法
 RNNME (Recurrent Neural Net-work trained jointly with
Maximum Entropy) language model (Mikolov et al., 2011;
Mikolov, 2012) をRNNLMの実装として利用
3
Recurrent Neural Network
Language Model (RNNLM)
 Auto Segmented Corpus
 生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を
JUMANで自動解析し作成
 JUMANにおける解析誤りが含まれる
 Training
 Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語
列で学習
 学習されたモデルは,自動解析における誤りを含む
 Re-training
 人手でラベル付けされたコーパスで再学習
 機能語の単語列に関するエラーの解消のため
4
Base Model
 教師有り形態素解析モデル(単語分割,レンマ化,POS
タグ付け)を Base Model として利用
 Train data:アノテーション済み1万文のコーパス
 解析手順
1. 入力文の文字列を辞書を利用し参照
2. 単語ラティスの構築
3. ラティス中の最もスコアの高いパスを探索
5
Base Model
 辞書 - 80万単語
 レンマ,POS,活用形 の情報を含む
 JUMAN辞書
 追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル
で主に構成
 Scoring function
 Features
 単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)
 文字種,trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル
Base Model
 Training
 重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
 out-of-vocabulary (OOV) の取り扱い
 解析時:文字種で入力列を分割することで自動で単語を生成
 学習時:辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
 Decording
 second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7
RNNLM Integrated Model
 タグ付けされた系列に対してのRNNLM,ベースモデ
ルによるそれぞれのスコア(score_R, score_B)を統
合
 OOV単語に対してのスコア付け
8
C_p : OOVへの定数ペナルティ
L_p : 単語長に対してのペナルティ
length(n) : 次の単語 n の長さ
α:補間パラメータ
RNNLM Integrated Model
 Decording
 RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し,ビーム幅中の可能
なcontext 候補のみ保持する
 十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
 各候補は context を表現するベクトルを持ち,
二つの単語の履歴を持つ
9
Experiments - Data sets
 人手タグ付きコーパス
(RNNLMの再学習, base model の学習に利用)
 Kyoto University Text Corpus (Kawahara et al.,
2002)
 Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
 Test : 2000, Develop : 500, Train : 45000
10
Experiments - Baselines
 JUMAN
 MeCab
 Base model のみ
 Base model + 従来の言語モデル
 3-gram 言語モデル(同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成)
11
Experiments - Settings
 事前に設定するパラメータ
 ビーム幅:5
 C_p = 5 (Mikolov et al. 2011)のデフォルト値
 チューニングするパラメータ
 development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain(提案手法) 0.3 1.5
Experiments - Evaluation
 単語分かち書き, POSタグ付けのジョイン
ト評価のF値
 ドメイン:News, Web, ALL(News + Web)
 ブートストラッピング(Zhang et al., 2004)
を用いて提案手法とその他のモデルの優位
性をテスト
13
Experiments - Results
 提案手法が全ての点で最高精度
14
Experiments - Results
 Segmentation で特に大きな改善
 レンマ化されたPOSタグ付けのされていな
い単語列をベースに学習されたRNNLMを
利用することによる
15
Experiments - Results
 単語分割の具体例
 上記のようなベースラインの解析誤りは言語モデル
を作成する際に利用される自動作成コーパスにおけ
るエラーに由来する
 RNNLMを利用し、意味的な単語の遷移が捉えること
ができれば提案手法で正しい解析が可能になる 16
手法 解析結果
JUMAN 外国 / 人参 / 政権
Base + SRILM
Base + RNNLM_retrain(提案手法) 外国人 / 参政権
Experiments - Results
 単語分割の具体例
 ベースラインのような分割は文法的には問題ないが、
意味的に解釈することは難しい
 RNNLMが意味的に尤もらしい単語列を学習するため、
提案手法ではうまくいく
17
手法 解析結果
JUMAN 健康/な/どの/点/で
Base + SRILM
Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
Conclusion
 RNNLM を自動的に単語分割を行ったコーパス、人手で作
成したコーパスで学習することで形態素解析の新しいモ
デルを提案
 RNNLMによって単語系列の意味的な尤もらしさを捉える
ことでベースモデルのエラーを減少
 Future Work
 RNNLMモデル由来の素性を設計し、それらを統合された学習フ
レームワークに組み込みたい
 中国語やタイ語のような単語分割のされていない言語にも適用し
たい
18

More Related Content

PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PDF
BERT+XLNet+RoBERTa
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
PDF
2016word embbed
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
日本語テキスト音声合成のための句境界予測モデルの検討
PDF
TensorFlow math ja 05 word2vec
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
BERT+XLNet+RoBERTa
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
2016word embbed
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
日本語テキスト音声合成のための句境界予測モデルの検討
TensorFlow math ja 05 word2vec

What's hot (17)

PDF
Segmenting Sponteneous Japanese using MDL principle
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
PDF
Extract and edit
PPTX
Signl213
PDF
Character word lstm language models
PDF
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
PPTX
Distributed Representations of Sentences and Documents
PPT
ma112009id434
PPTX
Minimally Supervised Classification to Semantic Categories using Automaticall...
PDF
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
PDF
読解支援@2015 06-05
PDF
Emnlp読み会@2015 10-09
PPTX
Prml Reading Group 11 LDPC
PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
PDF
ChainerによるRNN翻訳モデルの実装+@
PDF
Query and output generating words by querying distributed word representatio...
Segmenting Sponteneous Japanese using MDL principle
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Extract and edit
Signl213
Character word lstm language models
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Distributed Representations of Sentences and Documents
ma112009id434
Minimally Supervised Classification to Semantic Categories using Automaticall...
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
読解支援@2015 06-05
Emnlp読み会@2015 10-09
Prml Reading Group 11 LDPC
Nl220 Pitman-Yor Hidden Semi Markov Model
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
ChainerによるRNN翻訳モデルの実装+@
Query and output generating words by querying distributed word representatio...
Ad

Similar to EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" (18)

PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
PDF
Chainer with natural language processing hands on
PPTX
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
PDF
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
PPTX
Neural Models for Information Retrieval
PPTX
Paper: seq2seq 20190320
PDF
Convolutional Neural Netwoks で自然言語処理をする
PDF
ICASSP2017読み会 (acoustic modeling and adaptation)
PDF
大規模日本語ブログコーパスにおける言語モデルの構築と評価
PDF
miyoshi17sp07
PDF
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
PPTX
Essentially no barriers in neural network energy landscape
PDF
読解支援@2015 06-26
PDF
Generalized data augmentation for low resource translation
PDF
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
PPTX
Diet networks thin parameters for fat genomic
PDF
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
PDF
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
A scalable probablistic classifier for language modeling: ACL 2011 読み会
Chainer with natural language processing hands on
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural Models for Information Retrieval
Paper: seq2seq 20190320
Convolutional Neural Netwoks で自然言語処理をする
ICASSP2017読み会 (acoustic modeling and adaptation)
大規模日本語ブログコーパスにおける言語モデルの構築と評価
miyoshi17sp07
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
Essentially no barriers in neural network energy landscape
読解支援@2015 06-26
Generalized data augmentation for low resource translation
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Diet networks thin parameters for fat genomic
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
Ad

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

  • 1. EMNLP 2015 読み会 @小町研 “Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 1
  • 2. Abstract  Recurrent Neural Network Language Model (RNNLM) を利用し、新たな形態素解析モ デルを提案  意味的に一般化された言語モデルとして RNNLMを利用  二つの日本語コーパスにおいて、提案手法 がベースラインに比べて良い結果を示した 2
  • 3. Proposed Method  RNNLM を利用することで意味的に尤もらしい単語列を考 慮して形態素解析を行う手法  RNNME (Recurrent Neural Net-work trained jointly with Maximum Entropy) language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 3
  • 4. Recurrent Neural Network Language Model (RNNLM)  Auto Segmented Corpus  生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を JUMANで自動解析し作成  JUMANにおける解析誤りが含まれる  Training  Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語 列で学習  学習されたモデルは,自動解析における誤りを含む  Re-training  人手でラベル付けされたコーパスで再学習  機能語の単語列に関するエラーの解消のため 4
  • 5. Base Model  教師有り形態素解析モデル(単語分割,レンマ化,POS タグ付け)を Base Model として利用  Train data:アノテーション済み1万文のコーパス  解析手順 1. 入力文の文字列を辞書を利用し参照 2. 単語ラティスの構築 3. ラティス中の最もスコアの高いパスを探索 5
  • 6. Base Model  辞書 - 80万単語  レンマ,POS,活用形 の情報を含む  JUMAN辞書  追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル で主に構成  Scoring function  Features  単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)  文字種,trigram (Zhang and Clark 2008) 6 y : タグ付けされた単語列 Φ(y) : y に対しての素性べクトル w : 重みベクトル
  • 7. Base Model  Training  重みベクトル w の学習のために soft confidence-weighted learning (Wang et al., 2012) を利用  out-of-vocabulary (OOV) の取り扱い  解析時:文字種で入力列を分割することで自動で単語を生成  学習時:辞書中には無いが学習コーパスにある単語は OOV 単語 としてそれらの重みを学習する  Decording  second-order Viterbi algorithm (Thede and Harper, 1999)を利用す ることで厳密なデコードが可能 7
  • 8. RNNLM Integrated Model  タグ付けされた系列に対してのRNNLM,ベースモデ ルによるそれぞれのスコア(score_R, score_B)を統 合  OOV単語に対してのスコア付け 8 C_p : OOVへの定数ペナルティ L_p : 単語長に対してのペナルティ length(n) : 次の単語 n の長さ α:補間パラメータ
  • 9. RNNLM Integrated Model  Decording  RNNLMにおける可能な単語ラティスは組み合 わせ爆発が起こるため beam search (Zhang and Clark 2008) を利用し,ビーム幅中の可能 なcontext 候補のみ保持する  十分なビームサイズは単語列の曖昧な候補を保 持することができると考える  各候補は context を表現するベクトルを持ち, 二つの単語の履歴を持つ 9
  • 10. Experiments - Data sets  人手タグ付きコーパス (RNNLMの再学習, base model の学習に利用)  Kyoto University Text Corpus (Kawahara et al., 2002)  Kyoto University Web Document Leads Corpus (Hangyo et al., 2012)  Test : 2000, Develop : 500, Train : 45000 10
  • 11. Experiments - Baselines  JUMAN  MeCab  Base model のみ  Base model + 従来の言語モデル  3-gram 言語モデル(同じ自動単語分割コーパ スからSRILMを使いKneser-Ney Smothing を 行い作成) 11
  • 12. Experiments - Settings  事前に設定するパラメータ  ビーム幅:5  C_p = 5 (Mikolov et al. 2011)のデフォルト値  チューニングするパラメータ  development dataにおいて、提案手法, ベースモデル, 言語モデルのパラメータをグリッドサーチし下記のよ うに決定 12 手法 α L_p Base + SRILM 0.3 0.5 Base + RNNLM 0.1 2.0 Base + RNNLM_retrain(提案手法) 0.3 1.5
  • 13. Experiments - Evaluation  単語分かち書き, POSタグ付けのジョイン ト評価のF値  ドメイン:News, Web, ALL(News + Web)  ブートストラッピング(Zhang et al., 2004) を用いて提案手法とその他のモデルの優位 性をテスト 13
  • 14. Experiments - Results  提案手法が全ての点で最高精度 14
  • 15. Experiments - Results  Segmentation で特に大きな改善  レンマ化されたPOSタグ付けのされていな い単語列をベースに学習されたRNNLMを 利用することによる 15
  • 16. Experiments - Results  単語分割の具体例  上記のようなベースラインの解析誤りは言語モデル を作成する際に利用される自動作成コーパスにおけ るエラーに由来する  RNNLMを利用し、意味的な単語の遷移が捉えること ができれば提案手法で正しい解析が可能になる 16 手法 解析結果 JUMAN 外国 / 人参 / 政権 Base + SRILM Base + RNNLM_retrain(提案手法) 外国人 / 参政権
  • 17. Experiments - Results  単語分割の具体例  ベースラインのような分割は文法的には問題ないが、 意味的に解釈することは難しい  RNNLMが意味的に尤もらしい単語列を学習するため、 提案手法ではうまくいく 17 手法 解析結果 JUMAN 健康/な/どの/点/で Base + SRILM Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
  • 18. Conclusion  RNNLM を自動的に単語分割を行ったコーパス、人手で作 成したコーパスで学習することで形態素解析の新しいモ デルを提案  RNNLMによって単語系列の意味的な尤もらしさを捉える ことでベースモデルのエラーを減少  Future Work  RNNLMモデル由来の素性を設計し、それらを統合された学習フ レームワークに組み込みたい  中国語やタイ語のような単語分割のされていない言語にも適用し たい 18

Editor's Notes

  • #2: 07/16/96
  • #4: RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 RNNLM の学習リソース 自動で単語分割され構築されたコーパス 人手でラベル付けされたコーパス Recurrent Neural Net-work trained jointly with Maximum Entropy model