SlideShare a Scribd company logo
最小記述長原理に基づいた
日本語話し言葉の単語分割

                 東京大学大学院 松原勇介

               豊橋技術科学大学 秋葉友良

東京大学/Univ. of Manchester/NaCTeM 辻井潤一



               NLP2007 (2007-03-20)
本発表の概要
        N-gram言語モデル向けの
       教師なし単語分割法を提案
   本研究が対象としている単語分割の説明
   提案手法の概要
   結果:形態素解析による分割を改善すること
    に成功

                           2
背景

    目的:   言語モデル性能の向上
                             音声認識候補の
                             順位付け
生                   単語ベース
          単語分割された
コーパ                 N-gram   文書とクエリの
           コーパス
ス                   言語モデル    類似度評価


うまい単語分割ができると、
言語モデルやその応用システムの性能が向上する
                                    3
ドメインへの特化
N-gram言語モデルの性能はドメインに敏感


ドメインに特化した単語分割をする既存手法
   ドメイン向けに辞書を補充
   そのドメインの単語分割済みコーパスで教師あり学習
   そのドメインの生コーパスで言語モデルの性能指標を
    最適化する教師なし学習
                           4
なぜ教師なし学習か
   作業コストが低い

    辞書の作成、単語分割済みコーパスが不要
   形態素や人間の基準がよいとは限らない

    区切りの与え方はドメイン次第
       [よろしく][お][願い][し][ます]    ?
       [よ][ろ][し][く][お][願][い][し][ま][す]   ?
       [よろしくお願いします]       ?
                                         5
提案手法(学習)
                          仮の単語分割済み
                            コーパス
                          (最初は文字分割など)
1.   隣接して現れる2単語の対のうち、
     ある指標(コーパスの記述長)の減少幅が最大の
     組を連結する

                            改良された
2.   連結されたものを1単語とみなして、
                           単語分割済み
     同じ手続きを繰り返す             コーパス

3.   1.で減少する候補がなくなったら終了
4.   連結した単語対を連結した順に出力する
                                    6
何を最適化するか
N-gram パープレキシティ   N-gram 符号化による記述長
                  (提案)
   言語モデルの性能指        パープレキシティ+辞
    標そのもの             書の符号長
   N=1の場合のみしか
                     N=2の場合の実用的な
    実現されていない
                      計算が可能になった
   この基準のみでは、
    過学習に陥る           指標自身が過学習を防
                      いでいる       7
記述長の定義
記述長は コーパスの符号長 と 辞書の符号長 の和

コーパスの符号長
                                          #w 1 w 2 
    −    ∑       ∑       #w 1 w 2 log
                                          #w 1 
        w1 ∈辞書 w 2 ∈辞書




辞書の符号長
                      #辞書中の c
     −     ∑     ∑ log 語彙数
         w ∈辞書   c∈w
                                                        8
1ステップあたりの計算量
  素朴な方法
全単語対に対して、連結後の記述長を再計算する

    →     O(延べ単語数x語彙数2)


  我々の方法
全単語対に対して、記述長の差分を計算する
1つの単語対についての差分の計算は O(語彙数) で済む

    →     O(延べ単語数+語彙数x語彙数2)
                               9
提案手法(適用)
基本的には

   学習で出力された連結手順をそのまま再現する
           予備実験の結果
        連結手順すべてを適用すると、
  連結が起こりすぎて言語モデルの性能が悪化


         ヘルドアウトデータを用いて
         最適な連結数を決定する

                           10
動作例(初期分割:文字)




               11
動作例(10ステップ後)




               12
動作例(100ステップ後)




                13
動作例(1000ステップ後)




             14
実験
   対話音声書き起こし文(約25万字)を使用
     言語モデルの訓練      ヘルドアウト  評価
        19        :   1   :  1
   次を比較
        形態素解析(MeCab)による分割
        文字を初期分割にした提案手法
        MeCabを初期分割にした提案手法
   2-gram言語モデルの文字あたりパープレキシ
    ティで性能を評価
                                 15
結果
  文字当たりパープレキシティ   提案手法
                  (文字)




                   提案手法
                  (形態素)

形態素解析



                         連結数
                               16
結果
  文字当たりパープレキシティ          提案手法
                         (文字)
                  提案手法(形態素)は形態素解析の分割を改善した

                 ヘルドアウトにより最適値をほぼ予測できた



                          提案手法
                          (形態素)

形態素解析



                                連結数
                                            17
まとめ
     2-gramパープレキシティを近似的に最適化す
      る教師なし単語分割の手法を提案した
     文字当たりパープレキシティの観点で形態素解
      析による分割を改善した
今後の課題
     言語モデルの応用システムの性能の点でも本手
      法が有効かどうかを調べる
     3-gram、およびそれ以上への手法の拡張
                              18

More Related Content

PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
PPTX
Signl213
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
日本語テキスト音声合成のための句境界予測モデルの検討
PPTX
Minimally Supervised Classification to Semantic Categories using Automaticall...
PPTX
Distributed Representations of Sentences and Documents
PDF
読解支援@2015 06-05
PDF
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Nl220 Pitman-Yor Hidden Semi Markov Model
Signl213
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
日本語テキスト音声合成のための句境界予測モデルの検討
Minimally Supervised Classification to Semantic Categories using Automaticall...
Distributed Representations of Sentences and Documents
読解支援@2015 06-05
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...

What's hot (19)

PDF
Reusing weights in subword aware neural language models
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PDF
Acl yomikai, 1016, 20110903
PDF
黒い目の大きな女の子:構文から意味へ
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PDF
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
PPTX
東北弁発表
PPTX
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
PDF
Saito20asj_autumn
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PPTX
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
PDF
nl190segment
PDF
機械翻訳の今昔物語
PPTX
Deep neural models of semantic shift
PDF
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
PPTX
Paper: seq2seq 20190320
PDF
形容詞と意味フレームの係わり方について
PDF
鬱くしい日本語のための形態素解析入門
Reusing weights in subword aware neural language models
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Acl yomikai, 1016, 20110903
黒い目の大きな女の子:構文から意味へ
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
東北弁発表
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
Saito20asj_autumn
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
nl190segment
機械翻訳の今昔物語
Deep neural models of semantic shift
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
Paper: seq2seq 20190320
形容詞と意味フレームの係わり方について
鬱くしい日本語のための形態素解析入門
Ad

Viewers also liked (20)

PDF
エクストリームエンジニア2
PPTX
20150817 sss2015
PPTX
中途入社者からのご提案
PDF
091021 Kyoso Forum Doi
PPTX
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
PDF
Rocketstaff tstoreサービス支援資料
PDF
01_garden for_life
PPTX
高速な挿入と検索が可能なSkip Graphの改良
PPTX
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
PDF
文脈の多様性に基づく名詞換言の評価
PDF
Moodle Moot 2014 LT資料
PPTX
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
PPTX
NHN HTML5勉強会 サービス開発
PPTX
【防衛省・自衛隊御中】SEO提案
PPTX
第12回
PPTX
新しい強化ミーティングの提案
PDF
コンサルタントが明かす 仮想化提案のすべて
PDF
提案に役に立つ情報 (teianlab 勉強会)
PPTX
ロジカルプレゼンテーション
PPTX
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
エクストリームエンジニア2
20150817 sss2015
中途入社者からのご提案
091021 Kyoso Forum Doi
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
Rocketstaff tstoreサービス支援資料
01_garden for_life
高速な挿入と検索が可能なSkip Graphの改良
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
文脈の多様性に基づく名詞換言の評価
Moodle Moot 2014 LT資料
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
NHN HTML5勉強会 サービス開発
【防衛省・自衛隊御中】SEO提案
第12回
新しい強化ミーティングの提案
コンサルタントが明かす 仮想化提案のすべて
提案に役に立つ情報 (teianlab 勉強会)
ロジカルプレゼンテーション
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
Ad

Similar to Segmenting Sponteneous Japanese using MDL principle (20)

PDF
言語資源と付き合う
PDF
形態素解析の過去・現在・未来
PPT
Sotsuken final
PPTX
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
PDF
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
PDF
大規模日本語ブログコーパスにおける言語モデルの構築と評価
PDF
テキスト情報と画像情報を組み合わせた論理推論システムの構築
PDF
Ism npblm-20120315
PDF
Dsirnlp#7
PDF
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
PDF
100816 nlpml sec2
PPTX
Coling読み会スライド
PDF
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
PDF
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
PDF
第三回さくさくテキストマイニング勉強会 入門セッション
PDF
やさしい日本語言い換えシステムを支える技術
PDF
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
言語資源と付き合う
形態素解析の過去・現在・未来
Sotsuken final
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
大規模日本語ブログコーパスにおける言語モデルの構築と評価
テキスト情報と画像情報を組み合わせた論理推論システムの構築
Ism npblm-20120315
Dsirnlp#7
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
100816 nlpml sec2
Coling読み会スライド
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
第三回さくさくテキストマイニング勉強会 入門セッション
やさしい日本語言い換えシステムを支える技術
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
A scalable probablistic classifier for language modeling: ACL 2011 読み会

Segmenting Sponteneous Japanese using MDL principle

  • 1. 最小記述長原理に基づいた 日本語話し言葉の単語分割 東京大学大学院 松原勇介 豊橋技術科学大学 秋葉友良 東京大学/Univ. of Manchester/NaCTeM 辻井潤一 NLP2007 (2007-03-20)
  • 2. 本発表の概要 N-gram言語モデル向けの 教師なし単語分割法を提案  本研究が対象としている単語分割の説明  提案手法の概要  結果:形態素解析による分割を改善すること に成功 2
  • 3. 背景 目的: 言語モデル性能の向上 音声認識候補の 順位付け 生 単語ベース 単語分割された コーパ N-gram 文書とクエリの コーパス ス 言語モデル 類似度評価 うまい単語分割ができると、 言語モデルやその応用システムの性能が向上する 3
  • 4. ドメインへの特化 N-gram言語モデルの性能はドメインに敏感 ドメインに特化した単語分割をする既存手法  ドメイン向けに辞書を補充  そのドメインの単語分割済みコーパスで教師あり学習  そのドメインの生コーパスで言語モデルの性能指標を 最適化する教師なし学習 4
  • 5. なぜ教師なし学習か  作業コストが低い 辞書の作成、単語分割済みコーパスが不要  形態素や人間の基準がよいとは限らない 区切りの与え方はドメイン次第  [よろしく][お][願い][し][ます] ?  [よ][ろ][し][く][お][願][い][し][ま][す] ?  [よろしくお願いします] ? 5
  • 6. 提案手法(学習) 仮の単語分割済み コーパス (最初は文字分割など) 1. 隣接して現れる2単語の対のうち、 ある指標(コーパスの記述長)の減少幅が最大の 組を連結する 改良された 2. 連結されたものを1単語とみなして、 単語分割済み 同じ手続きを繰り返す コーパス 3. 1.で減少する候補がなくなったら終了 4. 連結した単語対を連結した順に出力する 6
  • 7. 何を最適化するか N-gram パープレキシティ N-gram 符号化による記述長 (提案)  言語モデルの性能指  パープレキシティ+辞 標そのもの 書の符号長  N=1の場合のみしか  N=2の場合の実用的な 実現されていない 計算が可能になった  この基準のみでは、 過学習に陥る  指標自身が過学習を防 いでいる 7
  • 8. 記述長の定義 記述長は コーパスの符号長 と 辞書の符号長 の和 コーパスの符号長 #w 1 w 2  − ∑ ∑ #w 1 w 2 log #w 1  w1 ∈辞書 w 2 ∈辞書 辞書の符号長 #辞書中の c − ∑ ∑ log 語彙数 w ∈辞書 c∈w 8
  • 9. 1ステップあたりの計算量 素朴な方法 全単語対に対して、連結後の記述長を再計算する → O(延べ単語数x語彙数2) 我々の方法 全単語対に対して、記述長の差分を計算する 1つの単語対についての差分の計算は O(語彙数) で済む → O(延べ単語数+語彙数x語彙数2) 9
  • 10. 提案手法(適用) 基本的には 学習で出力された連結手順をそのまま再現する 予備実験の結果 連結手順すべてを適用すると、 連結が起こりすぎて言語モデルの性能が悪化 ヘルドアウトデータを用いて 最適な連結数を決定する 10
  • 15. 実験  対話音声書き起こし文(約25万字)を使用 言語モデルの訓練  ヘルドアウト  評価 19 : 1 :  1  次を比較  形態素解析(MeCab)による分割  文字を初期分割にした提案手法  MeCabを初期分割にした提案手法  2-gram言語モデルの文字あたりパープレキシ ティで性能を評価 15
  • 16. 結果 文字当たりパープレキシティ 提案手法 (文字) 提案手法 (形態素) 形態素解析 連結数 16
  • 17. 結果 文字当たりパープレキシティ 提案手法  (文字) 提案手法(形態素)は形態素解析の分割を改善した  ヘルドアウトにより最適値をほぼ予測できた 提案手法 (形態素) 形態素解析 連結数 17
  • 18. まとめ  2-gramパープレキシティを近似的に最適化す る教師なし単語分割の手法を提案した  文字当たりパープレキシティの観点で形態素解 析による分割を改善した 今後の課題  言語モデルの応用システムの性能の点でも本手 法が有効かどうかを調べる  3-gram、およびそれ以上への手法の拡張 18