Submit Search
Segmenting Sponteneous Japanese using MDL principle
1 like
676 views
Yusuke Matsubara
1 of 18
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
More Related Content
PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
PPTX
Signl213
Kei Uchiumi
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
PDF
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
PPTX
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
PPTX
Distributed Representations of Sentences and Documents
sakaizawa
PDF
読解支援@2015 06-05
sekizawayuuki
PDF
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
Signl213
Kei Uchiumi
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
Distributed Representations of Sentences and Documents
sakaizawa
読解支援@2015 06-05
sekizawayuuki
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
What's hot
(19)
PDF
Reusing weights in subword aware neural language models
広樹 本間
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
PDF
Acl yomikai, 1016, 20110903
Yo Ehara
PDF
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
PDF
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
PPTX
東北弁発表
Eiji Tomida
PPTX
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
Makoto Takenaka
PDF
Saito20asj_autumn
Yuki Saito
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
PPTX
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Makoto Takenaka
PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
PDF
nl190segment
Hiroshi Ono
PDF
機械翻訳の今昔物語
Hiroshi Nakagawa
PPTX
Deep neural models of semantic shift
Makoto Takenaka
PDF
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
Shohei Okada
PPTX
Paper: seq2seq 20190320
Yusuke Fujimoto
PDF
形容詞と意味フレームの係わり方について
Kow Kuroda
PDF
鬱くしい日本語のための形態素解析入門
Hiroyoshi Komatsu
Reusing weights in subword aware neural language models
広樹 本間
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
Acl yomikai, 1016, 20110903
Yo Ehara
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
東北弁発表
Eiji Tomida
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
Makoto Takenaka
Saito20asj_autumn
Yuki Saito
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Makoto Takenaka
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
nl190segment
Hiroshi Ono
機械翻訳の今昔物語
Hiroshi Nakagawa
Deep neural models of semantic shift
Makoto Takenaka
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
Shohei Okada
Paper: seq2seq 20190320
Yusuke Fujimoto
形容詞と意味フレームの係わり方について
Kow Kuroda
鬱くしい日本語のための形態素解析入門
Hiroyoshi Komatsu
Ad
Viewers also liked
(20)
PDF
エクストリームエンジニア2
T-arts
PPTX
20150817 sss2015
S_Kojima
PPTX
中途入社者からのご提案
Reika Hayashi
PDF
091021 Kyoso Forum Doi
KyosoYokohama
PPTX
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
Nobuyuki Nakata
PDF
Rocketstaff tstoreサービス支援資料
YounngWook kou
PDF
01_garden for_life
palgreen_slide
PPTX
高速な挿入と検索が可能なSkip Graphの改良
Kota Abe
PPTX
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
Shuntaro Okamoto
PDF
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
PDF
Moodle Moot 2014 LT資料
Yoshikazu Asada
PPTX
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
Nobuyuki Nakata
PPTX
NHN HTML5勉強会 サービス開発
nhn_hangame
PPTX
【防衛省・自衛隊御中】SEO提案
Ko Abe
PPTX
第12回
rbgri
PPTX
新しい強化ミーティングの提案
岡山大学漕艇部
PDF
コンサルタントが明かす 仮想化提案のすべて
VirtualTech Japan Inc.
PDF
提案に役に立つ情報 (teianlab 勉強会)
MKT International Inc.
PPTX
ロジカルプレゼンテーション
Aya Kaino
PPTX
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
Hiroya Nagao
エクストリームエンジニア2
T-arts
20150817 sss2015
S_Kojima
中途入社者からのご提案
Reika Hayashi
091021 Kyoso Forum Doi
KyosoYokohama
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
Nobuyuki Nakata
Rocketstaff tstoreサービス支援資料
YounngWook kou
01_garden for_life
palgreen_slide
高速な挿入と検索が可能なSkip Graphの改良
Kota Abe
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
Shuntaro Okamoto
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
Moodle Moot 2014 LT資料
Yoshikazu Asada
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
Nobuyuki Nakata
NHN HTML5勉強会 サービス開発
nhn_hangame
【防衛省・自衛隊御中】SEO提案
Ko Abe
第12回
rbgri
新しい強化ミーティングの提案
岡山大学漕艇部
コンサルタントが明かす 仮想化提案のすべて
VirtualTech Japan Inc.
提案に役に立つ情報 (teianlab 勉強会)
MKT International Inc.
ロジカルプレゼンテーション
Aya Kaino
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
Hiroya Nagao
Ad
Similar to Segmenting Sponteneous Japanese using MDL principle
(20)
PDF
言語資源と付き合う
Yuya Unno
PDF
形態素解析の過去・現在・未来
Preferred Networks
PPT
Sotsuken final
Kyohei Hamada
PPTX
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
PDF
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
Akira Taniguchi
PDF
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
PDF
テキスト情報と画像情報を組み合わせた論理推論システムの構築
rikos3
PDF
Ism npblm-20120315
隆浩 安
PPTX
符号なしベトナム語
長岡技術科学大学 自然言語処理研究室
PDF
Dsirnlp#7
Kei Uchiumi
PDF
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
PDF
100816 nlpml sec2
shirakia
PPTX
Coling読み会スライド
lkjjkl
PDF
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
PDF
I
SOINN Inc.
PDF
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kow Kuroda
PDF
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
PDF
やさしい日本語言い換えシステムを支える技術
Eric Sartre
PDF
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
Yuto Takei
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
言語資源と付き合う
Yuya Unno
形態素解析の過去・現在・未来
Preferred Networks
Sotsuken final
Kyohei Hamada
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
Akira Taniguchi
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
テキスト情報と画像情報を組み合わせた論理推論システムの構築
rikos3
Ism npblm-20120315
隆浩 安
符号なしベトナム語
長岡技術科学大学 自然言語処理研究室
Dsirnlp#7
Kei Uchiumi
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
100816 nlpml sec2
shirakia
Coling読み会スライド
lkjjkl
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
I
SOINN Inc.
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kow Kuroda
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
やさしい日本語言い換えシステムを支える技術
Eric Sartre
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
Yuto Takei
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
Segmenting Sponteneous Japanese using MDL principle
1.
最小記述長原理に基づいた 日本語話し言葉の単語分割
東京大学大学院 松原勇介 豊橋技術科学大学 秋葉友良 東京大学/Univ. of Manchester/NaCTeM 辻井潤一 NLP2007 (2007-03-20)
2.
本発表の概要
N-gram言語モデル向けの 教師なし単語分割法を提案 本研究が対象としている単語分割の説明 提案手法の概要 結果:形態素解析による分割を改善すること に成功 2
3.
背景
目的: 言語モデル性能の向上 音声認識候補の 順位付け 生 単語ベース 単語分割された コーパ N-gram 文書とクエリの コーパス ス 言語モデル 類似度評価 うまい単語分割ができると、 言語モデルやその応用システムの性能が向上する 3
4.
ドメインへの特化 N-gram言語モデルの性能はドメインに敏感 ドメインに特化した単語分割をする既存手法
ドメイン向けに辞書を補充 そのドメインの単語分割済みコーパスで教師あり学習 そのドメインの生コーパスで言語モデルの性能指標を 最適化する教師なし学習 4
5.
なぜ教師なし学習か
作業コストが低い 辞書の作成、単語分割済みコーパスが不要 形態素や人間の基準がよいとは限らない 区切りの与え方はドメイン次第 [よろしく][お][願い][し][ます] ? [よ][ろ][し][く][お][願][い][し][ま][す] ? [よろしくお願いします] ? 5
6.
提案手法(学習)
仮の単語分割済み コーパス (最初は文字分割など) 1. 隣接して現れる2単語の対のうち、 ある指標(コーパスの記述長)の減少幅が最大の 組を連結する 改良された 2. 連結されたものを1単語とみなして、 単語分割済み 同じ手続きを繰り返す コーパス 3. 1.で減少する候補がなくなったら終了 4. 連結した単語対を連結した順に出力する 6
7.
何を最適化するか N-gram パープレキシティ
N-gram 符号化による記述長 (提案) 言語モデルの性能指 パープレキシティ+辞 標そのもの 書の符号長 N=1の場合のみしか N=2の場合の実用的な 実現されていない 計算が可能になった この基準のみでは、 過学習に陥る 指標自身が過学習を防 いでいる 7
8.
記述長の定義 記述長は コーパスの符号長 と
辞書の符号長 の和 コーパスの符号長 #w 1 w 2 − ∑ ∑ #w 1 w 2 log #w 1 w1 ∈辞書 w 2 ∈辞書 辞書の符号長 #辞書中の c − ∑ ∑ log 語彙数 w ∈辞書 c∈w 8
9.
1ステップあたりの計算量 素朴な方法 全単語対に対して、連結後の記述長を再計算する
→ O(延べ単語数x語彙数2) 我々の方法 全単語対に対して、記述長の差分を計算する 1つの単語対についての差分の計算は O(語彙数) で済む → O(延べ単語数+語彙数x語彙数2) 9
10.
提案手法(適用) 基本的には
学習で出力された連結手順をそのまま再現する 予備実験の結果 連結手順すべてを適用すると、 連結が起こりすぎて言語モデルの性能が悪化 ヘルドアウトデータを用いて 最適な連結数を決定する 10
11.
動作例(初期分割:文字)
11
12.
動作例(10ステップ後)
12
13.
動作例(100ステップ後)
13
14.
動作例(1000ステップ後)
14
15.
実験
対話音声書き起こし文(約25万字)を使用 言語モデルの訓練 ヘルドアウト 評価 19 : 1 : 1 次を比較 形態素解析(MeCab)による分割 文字を初期分割にした提案手法 MeCabを初期分割にした提案手法 2-gram言語モデルの文字あたりパープレキシ ティで性能を評価 15
16.
結果 文字当たりパープレキシティ
提案手法 (文字) 提案手法 (形態素) 形態素解析 連結数 16
17.
結果 文字当たりパープレキシティ
提案手法 (文字) 提案手法(形態素)は形態素解析の分割を改善した ヘルドアウトにより最適値をほぼ予測できた 提案手法 (形態素) 形態素解析 連結数 17
18.
まとめ
2-gramパープレキシティを近似的に最適化す る教師なし単語分割の手法を提案した 文字当たりパープレキシティの観点で形態素解 析による分割を改善した 今後の課題 言語モデルの応用システムの性能の点でも本手 法が有効かどうかを調べる 3-gram、およびそれ以上への手法の拡張 18
Download