Reducing the Impact of Data Sparsity in
Statistical Machine Translation
長岡技術科学大学 自然言語処理研究室
高橋寛治
Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore,
Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on
Syntax, Semantics and Structure in Statistical Translation, pages
51–56, October 25, 2014, Doha, Qatar.
文献紹介 2016年6月3日
概要
•形態論情報が豊富な言語の翻訳には大量のコーパ
スが必用
•大規模コーパスに代替する方法
ØRNNベースの言語モデルの利用
ØWordNetで内容語のスパースさの軽減
•SMTの性能の向上
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
はじめに
•SMTのモデルの良さはコーパスのサイズに依存
Ø言語モデル、ディストーションモデル
•同コーパス規模での性能向上
ØRNNベースの言語モデルでPBSMTの出力を利ランキ
ング
ØWordNetのSynsetでOOVによる訳質の問題を改善
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
関連研究
• MTにおける再ランキングは翻訳のn-bestの再スコア
付け
ØDungarwalら2014は再ランキング
ØMikolovら2010, Liuら2014 RNNLMにより音声認識の
精度を向上
• MTへの統合
ØRazmaraら2013, Cohnら2007はフレーズのカバレッジ
を知識の結合により強化
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
ベースライン
• ICLIコーパス(英語-ヒンディー語)
Øトレーニング:48970文
Øテスト:500文、デベロップメント:500文
• 言語モデル作成のためのコーパスはWMT14
• フレーズベースの統計的機械翻訳
ØMoses
ØGIZA++
ØSRILM
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
英語の語順並び替え
•スタンフォードパーサーを用いて規則に基づいて
並び替え
ØInput: the girl in blue shirt is my sister.
ØOutput: in blue shirt the girl is my sister.
ØHindi: neele shirt waali ladki meri bahen
hai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)
•BLEU: 20.04->21.84
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
1.再ランキング
•関連研究に習い、RNNLMの素性を選択
Ø原形、品詞、number-case
ØヒンディーWikipediaの50万文を用いて学習
•RNNLMによりリランキング
ØPBSMTのN-bestをRNNLMでリランキング
Ø素性による変化
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
2.WordNetを用いた
データスパースネス問題の軽減
•OOVに対してSynsetIDの置換により対応
Ø原言語側
•置換する為には語義の選定が必用
Ø語義選定は(Tammewarら2013)を参考
•固有表現は対象外とした
Ø同義語を持たないと考えた
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
語義選定
•単一
Ø品詞タグが対応する語が所属するSynsetで始めに見
つかったもの(頻度順に並んでいるらしい)
•結合
Ø品詞タグが同一の語が所属するSynsetすべて
Ø共通する親を利用
ØTravel go
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
機械翻訳モデルへの結合
•MANYを利用(Eng(synset)-HindiとBaseline)
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
実験結果
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	Translation
OOVについて
• NE:固有表現
• VB:動詞
• NN:名詞・代名詞
• ADJ:形容詞
• AD:副詞
• OTH:英語で意味を持
たない語
• SM:スペルミス
Reducing	the	Impact	of	Data	Sparsity	in	Statistical	Machine	
Translation

More Related Content

PDF
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
PPTX
[DL輪読会]It's not just size that maters small language models are also few sho...
PPTX
Moda e estilo completo
PPT
Abc da moda
PDF
Boletín apepa junio 16
ODT
¡Qué divertido una aplicación nuevo!
PPTX
Fotografos sensuais
PPTX
Fotógrafos Ambientais
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
[DL輪読会]It's not just size that maters small language models are also few sho...
Moda e estilo completo
Abc da moda
Boletín apepa junio 16
¡Qué divertido una aplicación nuevo!
Fotografos sensuais
Fotógrafos Ambientais

Viewers also liked (9)

PDF
Planning and Optimizing Data Lake Architecture - Milos Milovanovic
PPTX
Apache Spark and Online Analytics
PDF
알파고 해부하기 3부
PDF
Do swift: Swift 무작정 해보기
PDF
単語・句の分散表現の学習
PDF
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
PDF
Airstream: Spark Streaming At Airbnb
PDF
Imitation Learning for Autonomous Driving in TORCS
PDF
IIBMP2016 深層生成モデルによる表現学習
Planning and Optimizing Data Lake Architecture - Milos Milovanovic
Apache Spark and Online Analytics
알파고 해부하기 3부
Do swift: Swift 무작정 해보기
単語・句の分散表現の学習
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Airstream: Spark Streaming At Airbnb
Imitation Learning for Autonomous Driving in TORCS
IIBMP2016 深層生成モデルによる表現学習
Ad

More from Kanji Takahashi (20)

PDF
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
PDF
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
PDF
論文読み会 Enriching Word Vectors with Subword Information
PDF
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
PDF
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
PPTX
言語処理学会第23回年次大会参加報告
PDF
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
PDF
20161215Neural Machine Translation of Rare Words with Subword Units
PDF
Enriching Morphologically Poor Languages for Statistical Machine Translation
PDF
A Beam-Search Decoder for Normalization of Social Media Text with Application...
PDF
文献紹介:Morphological analysis for Statistical Machine Translation
PDF
Distributed Representations of Words and Phrases and their Compositionally
PDF
Nlp2016参加報告(高橋)
PDF
Domain-spesific Paraphrase Extraction
PDF
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
PDF
Improving vietnamese word segmentation and pos tagging using MEM with various...
PDF
日本語機能表現の自動検出と統計的係り受け解析への応用
PDF
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
PDF
20150728So similar and yet incompatible: Toward automated identification of s...
PDF
20150701 Improving SMT quality with morpho-syntactic analysis
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Enriching Word Vectors with Subword Information
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
言語処理学会第23回年次大会参加報告
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20161215Neural Machine Translation of Rare Words with Subword Units
Enriching Morphologically Poor Languages for Statistical Machine Translation
A Beam-Search Decoder for Normalization of Social Media Text with Application...
文献紹介:Morphological analysis for Statistical Machine Translation
Distributed Representations of Words and Phrases and their Compositionally
Nlp2016参加報告(高橋)
Domain-spesific Paraphrase Extraction
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Improving vietnamese word segmentation and pos tagging using MEM with various...
日本語機能表現の自動検出と統計的係り受け解析への応用
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150728So similar and yet incompatible: Toward automated identification of s...
20150701 Improving SMT quality with morpho-syntactic analysis
Ad

Reducing the Impact of Data Sparsity in Statistical Machine Translation