SlideShare a Scribd company logo
INTERNAL LANGUAGE MODEL TRAINING FOR
DOMAIN-ADAPTIVE END-TO-END SPEECH
RECOGNITION
[Zhong Meng et al. Microsoft Corp. ICASSP2021]
GitHub @emonosuke
研究背景
言語モデルを用いた End-to-End 音声認識のドメイン適応.
Shallow Fusion
Density Ratio [McDermott, 2019]
を推論時に探索.
提案法: Internal LM Training (ILMT)
Internal LM Estimation (ILME) [Meng, SLT2021]
Internal LM Training (ILMT) [Meng, proposed in this paper]
Density Ratio における
End-to-End 音声認識では音響モデル (AM) と言語モデル (LM) は不可分.
は AED では context vector を 0 にすることで得る. (RNN-T でも Encoder 出力の無視で得られる .)
従来のEnd-to-End 音声認識モデルの損失関数に Internal LM の損失関数を加え学習.
を推論時に探索.
“Internal LM”
ASRだけでなくInternal LM単体
としても機能させる
評価実験
音声認識: Microsoft Service Data (30K hours) , 言語モデル: Librispeech text (800M words) で学習.
→ Librispeech clean test で評価. (= Cross-Domain Evaluation)
(Source) (Target)
提案法 (ILMT)
あり
提案法 (ILMT)
なし
● Internal LM Training (ILMT) によって LMなし でも
Internal LM (AED Decoder) の Perplexity が 796→46.1.
+ WER も 14.6%改善.
● AED だけでなく RNN-T でも同様の改善(元論文参照)
● ILMT の有無にかかわらず
, WER 改善は
Internal LM Estimation (ILME) > Density Ratio > Shallow
Fusion.
● ILME(ILMTあり)は LM なしと比較して WER 57.6%
ILME(ILMTなし)と比較して WER 25.1%改善.
ILME(ILMTあり)は LMなしと比較して WER 40.9%, ILME(ILMTなし)と比較して WER 16.7%改善.

More Related Content

PDF
DSLを学ぶ - 設定式によるルールの表現を試す -
PDF
国際会議 interspeech 2020 報告
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PDF
Interspeech2022 参加報告
PDF
Extract and edit
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
DSLを学ぶ - 設定式によるルールの表現を試す -
国際会議 interspeech 2020 報告
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Interspeech2022 参加報告
Extract and edit
音声感情認識の分野動向と実用化に向けたNTTの取り組み
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

Similar to 解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION (20)

PDF
ICASSP2017読み会 (acoustic modeling and adaptation)
PDF
Semantic_Matching_AAAI16_論文紹介
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PDF
音声認識と深層学習
PDF
Supervised Learning of Universal Sentence Representations from Natural Langua...
PDF
Non-autoregressive text generation
PPTX
音声認識における言語モデル
PPTX
Ordered neurons integrating tree structures into recurrent neural networks
PDF
Memory-augmented Neural Machine Translation
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
PPTX
解説 - Factorized Neural Transducer for Efficient Language Model Adaptation
PPTX
[DL輪読会]It's not just size that maters small language models are also few sho...
PDF
ACL2019参加報告@テキストアナリティクスシンポジウム
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
PDF
EMNLP2018 Overview
PPTX
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
PDF
ICASSP読み会2020
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
PDF
INTERSPEECH2022yomi.pdf
PPT
ACLreading2014@Ace12358
ICASSP2017読み会 (acoustic modeling and adaptation)
Semantic_Matching_AAAI16_論文紹介
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
音声認識と深層学習
Supervised Learning of Universal Sentence Representations from Natural Langua...
Non-autoregressive text generation
音声認識における言語モデル
Ordered neurons integrating tree structures into recurrent neural networks
Memory-augmented Neural Machine Translation
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
解説 - Factorized Neural Transducer for Efficient Language Model Adaptation
[DL輪読会]It's not just size that maters small language models are also few sho...
ACL2019参加報告@テキストアナリティクスシンポジウム
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
EMNLP2018 Overview
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
ICASSP読み会2020
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
INTERSPEECH2022yomi.pdf
ACLreading2014@Ace12358
Ad

解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION

  • 1. INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION [Zhong Meng et al. Microsoft Corp. ICASSP2021] GitHub @emonosuke
  • 2. 研究背景 言語モデルを用いた End-to-End 音声認識のドメイン適応. Shallow Fusion Density Ratio [McDermott, 2019] を推論時に探索.
  • 3. 提案法: Internal LM Training (ILMT) Internal LM Estimation (ILME) [Meng, SLT2021] Internal LM Training (ILMT) [Meng, proposed in this paper] Density Ratio における End-to-End 音声認識では音響モデル (AM) と言語モデル (LM) は不可分. は AED では context vector を 0 にすることで得る. (RNN-T でも Encoder 出力の無視で得られる .) 従来のEnd-to-End 音声認識モデルの損失関数に Internal LM の損失関数を加え学習. を推論時に探索. “Internal LM” ASRだけでなくInternal LM単体 としても機能させる
  • 4. 評価実験 音声認識: Microsoft Service Data (30K hours) , 言語モデル: Librispeech text (800M words) で学習. → Librispeech clean test で評価. (= Cross-Domain Evaluation) (Source) (Target) 提案法 (ILMT) あり 提案法 (ILMT) なし ● Internal LM Training (ILMT) によって LMなし でも Internal LM (AED Decoder) の Perplexity が 796→46.1. + WER も 14.6%改善. ● AED だけでなく RNN-T でも同様の改善(元論文参照) ● ILMT の有無にかかわらず , WER 改善は Internal LM Estimation (ILME) > Density Ratio > Shallow Fusion. ● ILME(ILMTあり)は LM なしと比較して WER 57.6% ILME(ILMTなし)と比較して WER 25.1%改善. ILME(ILMTあり)は LMなしと比較して WER 40.9%, ILME(ILMTなし)と比較して WER 16.7%改善.