Submit Search
解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION
0 likes
473 views
E
emonosuke
INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION
Engineering
Read more
1 of 4
Download now
Download to read offline
1
2
3
4
More Related Content
PDF
DSLを学ぶ - 設定式によるルールの表現を試す -
kumamidori
PDF
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
PDF
Interspeech2022 参加報告
Yuki Saito
PDF
Extract and edit
禎晃 山崎
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
DSLを学ぶ - 設定式によるルールの表現を試す -
kumamidori
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Interspeech2022 参加報告
Yuki Saito
Extract and edit
禎晃 山崎
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
Similar to 解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION
(20)
PDF
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
PDF
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
PDF
音声認識と深層学習
Preferred Networks
PDF
Supervised Learning of Universal Sentence Representations from Natural Langua...
Naoaki Okazaki
PDF
Non-autoregressive text generation
nlab_utokyo
PPTX
音声認識における言語モデル
KOTARO SETOYAMA
PPTX
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
PDF
Memory-augmented Neural Machine Translation
Satoru Katsumata
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
PPTX
解説 - Factorized Neural Transducer for Efficient Language Model Adaptation
Hayato Futami
PPTX
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
PDF
ACL2019参加報告@テキストアナリティクスシンポジウム
Tomoya Mizumoto
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
PDF
EMNLP2018 Overview
Takahiro Kubo
PPTX
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
Kazutoshi Shinoda
PDF
ICASSP読み会2020
Yuki Saito
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
Hitomi Yanaka
PDF
INTERSPEECH2022yomi.pdf
Hayato Futami
PPT
ACLreading2014@Ace12358
Ace12358
ICASSP2017読み会 (acoustic modeling and adaptation)
Shinnosuke Takamichi
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
音声認識と深層学習
Preferred Networks
Supervised Learning of Universal Sentence Representations from Natural Langua...
Naoaki Okazaki
Non-autoregressive text generation
nlab_utokyo
音声認識における言語モデル
KOTARO SETOYAMA
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
Memory-augmented Neural Machine Translation
Satoru Katsumata
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
解説 - Factorized Neural Transducer for Efficient Language Model Adaptation
Hayato Futami
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
ACL2019参加報告@テキストアナリティクスシンポジウム
Tomoya Mizumoto
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
EMNLP2018 Overview
Takahiro Kubo
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
Kazutoshi Shinoda
ICASSP読み会2020
Yuki Saito
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
Hitomi Yanaka
INTERSPEECH2022yomi.pdf
Hayato Futami
ACLreading2014@Ace12358
Ace12358
Ad
解説 - INTERNAL LANGUAGE MODEL TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION
1.
INTERNAL LANGUAGE MODEL
TRAINING FOR DOMAIN-ADAPTIVE END-TO-END SPEECH RECOGNITION [Zhong Meng et al. Microsoft Corp. ICASSP2021] GitHub @emonosuke
2.
研究背景 言語モデルを用いた End-to-End 音声認識のドメイン適応. Shallow
Fusion Density Ratio [McDermott, 2019] を推論時に探索.
3.
提案法: Internal LM
Training (ILMT) Internal LM Estimation (ILME) [Meng, SLT2021] Internal LM Training (ILMT) [Meng, proposed in this paper] Density Ratio における End-to-End 音声認識では音響モデル (AM) と言語モデル (LM) は不可分. は AED では context vector を 0 にすることで得る. (RNN-T でも Encoder 出力の無視で得られる .) 従来のEnd-to-End 音声認識モデルの損失関数に Internal LM の損失関数を加え学習. を推論時に探索. “Internal LM” ASRだけでなくInternal LM単体 としても機能させる
4.
評価実験 音声認識: Microsoft Service
Data (30K hours) , 言語モデル: Librispeech text (800M words) で学習. → Librispeech clean test で評価. (= Cross-Domain Evaluation) (Source) (Target) 提案法 (ILMT) あり 提案法 (ILMT) なし ● Internal LM Training (ILMT) によって LMなし でも Internal LM (AED Decoder) の Perplexity が 796→46.1. + WER も 14.6%改善. ● AED だけでなく RNN-T でも同様の改善(元論文参照) ● ILMT の有無にかかわらず , WER 改善は Internal LM Estimation (ILME) > Density Ratio > Shallow Fusion. ● ILME(ILMTあり)は LM なしと比較して WER 57.6% ILME(ILMTなし)と比較して WER 25.1%改善. ILME(ILMTあり)は LMなしと比較して WER 40.9%, ILME(ILMTなし)と比較して WER 16.7%改善.
Download