Submit Search
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
1 like
722 views
Shinnosuke Takamichi
日本音響学会 019年 秋季研究発表会 1-4-7
Technology
Read more
1 of 23
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
More Related Content
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
PDF
Saito19asj_s
Yuki Saito
PDF
Saito20asj_autumn
Yuki Saito
PDF
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
PDF
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
PDF
Saito18sp03
Yuki Saito
PDF
Saito19asjAutumn_DeNA
Yuki Saito
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
Saito19asj_s
Yuki Saito
Saito20asj_autumn
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
Saito18sp03
Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
What's hot
(13)
PDF
miyoshi17sp07
Yuki Saito
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
PDF
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
PDF
saito2017asj_vc
Yuki Saito
PDF
Saito17asjA
Yuki Saito
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
PDF
Nakai22sp03 presentation
Yuki Saito
PDF
音情報処理における特徴表現
NU_I_TODALAB
PDF
ICASSP読み会2020
Yuki Saito
ODP
音声認識の基礎
Akinori Ito
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
miyoshi17sp07
Yuki Saito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_vc
Yuki Saito
Saito17asjA
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Nakai22sp03 presentation
Yuki Saito
音情報処理における特徴表現
NU_I_TODALAB
ICASSP読み会2020
Yuki Saito
音声認識の基礎
Akinori Ito
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Ad
More from Shinnosuke Takamichi
(20)
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
PDF
統計的ボイチェン研究事情
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
統計的ボイチェン研究事情
Shinnosuke Takamichi
Ad
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
1.
End-to-end 韻律推定に向けた DNN音響モデルに基づく subword
分割 東京大学大学院情報理工学系研究科 ☆阿曽 真至 高道 慎之介 高宗 典玄 猿渡 洋 日本音響学会 2019年 秋季研究発表会 1-4-7
2.
/202 研究背景・問題設定 タスク:テキスト音声合成のための end-to-end
韻律推定 – 中間表現を用いずにテキストから直接的にF0系列を推定 – アクセントラベル等の言語知識を使わず音声合成が可能 – 前処理としてテキスト分割が必要 問題設定:end-to-end 韻律推定に最適なテキスト分割とは? End-to-end 韻律推定と テキスト処理 Language units Text ?? ?? 東京都に住む東京都に住む Intermediate representation Text F0 seq. 従来の音声合成 F0 seq.
3.
/20 テキスト分割の影響と subword 単位の分割 3
テキスト分割の影響 – 文字単位:F0を捉えることが困難 – 単語単位:未知語・低頻出単語が発生しやすい Subword (部分文字列) 単位の分割 [Akiyama+18] – 文字単位や単語単位の問題点を緩和 – 韻律推定にも関わらず言語モデル尤度に基づく subword 分割 [Kudo18] 東京オリンピック 東京 オリンピック東京 オリン ピック Prosody Character level (e.g. original Tacotron) Word levelSubword level Capture suprasegmental feats? Avoid sparsity problem? No. Yes. Yes. No. “東京オリンピック” Seq2seq DNN Input text Seq2seq DNN Seq2seq DNN Prosody Prosody
4.
/20 発表概要 従来法:言語モデルに基づく subword
分割 – 言語モデル尤度 (subword の出現頻度) に基づく subword 分割は, 韻律推定には最適ではない 提案法:DNN音響モデルに基づく subword 分割 – 音響モデル尤度 (F0系列の推定誤差) に基づく subword 分割は, 韻律推定に最適である – 以前の研究 [阿曽+19] ではEMアルゴリズムによるDNN学習法を提案 – 本研究では subword vocabulary 構築法を提案 実験結果 – 音響モデル尤度の改善を確認 4 EM: expectation-maximization DNN: deep neural network [Kudo18]
5.
/205 言語モデル – Subword
の出現頻度 を利用 言語モデルに基づく学習・分割 – 学習:言語モデル尤度を最大化する, と を推定 – 分割:言語モデルに基づき,尤もらしい subword 分割を推定 [Kudo18] 従来法:言語モデルに基づく subword 分割 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob.
6.
/20 従来法の言語モデル 隠れ変数を ,出力確率を
とするHMM 言語モデル尤度 – 出力確率 を用い表される の尤度 6 HMM: hidden Markov model Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob.
7.
/20 学習ステップ 言語モデル尤度を最大化する, と
を推定 – 十分に大きな seed vocab. を用意 – 以下の二つのステップを が所望のサイズになるまで反復 • パラメータ推定: を固定した下で, の推定 • Subword 削除:推定された を用い, から subword を削除 7 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob.
8.
/20 学習ステップ:パラメータ推定 8 を固定した下で, の推定 –
言語モデル尤度 を最大化するように推定 – EMアルゴリズムを利用可能 • E-stepでは を計算 • M-stepでは を推定 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob.
9.
/20 学習ステップ:subword 削除 9 推定された
を用い, から subword を削除 – Subword を削除した時の言語モデル尤度の損失 を計算 – の計算にはE-stepを利用 – 損失 が小さい subword を削除 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob.
10.
/20 分割ステップ 言語モデルに基づき,尤もらしい分割 を推定 –
は推定された を用いて表される事後確率を最大化 – Viterbi アルゴリズムにより推定 10 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob. Viterbi path
11.
提案法 DNN音響モデルに基づく subword 分割
12.
/20 提案法:音響モデルに基づく subword 分割 12
音響モデル – パラメータ を持つ韻律推定DNNの推定誤差を利用 音響モデルに基づく学習・分割 – 学習:音響モデル尤度を最大化する, と を推定 – 分割:音響モデルに基づき,尤もらしい subword 分割を推定 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab.
13.
/20 提案法の音響モデル [阿曽+19] 13 隠れ変数を
,出力確率 を以下の確率とするHMM 音響モデル尤度 – 出力確率を用い表される が与えられた下での の尤度 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab. 分散共分散行列正規分布
14.
/20 学習ステップ 音響モデル尤度を最大化する, と
を推定 – 十分に大きな seed vocab. を用意 – 以下の二つのステップを が所望のサイズになるまで反復 • パラメータ推定: を固定した下で, の推定 [阿曽+19] • Subword 削除:推定された を用い, から subword を削除 14 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab.
15.
/20 学習ステップ:パラメータ推定 [阿曽+19] 15 を固定した下で,
の推定 – 音響モデル尤度 を最大化するように推定 – EMアルゴリズムを利用可能 • E-stepでは を計算 • M-stepでは を推定 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab.
16.
/20 学習ステップ:subword の削除 16 推定された
を用い, から subword を削除 – Subword を削除した時の音響モデル尤度の損失 を計算 – の計算にはE-stepを利用 – 損失 が小さい subword を削除 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab.
17.
/20 分割ステップ 音響モデルに基づき,尤もらしい分割 を推定 –
は従来法と同様に を用いて表される事後確率を最大化 – Viterbi アルゴリズムにより推定 – として学習データに対する出力確率 の平均を利用 17 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab. Viterbi path
18.
/2018 実験条件 項目 値/設定 日本語コーパス JSUT
[Sonobe+17], JNAS [Ito+99] 学習/テストデータ 18,905 文/2,101 文 DNNの構成 Feed-Forward (see our paper.) F0 の包絡成分 64 点にリサンプリングした後,離散コサ イン変換の 1 次から 10 次までの成分を 抽出 [Ijima+17] Subword vocab. の初期値 Enhanced suffix array [Abouelhoda+04] によ り作られた13,585 語の subword 最終的な vocab. size 4,000 語のsubword 言語モデル Sentencepiece [Kudo18] EMアルゴリズムの 反復回数 30 回 M-step Mini-batch 学習 (サイズ: 1,000 文), 30 回
19.
/20 音響モデル尤度の比較 19 学習手法 パラメータ 推定 言語モデル [Kudo18] 音響モデル (ours) 音響モデル (ours) Subword 削除 言語モデル [Kudo18] 言語モデル [Kudo18] 音響モデル (ours) 学習データ -1145 -1141
-1059 テストデータ -1152 -1131 -1077 音響モデル尤度の改善を確認 異なる方法で学習された, と を用いて音響モデル尤度を比較 – 音響モデル尤度は – 提案法では,音響モデル尤度を最大化するように学習 – パラメータ推定と subword 削除それぞれのステップについて比較 – 一文あたりの音響モデル対数尤度を比較 GoodBad
20.
/2020 まとめと今後の予定 背景 – End-to-end
韻律推定に適した subword 分割を行いたい 提案法 – 音響モデル尤度に基づく subword 分割アルゴリズムの提案 – Subword 削除にも音響モデル尤度を使用 – 音響モデル尤度に基づき subword vocabulary を構築 実験結果 – 音響モデル尤度の改善を確認 今後の予定 – 音声合成における評価
21.
/2021
22.
/20 学習曲線の収束性 [阿曽+19] 22 実験的収束性を確認
23.
/20 Subword の品詞構成の比較 特定の品詞から構成される
subword の個数を比較 – 各モデルにより学習された subword vocab. と出力確率を使用 – テストデータの文を subword 分割 – 品詞は MeCab [Kudo+04] により推定 – Subword vocab. size は 8,000 語 23 音響モデルでは,助詞が他の品詞に結びつきやすい 品詞の構成 言語モデル [Kudo18] 音響モデル 名詞 + 助詞 918 1,142 助詞 + 名詞 1,097 1,454 動詞 + 助詞 1,590 1,941 助詞 + 動詞 1,736 2,108
Download