Submit Search
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
0 likes
1,232 views
Shinnosuke Takamichi
日本音響学会 2020年 春季研究発表会 1-2-4
Technology
Read more
1 of 17
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
More Related Content
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
PDF
Saito19asj_s
Yuki Saito
PDF
Saito20asj_autumn
Yuki Saito
PDF
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
PDF
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
PDF
Saito18sp03
Yuki Saito
PDF
Saito19asjAutumn_DeNA
Yuki Saito
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
Saito19asj_s
Yuki Saito
Saito20asj_autumn
Yuki Saito
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
Saito18sp03
Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
What's hot
(15)
PDF
miyoshi17sp07
Yuki Saito
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
PDF
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
PDF
saito2017asj_vc
Yuki Saito
PDF
Saito17asjA
Yuki Saito
PDF
Nakai22sp03 presentation
Yuki Saito
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
PDF
音情報処理における特徴表現
NU_I_TODALAB
PDF
ICASSP読み会2020
Yuki Saito
ODP
音声認識の基礎
Akinori Ito
PDF
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
PPT
[FUNAI輪講] BERT
Takanori Ebihara
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
miyoshi17sp07
Yuki Saito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
saito2017asj_vc
Yuki Saito
Saito17asjA
Yuki Saito
Nakai22sp03 presentation
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
音情報処理における特徴表現
NU_I_TODALAB
ICASSP読み会2020
Yuki Saito
音声認識の基礎
Akinori Ito
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
[FUNAI輪講] BERT
Takanori Ebihara
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Ad
Similar to 音響モデル尤度に基づくsubword分割の韻律推定精度における評価
(16)
PDF
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
浩気 西山
PPTX
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
PDF
Neural text-to-speech and voice conversion
Yuki Saito
PDF
音声認識と深層学習
Preferred Networks
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
PDF
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Kentaro Tachibana
PDF
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
PPTX
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
PPTX
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
PDF
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
PDF
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
PDF
miyoshi2017asj
Yuki Saito
PPTX
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
PDF
Interspeech2022 参加報告
Yuki Saito
PPTX
全体セミナーWfst
Jiro Nishitoba
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
浩気 西山
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
Yusuke Oda
Neural text-to-speech and voice conversion
Yuki Saito
音声認識と深層学習
Preferred Networks
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Kentaro Tachibana
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
miyoshi2017asj
Yuki Saito
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
Interspeech2022 参加報告
Yuki Saito
全体セミナーWfst
Jiro Nishitoba
Ad
More from Shinnosuke Takamichi
(20)
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
PDF
統計的ボイチェン研究事情
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
統計的ボイチェン研究事情
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
1.
音響モデル尤度に基づくsubword分割の 韻律推定精度における評価 東京大学大学院情報理工学系研究科 ☆阿曽 真至 高道
慎之介 高宗 典玄 猿渡 洋 日本音響学会 2020年 春季研究発表会 1-2-4
2.
/162 研究背景・問題設定 タスク:韻律コンテキスト抽出を用いた音声合成 – Seq2Seqモデル
[Wang+17] により,文字のみの入力で合成可能 – 日本語など特定言語の音声合成では,アクセント情報などが必要 – 従来法 [Akiyama+18] ではパラレルデータから韻律コンテキスト抽出 問題設定:韻律コンテキスト抽出に最適な入力言語単位とは? Accentual information 従来法 [Akiyama+18] 東京都に住む Text Speech Language units ?? ?? F0 seq. Prosodic context アクセント情報を用いた 音声合成 東京都に住む Text Speech
3.
/16 入力言語単位の影響と subword 単位の分割 3
入力言語単位の影響 – 文字単位:F0を捉えることが困難 – 単語単位:言語知識が必要,未知語・低頻出単語が発生しやすい Subword (部分文字列) 単位の分割 [Akiyama+18] – 文字単位や単語単位の問題点を緩和 – 韻律推定にも関わらず言語モデル尤度に基づく subword 分割 [Kudo18] 東京オリンピック 東京 オリンピック東京 オリン ピック F0 seq. Character level (e.g. original Tacotron) Word levelSubword level Capture suprasegmental feats? Avoid sparsity problem? No. Yes. Yes. No. “東京オリンピック” DNN Input text DNN DNN F0 seq. F0 seq.
4.
/16 発表概要 従来法の韻律コンテキスト抽出の問題点 [Akiyama+18] –
言語モデル に基づく subword 分割を使用 – 言語モデル尤度=単語の出現頻度 – 高い音響モデル尤度を目的とする韻律コンテキスト抽出と矛盾 提案法の韻律コンテキスト抽出 – 以前の研究 [Aso+19] で,音響モデルに基づく subword 分割を提案 – 音響モデル尤度=韻律の予測精度 – 高い音響モデル尤度を目的とする韻律コンテキスト抽出と合致 – Subword 分割モデルの中間層を韻律コンテキストとして使用可 実験結果 – 提案法の subword 分割による合成音声の音質の改善 4 EM: expectation-maximization DNN: deep neural network
5.
/165 言語モデル – Subword
の出現頻度 を出力確率とするHMM 言語モデルに基づく学習・分割 – 学習: 言語モデル尤度を最大化する, と を推定 – 分割: 言語モデルに基づき,尤もらしい subword 分割を推定 [Kudo18] 言語モデルに基づく subword 分割 Subword Sentence Segmentation candidate 京 都 に 京都 東京 住む 東 住 む 東 京都住 に む東京 Subword vocab. Unigram prob. 従来法 HMM: hidden Markov model
6.
/16 BLSTMによる 韻律コンテキスト抽出 2 層のBLSTMの間の中間層を抽出 6 従来法 [Akiyama+18] F0
envelope F0 seq. Sentence 都 に東京 住 むSubword seq. Bottleneck features BLSTM BLSTM Prosodic context BLSTM: bi-directional long short-term memory Lang. model-based subword tokenization
7.
/16 従来法の問題点と提案法のアプローチ 従来法の問題点 – 言語モデル尤度を最大化する分割を用いて韻律コンテキスト抽出 7 Lang.
model-based subword tokenization 東 京 都 に 住 む F0 seq. Subword seq. Sentence Acoust. model-based context extraction [Akiyama +18] Prosodic context に 住む東京 都
8.
/16 従来法の問題点と提案法のアプローチ 従来法の問題点 – 言語モデル尤度を最大化する分割を用いて韻律コンテキスト抽出
提案法のアプローチ – 音響モデル尤度を最大化する分割を用いて韻律コンテキスト抽出 8 東京都に 住む Acoust. model-based subword tokenization Proposed 東 京 都 に 住 む Subword seq. Sentence Prosodic context Lang. model-based subword tokenization Conventional 東 京 都 に 住 む F0 seq. Subword seq. Sentence Acoust. model-based context extraction [Akiyama +18] Prosodic context に 住む東京 都
9.
提案法 音響モデルに基づく subword 分割による 韻律コンテキスト抽出
10.
/16 音響モデルに基づく subword 分割 10 音響モデル –
パラメータ を持つ韻律推定DNNの推定誤差を利用 音響モデルに基づく学習・分割 – 学習:音響モデル尤度を最大化する, と を推定 – 分割:音響モデルに基づき,尤もらしい subword 分割を推定 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab. [Aso+19]
11.
/16 Subword 分割モデル DNN-HMM 11 隠れ変数を
,出力確率 を以下の確率とするHMM 音響モデル尤度 – 出力確率を用い表される が与えられた下での の尤度 Subword Sentence Segmentation candidate F0 envelope F0 seq. 京 都 に 京都 東京 住む 東 住 む DNN 東 京都住 に む東京 Subword vocab. 分散共分散行列正規分布 [Aso+19]
12.
/16 DNN-HMMによる 韻律コンテキスト抽出 12 京 都 に 京都 東京
住む F0 envelope DNN F0 seq. 東 住 む Prosodic context Subword Sentence Tokenization candidate 東 京都住 に む東京 Subword Vocab. 学習済みの subword 分割のDNN音響モデルの中間層を抽出 – ただし,音響モデルに基づく subword 分割と,BLSTMによる韻律 コンテキスト抽出を組み合わせることもできる
13.
実験的評価
14.
/1614 実験条件 項目 値/設定 日本語コーパス JSUT
[Sonobe+17], JNAS [Ito+99] 学習/テストデータ 18,905 文/2,101 文 DNNの構成 Feed-Forward (see our paper.) F0 の包絡成分 64 点にリサンプリングした後,離散コサ イン変換の 1 次から 10 次までの成分を 抽出 [Ijima+17] Subword vocab. の初期値 Enhanced suffix array [Abouelhoda+04] によ り作られた13,585 語の subword 最終的な vocab. size 4,000 語のsubword 言語モデル Sentencepiece [Kudo18] EMアルゴリズムの 反復回数 30 回 M-step Mini-batch 学習 (サイズ: 1,000 文), 30 回
15.
/16 合成音声の客観評価 15 Subword 分割 音響モデル (提案法) 言語モデル [Kudo18] 音響モデル (提案法) 韻律コンテキスト 抽出 DNN-HMM (提案法) BLSTM [Akiyama+18] BLSTM [Akiyama+18] RMSE 0.755 0.734
0.731 RMSE (root mean squared error) を比較 – 一文ごとにRMSEを求め,さらにテストデータ全体で平均 – Subword 分割として,言語モデルと音響モデルを比較 – 韻律コンテキスト抽出として,DNN-HMMとBLSTMを比較 – 音響モデル尤度に基づく subword 分割は音響モデル尤度を最大化 実験 GoodBad 提案法の subword 分割によるRMSEの改善を確認
16.
/1616 プリファレンスABテストにより比較 – 韻律コンテキスト抽出はRMSEの良かったBLSTMによる手法 –
「どちらがイントネーションの自然か」について質問 – クラウドソーシングで,評価者数は 200 名 – 有意水準は 0.05 % 実験 手法 A Scores 𝑝- value 手法 B Subword 分割 言語モデル [Kudo18] 0.484 vs. 0.517 0.037 音響モデル (提案法) 韻律コンテキスト 抽出 BLSTM [Akiyama+18] BLSTM [Akiyama+18] 合成音声の主観評価 GoodBad イントネーションの自然性の改善を確認
17.
/1617 まとめ 背景 – 最適な言語単位を入力として,専門的な言語知識を用いず, 韻律コンテキスト抽出を行いたい
提案法 – 音響モデルに基づく subword 分割による韻律コンテキスト抽出 – 学習済みDNN-HMMの中間層を用いた韻律コンテキスト抽出を提案 – ただし,BLSTMによる韻律コンテキスト抽出 [Akiyama+18] と音響モ デルに基づく subword 分割 [Aso+19] を組み合わせることも可能 結果 – 合成音声を用いた客観・主観評価では,DNN-HMMによる韻律コン テキスト抽出の効果は見られなかった – 一方, BLSTMによる韻律コンテキスト抽出 [Akiyama+18] において, 音響モデル尤度に基づく subword 分割の効果を確認
Download