Submit Search
分布あるいはモーメント間距離最小化に基づく統計的音声合成
7 likes
1,942 views
Shinnosuke Takamichi
ステアラボ人工知能セミナー招待講演 (2018/10/12)
Technology
Read more
1 of 47
Download now
Downloaded 31 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
More Related Content
PDF
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
PDF
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
PDF
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
PPTX
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
PDF
4 データ間の距離と類似度
Seiichi Uchida
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa
PDF
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
4 データ間の距離と類似度
Seiichi Uchida
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
物体検出の歴史(R-CNNからSSD・YOLOまで)
HironoriKanazawa
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
What's hot
(20)
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
PDF
最適輸送入門
joisino
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
PDF
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
PDF
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
PDF
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
PDF
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
PDF
最適輸送の解き方
joisino
PDF
Interspeech2022 参加報告
Yuki Saito
PPTX
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
PDF
ベルヌーイ分布からベータ分布までを関係づける
itoyan110
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
最適輸送入門
joisino
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
Attentionの基礎からTransformerの入門まで
AGIRobots
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
最適輸送の解き方
joisino
Interspeech2022 参加報告
Yuki Saito
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
ベルヌーイ分布からベータ分布までを関係づける
itoyan110
Ad
Similar to 分布あるいはモーメント間距離最小化に基づく統計的音声合成
(20)
PDF
方向統計DNNに基づく振幅スペクトログラムからの位相復元
Shinnosuke Takamichi
PDF
Saito17asjA
Yuki Saito
PDF
Neural text-to-speech and voice conversion
Yuki Saito
PDF
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
PDF
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
NU_I_TODALAB
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
PDF
Slp201702
Yuki Saito
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
PDF
saito2017asj_vc
Yuki Saito
PDF
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
PDF
深層生成モデルによるメディア生成
kame_hirokazu
PDF
ICASSP読み会2020
Yuki Saito
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
PDF
【文献紹介】Predictive regression modeling with MEG
佑友輔 仲井
PDF
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Shinnosuke Takamichi
PDF
Kameoka2012 talk07 1
kame_hirokazu
PDF
Ieice中国地区
nozomuhamada
方向統計DNNに基づく振幅スペクトログラムからの位相復元
Shinnosuke Takamichi
Saito17asjA
Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Slp201702
Yuki Saito
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
saito2017asj_vc
Yuki Saito
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
深層生成モデルによるメディア生成
kame_hirokazu
ICASSP読み会2020
Yuki Saito
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
【文献紹介】Predictive regression modeling with MEG
佑友輔 仲井
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Shinnosuke Takamichi
Kameoka2012 talk07 1
kame_hirokazu
Ieice中国地区
nozomuhamada
Ad
More from Shinnosuke Takamichi
(20)
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
分布あるいはモーメント間距離最小化に基づく統計的音声合成
1.
06/12/2018©Shinnosuke Takamichi, The University
of Tokyo 分布あるいはモーメント間距離最小化に基づく 統計的音声合成 東京大学 助教 高道 慎之介 (@forthshinji) ステアラボ人工知能セミナー招待講演 (2018/10/12)
2.
/47 自己紹介 経歴 – 奈良先端大
博士後期課程 修了 (2016) – 東京大学 助教 (兼担:同大学 DMMラボ連携講座 特任助教) 研究テーマ – 音声合成変換 / speech synthesis, voice conversion – 音声信号処理 / speech signal processing – 音声なりすまし検出 / anti-spoofing – 深層学習 / deep learning – 音声コミュニケーション拡張 / augmented speech communication 2
3.
/47 猿渡・小山研究室 3 猿渡 洋 (教授) ・音メディアシステム ・教師無し最適化 ・統計・機械学習論的 信号処理 特任研究員 高宗さん 秘書
丹治さん 博士課程学生2名 ・音響信号処理 ・音場再生・伝送 (音響ホログラフ) ・スパース信号処理 小山翔一 (講師) 高道慎之介 (助教) ・音声信号処理 ・統計的音声合成 ・声質変換 ・深層学習(DNN) ・音メディア信号処理 ・統計・機械学習論的 信号処理 ・音楽信号処理 修士課程学生4+5名 柏野研学生1名 北村大地 (客員研究員) 香川高専
4.
/47 ヒト・コンピュータの違いを超えた 超音声コミュニケーション 4 音声変換 (声をかえる) 音声合成 (声をつくる) あらゆるモノが あらゆる声で コミュニケーション
5.
/47 テキスト音声合成と音声変換 テキスト音声合成 (Text-To-Speech:
TTS) – テキストなどから音声を合成 – 人以外のモノのコミュニケーションのため 音声変換 (Voice Conversion: VC) – 言語情報を保持したままパラ言語・非言語情報を変換 – 人の発声制約を超えたコミュニケーションのため 5 Text TTS VC 統計モデルに基づく手法を統計的音声合成・変換と呼ぶ
6.
/47 本日のテーマ 6 分布あるいはモーメント間距離最小化に基づく 統計的音声合成・変換 音声合成から見た 敵対的学習 (GAN) 非対称分布な周期変数に 対応する深層生成モデル “シンプルだけど強力”・“普遍的な技術に新たに解釈する”がキーワード
7.
デモ 7
8.
/47 高品質音声変換 8 http://voicetext.jp/voiceactor/ SAYAKA HIKARI Conversion (Conven- tional)
9.
/47 日本人英語音声合成 9 [Oshima16] 従来法で生成 提案法で生成 学習に使用した音声 (大学生、ERJデータベースに含まれる男性話者のうち、 評定スコアが最低) “I can see
that knife now.”
10.
/47 英会話アプリによる実証実験 ~音声合成はどこまで役立つか~ 10 https://www.joyz.co.jp/press_research
11.
/47 多方言音声合成 11 [Akiyama18] Dialect text Multi-dialect speech synthesis Dialect speech Miyazaki-ben 韻律と単語の教師なし獲得により地域性・話者性を分離した音声合成へ
12.
音声のもつ情報とDNN音声合成 12
13.
/47 音声の持つ情報 13 言語情報 パラ言語情報 非言語情報 狭義の音声認識 (speech-to-text) 話者認識など (speaker recognition) 感情認識など (emotion recognition) テキスト化できる情報 話し手が意図的に付与する, テキスト化できない情報
(例:感情) 話し手の意図とは無関係に付与される, テキスト化できない情報(例:話者性)
14.
/47 音声変換は何の情報を保持・変換する? 例1:話者変換 (名探偵コナンの蝶ネクタイ型変声器)
例2:感情変換 例3:音韻変換 14 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 言語 パラ言語 非言語 /a/ /i/
15.
/47 音声合成は何の情報を保持・変換する? 例:究極の音声翻訳 (ドラえもんのホンヤクこんにゃく) 15 言語 パラ言語 非言語 言語 パラ言語 非言語 翻訳 音声認識 など 感情認識など 話者認識 など テキスト翻訳 音声合成
16.
/47 音声生成過程 16 音色の付与 口や舌を動かして, 音色をつける! 音高の生成 声帯を開閉させて, 空気を振動させる! 声になる! 畳み込むと… 時間
17.
/47 フレーム分析と音声特徴量 音声の準定常性を仮定してフレーム分析 – 20~30ms程度であれば,音声は定常信号 17 Time Freq. F0
[Hz] Time有声 無声 声帯が 周期的に振動 Speech スペクトルとF0が 1フレームの特徴量
18.
/47 Text-to-speechでの利用 18 テキスト特徴量 音声特徴量 t=1 t=2 t=T 当該音素 アクセント モーラ位置 時間位置 などなど a i u … 1 2 3 … 0 1 0 1 0 スペクトル (声色) F0
(音高) 有声・無声 テキスト DNN DNNは自然音声特徴量との二乗誤差を最小化するように学習
19.
音声合成から見た敵対的学習 (GAN) 19
20.
/47 生成パラメータの過剰な平滑化: 音質劣化の要因 統計モデリングにおける平均化により,自然音声パラメータに含 まれていた微細構造が消失すること.音質劣化の主要因 20 Time Natural speech
parameters Time Synthetic speech parameters Speech parameter generation Acoustic modeling Training Synthesis 何が 違う?
21.
/47 通常の音声パラメータ生成 21 Natural 𝒚 = argmax
𝑃 𝒚|𝒙 Generated x: context, y: speech params, P(): generative model 最尤推定による音声パラメータ生成 – 自然音声と合成音声で何かが違う… Time Spectralparameter
22.
/47 系列内変動 (GV) とその補償 22Time Natural +GV Spectralparameter 𝒗(𝒚) Generated 𝒚
= argmax 𝑃 𝒚|𝒙 𝑃 𝒗 𝒚 𝜔 v(): global variance 系列内変動:音声パラメータの2次モーメント (分散) – GVモデルを用いた Product-of-Experts (PoEs) – 直感的に言えば「人間のように口を大きく開ける」制約
23.
/47 変調スペクトル (MS)とその補償 23 𝒚 =
argmax 𝑃 𝒚|𝒙 𝑃 𝒔 𝒚 𝜔 v(): modulation spectrum 変調スペクトル:音声パラメータのパワースペクトル – MSモデルを用いた Product-of-Experts (PoEs) – 直感的に言えば「人間の声の震えを再現する」制約 +MS Time Spectralparameter
24.
/47 変調スペクトルを用いた高品質音声合成 24 Telugu Tamil Marathi Malayalam Japanese Bengali Hindi Conventional Ours 2015音声合成コンペ・2016音声変換コンペで世界最高品質と評価
25.
まだまだ音が悪い→GANの登場 25
26.
/47 Generative Adversarial Network
(GAN): 分布間距離の最小化 Generative adversarial network – 分布間の近似 Jensen-Shannon divergence を最小化 – 合成器と,自然/合成音声を識別する識別器を敵対 26 𝒚 1: 自然 0: 生成 [Goodfellow et al., 2014.] ⋯ ⋯ ⋯ ⋯ Text +noise Anti-spoofing Text-to-speech
27.
/47 DNN音声合成のための敵対学習 27 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Linguistic feats. Parameter generation 𝐿G 𝒚, 𝒚 𝐿D,1
𝒚Feature function 1: natural ⋯ 𝒚 𝒚 Generated speech params. Natural speech params. 𝐿 𝒚, 𝒚 = 𝐿G 𝒚, 𝒚 + 𝜔D 𝐿D,1 𝒚 を最小化 敵対的損失生成誤差 Text-to-speech Anti-spoofing [Saito et al., 2018.]
28.
/47 GANによる分布補償の効果 28 20th mel-cepstral coefficient 23rdmel-cepstral coefficient Natural
MGE GAN モーメントや分布を明示的に定義せずに分布を近づける [Saito et al., 2018.]
29.
/47 GANs as various
divergence minimization 29 KL-GAN [Nowozin16] JS-GAN [Nowozin16] RKL-GAN [Nowozin16] GAN [Goodfellow14] W-GAN [Arjovsky17] LS-GAN [Mao17] Kullback Leibler (KL) div. Jensen-Shannon (JS) div. Reversed KL div. Approx. JS div. Wasserstein div. 1 2 3 4 5 Mean opinion score on synthetic speech quality [Saito et al., 2018.]
30.
/47 別の観点から見たGAN 音声なりすまし検出セキュリティ(anti-spoofing) を騙す –
Anti-spoofing: 音声合成・変換による「声のなりすまし」を検出 する識別器 – 「セキュリティを騙せば高品質化できるんじゃない?」 様々な音声特徴量に適用可能 – Vocoder features (spectral envelope, F0) – DFT features – Waveform 30 Anti-spoofing “I’m Chun-Li!” “I’m Chun-Li!” OK! NG!
31.
非対称分布な周期変数を モデル化するDNN 31
32.
/47 音声音響信号に現れる周期性 32 音の到来方向 音波の位相 (時間遅れ) 観測データからこれらを予測する場面がしばしばある (例:振幅スペクトルからの群遅延予測) 点音源 直接波 第一散乱波 https://www.onosokki.co.jp/HP-WK/c_support/newreport/analyzer/FFT1/fft_1.htmより図を引用
33.
/47 課題 33 入力変数に依存し,かつ非対称な確率分布に従う 周期変数をDNNでどう扱う? 𝑦 0 𝜋 2𝜋 Count
34.
/47 パラメトリック確率分布DNNとは 定義:パラメトリックな条件付き確率分布 𝑃
𝑦|𝑥 を持つDNN – 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅ – 例) 𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN − cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN 本発表:正弦関数摂動一般化ハート分布 – 円周上の確率分布 (位相のような周期変数に対応) – 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布 – 正弦関数摂動 [Abe11] … 円周上の分布の非対称化 34 𝑥 𝑦 𝑦𝐿 ⋅ [Takamichi18] 以降では,分布を導入してDNN学習時の損失関数を定義
35.
/47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid
dist.) 35 𝑃 𝑦; 𝜇, 𝜅, 𝜓 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 平均 (mean) 集中度パラメータ (concentration param.) [Jones05] * 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1) 𝑦 0 𝜋 2𝜋 𝜇 𝜅
36.
/47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid
dist.) 36 𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇 摂動パラメータ (skewness param.)円周上の確率分布 [Abe11] sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1]) 𝑦 0 𝜋 2𝜋
37.
/47 正弦関数摂動一般化ハート分布 (sine-skewed generalized cardioid
dist.) 37 𝜓∞−∞ −1 10 von Mises Cardioid Wrapped CauchyUniform Uniform Generalized cardioid Sine-skewed cardioid 1 −1 Sine-skewed wrapped Cauchy Sine-skewed von Mises Sine-skewed generalized cardioid 𝜆 𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 = cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇 2𝜋𝑃1/𝜓 cosh 𝜅𝜓 [Abe11]
38.
/47 正弦関数摂動一般化ハート分布DNNによる 群遅延推定 38 0 1 𝐹 Δ𝑦𝑡,∗ Group delay at frame
𝑡 𝐿GD gc ⋅ 𝜎 ⋅ × 𝛼 𝜅 (const.) 0 𝐹 𝜇 𝑡,∗ 𝜅 𝑡,∗ tanh ⋅ × 𝛼 𝜆 (const.) 𝜆 𝑡,∗ 𝐿GD ss ⋅Mean Concentration Skew Freq. index 各時間周波数の群遅延が当該分布に従うと仮定し, DNN学習時の損失関数 𝐿GD gc ⋅ と 𝐿GD ss ⋅ を次ページで定義 (一般化ハート由来) (正弦関数摂動由来) Ampli- tude
39.
/47 DNN学習時の損失関数 正弦関数摂動巻込み Cauchy (sine-skewed
wrapped Cauchy) 分布 DNN 正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN 正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN 39 𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 1 + 𝜅 𝑡,𝑓 2 − 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 1 − 𝜅 𝑡,𝑓 2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 𝑓 (一般化ハート由来) (正弦関数摂動由来) 𝐿GD gc ⋅ 𝐿GD ss ⋅ * * * ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
40.
/47 負の対数尤度の box plot 40 0.80 0.85 0.90 0.95 1.00 1.05 1.10 Negativeloglikelihood Min Max Median 正弦関数摂動の導入により尤度が改善
41.
今後の音声合成はどこに向かう? (超個人的な意見) 41
42.
/47 “Text”-to-speechを超える音声合成と そのためのコーパス 42 音声による抽象化・具体化を利用した多元的情報の融合へ JSUT JSUT-songJSUT-vi Singing voice (0.5
hrs)Vocal imitation (0.4 hrs) Reading-style speech (10 hrs) Single Japanese speaker’s voice [new!] JSUT-book Audiobook [new!] JSUT-??? ??? [Release in this winter] [Takamichi18] Jpn. E2E TTS [Ueno18] 日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
43.
/47 一期一会音声合成 43 [Takamichi17] 「正しく喋る」から「正しく間違えて喋る」音声合成へ Human Noise Current TTS Noise Our approach
今の音声合成は間違えてくれない… – いつも同じ声・セリフ… → 人間はそうじゃない – Moment matching network に基づく音声サンプリング [Takamichi17]
44.
/47 感情音声合成から扇情音声合成へ 感情音声合成 – 計算機の所望した感情を合成音声に付与する技術 –
聞き手 (人間側)のことを何も考えていない 扇情音声合成 – 計算機の所望した「ユーザの感情」を起こす技術 – 人間の挙動を計算機ループに組み込んだ学習 – 計算機に気持ちよく操られたい – (名前募集中) 44 人間の音声の挙動を計算機ループに組み込んだ Human-in-the-loop 音声合成へ
45.
/47 これからの音声合成まとめ 音声合成の役目は,音声を正確に出すこと? – 答えはNo.
(もちろん,正確に出すことも大事) 音声合成の役目は,音声コミュニケーションを拡張すること – 音声の芸術性を満たすには?(感性工学?) – 音声生成・聴取との関連?(物理学?) – セキュリティとの関連?(セキュリティ工学?) • 声の肖像権はどうあるべき? – 人間を組み込んだ音声合成? (ヒューマンコンピュテーション?) – IoA (Internet of Ability)としての音声合成? • 身体・時空間・文化の多様性を認めつつ,それらを拡張できる? 45
46.
まとめ 46
47.
/47 まとめ 統計的音声合成 敵対的学習の利用
方向統計DNN 今後の音声合成 47
Download