分布あるいはモーメント間距離最小化に基づく統計的音声合成

06/12/2018©Shinnosuke Takamichi,
The University of Tokyo
分布あるいはモーメント間距離最小化に基づく
統計的音声合成
東京大学助教
高道慎之介 (@forthshinji)
ステアラボ人工知能セミナー招待講演 (2018/10/12)

/47
自己紹介
 経歴
– 奈良先端大博士後期課程修了 (2016)
– 東京大学助教 (兼担：同大学 DMMラボ連携講座特任助教)
 研究テーマ
– 音声合成変換 / speech synthesis, voice conversion
– 音声信号処理 / speech signal processing
– 音声なりすまし検出 / anti-spoofing
– 深層学習 / deep learning
– 音声コミュニケーション拡張 / augmented speech communication
2

/47
猿渡・小山研究室
3
猿渡洋
(教授)
・音メディアシステム
・教師無し最適化
・統計・機械学習論的
信号処理
特任研究員高宗さん
秘書丹治さん
博士課程学生2名
・音響信号処理
・音場再生・伝送
（音響ホログラフ）
・スパース信号処理
小山翔一
(講師)
高道慎之介
(助教)
・音声信号処理
・統計的音声合成
・声質変換
・深層学習（DNN）
・音メディア信号処理
・統計・機械学習論的
信号処理
・音楽信号処理
修士課程学生４＋５名
柏野研学生１名
北村大地
(客員研究員)
香川高専

/47
ヒト・コンピュータの違いを超えた
超音声コミュニケーション
4
音声変換
(声をかえる)
音声合成
(声をつくる)
あらゆるモノが
あらゆる声で
コミュニケーション

/47
テキスト音声合成と音声変換
 テキスト音声合成 (Text-To-Speech: TTS)
– テキストなどから音声を合成
– 人以外のモノのコミュニケーションのため
 音声変換 (Voice Conversion: VC)
– 言語情報を保持したままパラ言語・非言語情報を変換
– 人の発声制約を超えたコミュニケーションのため
5
Text TTS
VC
統計モデルに基づく手法を統計的音声合成・変換と呼ぶ

/47
本日のテーマ
6
分布あるいはモーメント間距離最小化に基づく
統計的音声合成・変換
音声合成から見た
敵対的学習 (GAN)
非対称分布な周期変数に
対応する深層生成モデル
“シンプルだけど強力”・“普遍的な技術に新たに解釈する”がキーワード

/47
高品質音声変換
8
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)

/47
日本人英語音声合成
9
[Oshima16]
従来法で生成
提案法で生成
学習に使用した音声
（大学生、ERJデータベースに含まれる男性話者のうち、
評定スコアが最低）
“I can see that knife now.”

/47
英会話アプリによる実証実験
～音声合成はどこまで役立つか～
10
https://www.joyz.co.jp/press_research

/47
多方言音声合成
11
[Akiyama18]
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
Miyazaki-ben
韻律と単語の教師なし獲得により地域性・話者性を分離した音声合成へ

音声のもつ情報とDNN音声合成
12

/47
音声の持つ情報
13
言語情報
パラ言語情報
非言語情報
狭義の音声認識
(speech-to-text)
話者認識など
(speaker recognition)
感情認識など
(emotion recognition)
テキスト化できる情報
話し手が意図的に付与する，
テキスト化できない情報 (例：感情)
話し手の意図とは無関係に付与される，
テキスト化できない情報（例：話者性）

/47
音声変換は何の情報を保持・変換する？
 例1：話者変換 (名探偵コナンの蝶ネクタイ型変声器)
 例2：感情変換
 例3：音韻変換
14
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
/a/ /i/

/47
音声合成は何の情報を保持・変換する？
 例：究極の音声翻訳 (ドラえもんのホンヤクこんにゃく)
15
言語
パラ言語
非言語
言語
パラ言語
非言語
翻訳
音声認識
など
感情認識など
話者認識
など
テキスト翻訳
音声合成

/47
音声生成過程
16
音色の付与
口や舌を動かして，
音色をつける！
音高の生成
声帯を開閉させて，
空気を振動させる！
声になる！
畳み込むと…
時間

/47
フレーム分析と音声特徴量
 音声の準定常性を仮定してフレーム分析
– 20~30ms程度であれば，音声は定常信号
17
Time
Freq.
F0 [Hz]
Time有声無声
声帯が
周期的に振動
Speech
スペクトルとF0が
1フレームの特徴量

/47
Text-to-speechでの利用
18
テキスト特徴量音声特徴量
t=1
t=2
t=T
当該音素
アクセント
モーラ位置
時間位置
などなど
a
i
u
…
1
2
3
…
0
1
0
1
0
スペクトル (声色)
F0 (音高)
有声・無声
テキスト
DNN
DNNは自然音声特徴量との二乗誤差を最小化するように学習

音声合成から見た敵対的学習 (GAN)
19

/47
生成パラメータの過剰な平滑化：
音質劣化の要因
 統計モデリングにおける平均化により，自然音声パラメータに含
まれていた微細構造が消失すること．音質劣化の主要因
20
Time
Natural speech parameters
Time
Synthetic speech parameters
Speech
parameter
generation
Acoustic
modeling
Training
Synthesis
何が
違う？

/47
通常の音声パラメータ生成
21
Natural
𝒚 = argmax 𝑃 𝒚|𝒙
Generated
x: context, y: speech params, P(): generative model
 最尤推定による音声パラメータ生成
– 自然音声と合成音声で何かが違う…
Time
Spectralparameter

/47
系列内変動 (GV) とその補償
22Time
Natural
+GV
Spectralparameter
𝒗(𝒚)
Generated
𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒗 𝒚
𝜔
v(): global variance
 系列内変動：音声パラメータの2次モーメント (分散)
– GVモデルを用いた Product-of-Experts (PoEs)
– 直感的に言えば「人間のように口を大きく開ける」制約

/47
変調スペクトル (MS)とその補償
23
𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒔 𝒚
𝜔
v(): modulation spectrum
 変調スペクトル：音声パラメータのパワースペクトル
– MSモデルを用いた Product-of-Experts (PoEs)
– 直感的に言えば「人間の声の震えを再現する」制約
+MS
Time
Spectralparameter

/47
変調スペクトルを用いた高品質音声合成
24
Telugu
Tamil
Marathi
Malayalam
Japanese
Bengali
Hindi
Conventional Ours
2015音声合成コンペ・2016音声変換コンペで世界最高品質と評価

まだまだ音が悪い→GANの登場
25

/47
Generative Adversarial Network (GAN):
分布間距離の最小化
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 合成器と，自然／合成音声を識別する識別器を敵対
26
𝒚
1: 自然
0: 生成
[Goodfellow et al., 2014.]
⋯
⋯
⋯
⋯
Text
+noise
Anti-spoofing
Text-to-speech

/47
DNN音声合成のための敵対学習
27
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
Linguistic
feats.
Parameter
generation
𝐿G 𝒚, 𝒚
𝐿D,1 𝒚Feature
function 1: natural
⋯
𝒚 𝒚
Generated
speech
params.
Natural
speech
params.
𝐿 𝒚, 𝒚 = 𝐿G 𝒚, 𝒚 + 𝜔D 𝐿D,1 𝒚 を最小化
敵対的損失生成誤差
Text-to-speech
Anti-spoofing
[Saito et al., 2018.]

/47
GANによる分布補償の効果
28
20th mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE GAN
モーメントや分布を明示的に定義せずに分布を近づける

/47
GANs as various divergence minimization
29
KL-GAN [Nowozin16]
JS-GAN [Nowozin16]
RKL-GAN [Nowozin16]
GAN [Goodfellow14]
W-GAN [Arjovsky17]
LS-GAN [Mao17]
Kullback Leibler (KL) div.
Jensen-Shannon (JS) div.
Reversed KL div.
Approx. JS div.
Wasserstein div.
1 2 3 4 5
Mean opinion score on synthetic speech quality

/47
別の観点から見たGAN
 音声なりすまし検出セキュリティ(anti-spoofing) を騙す
– Anti-spoofing: 音声合成・変換による「声のなりすまし」を検出
する識別器
– 「セキュリティを騙せば高品質化できるんじゃない？」
 様々な音声特徴量に適用可能
– Vocoder features (spectral envelope, F0)
– DFT features
– Waveform
30
Anti-spoofing
“I’m Chun-Li!”
“I’m Chun-Li!”
OK!
NG!

非対称分布な周期変数を
モデル化するDNN
31

/47
音声音響信号に現れる周期性
32
音の到来方向音波の位相 (時間遅れ)
観測データからこれらを予測する場面がしばしばある
(例：振幅スペクトルからの群遅延予測)
点音源
直接波
第一散乱波
https://www.onosokki.co.jp/HP-WK/c_support/newreport/analyzer/FFT1/fft_1.htmより図を引用

/47
課題
33
入力変数に依存し，かつ非対称な確率分布に従う
周期変数をDNNでどう扱う？
𝑦
0 𝜋 2𝜋
Count

/47
パラメトリック確率分布DNNとは
 定義：パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN
– 負の対数尤度を最小化する，DNN学習時の損失関数 𝐿 ⋅
– 例)
𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN
− cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN
 本発表：正弦関数摂動一般化ハート分布
– 円周上の確率分布 (位相のような周期変数に対応)
– 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布
– 正弦関数摂動 [Abe11] … 円周上の分布の非対称化
34
𝑥 𝑦 𝑦𝐿 ⋅
[Takamichi18]
以降では，分布を導入してDNN学習時の損失関数を定義

/47
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
35
𝑃 𝑦; 𝜇, 𝜅, 𝜓 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
平均 (mean) 集中度パラメータ (concentration param.)
[Jones05]
* 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う
von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1)
𝑦
0 𝜋 2𝜋
𝜇
𝜅

/47
36
𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
摂動パラメータ (skewness param.)円周上の確率分布
[Abe11]
sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1])
𝑦
0 𝜋 2𝜋

/47
37
𝜓∞−∞ −1 10
von
Mises Cardioid
Wrapped
CauchyUniform Uniform
Generalized
cardioid
Sine-skewed
cardioid
1
−1
Sine-skewed
wrapped Cauchy
Sine-skewed
von Mises
Sine-skewed generalized cardioid
𝜆
𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
[Abe11]

/47
正弦関数摂動一般化ハート分布DNNによる
群遅延推定
38
0
1
𝐹
Δ𝑦𝑡,∗
Group delay
at frame 𝑡
𝐿GD
gc
⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿GD
ss
⋅Mean
Concentration
Skew
Freq. index
各時間周波数の群遅延が当該分布に従うと仮定し，
DNN学習時の損失関数 𝐿GD
gc
⋅ と 𝐿GD
ss
⋅ を次ページで定義
(一般化ハート由来) (正弦関数摂動由来)
Ampli-
tude

/47
DNN学習時の損失関数
正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN
正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN
正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN
39
𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log
1 + 𝜅 𝑡,𝑓
2
− 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
1 − 𝜅 𝑡,𝑓
2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
(一般化ハート由来) (正弦関数摂動由来)
𝐿GD
gc
⋅ 𝐿GD
ss
⋅
*
*
* ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意．論文を参照．

/47
負の対数尤度の box plot
40
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善

今後の音声合成はどこに向かう？
(超個人的な意見)
41

/47
“Text”-to-speechを超える音声合成と
そのためのコーパス
42
音声による抽象化・具体化を利用した多元的情報の融合へ
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[new!] JSUT-???
???
[Release in this winter]
[Takamichi18]
Jpn. E2E TTS
[Ueno18]
日本語End-to-end音声合成のサンプル音声は，京都大学河原先生・上乃さまに提供して頂いた

/47
一期一会音声合成
43
[Takamichi17]
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
 今の音声合成は間違えてくれない…
– いつも同じ声・セリフ… → 人間はそうじゃない
– Moment matching network に基づく音声サンプリング [Takamichi17]

/47
感情音声合成から扇情音声合成へ
 感情音声合成
– 計算機の所望した感情を合成音声に付与する技術
– 聞き手 (人間側)のことを何も考えていない
 扇情音声合成
– 計算機の所望した「ユーザの感情」を起こす技術
– 人間の挙動を計算機ループに組み込んだ学習
– 計算機に気持ちよく操られたい
– (名前募集中)
44
人間の音声の挙動を計算機ループに組み込んだ
Human-in-the-loop 音声合成へ

/47
これからの音声合成まとめ
 音声合成の役目は，音声を正確に出すこと？
– 答えはNo. (もちろん，正確に出すことも大事)
 音声合成の役目は，音声コミュニケーションを拡張すること
– 音声の芸術性を満たすには？(感性工学？)
– 音声生成・聴取との関連？(物理学？)
– セキュリティとの関連？(セキュリティ工学？)
• 声の肖像権はどうあるべき？
– 人間を組み込んだ音声合成？ (ヒューマンコンピュテーション？)
– IoA (Internet of Ability)としての音声合成？
• 身体・時空間・文化の多様性を認めつつ，それらを拡張できる？
45

/47
まとめ
 統計的音声合成
 敵対的学習の利用
 方向統計DNN
 今後の音声合成
47

分布あるいはモーメント間距離最小化に基づく統計的音声合成

More Related Content

What's hot (20)

Similar to 分布あるいはモーメント間距離最小化に基づく統計的音声合成 (20)

More from Shinnosuke Takamichi (20)

分布あるいはモーメント間距離最小化に基づく統計的音声合成