SlideShare a Scribd company logo
06/12/2018©Shinnosuke Takamichi,
The University of Tokyo
分布あるいはモーメント間距離最小化に基づく
統計的音声合成
東京大学 助教
高道 慎之介 (@forthshinji)
ステアラボ人工知能セミナー招待講演 (2018/10/12)
/47
自己紹介
 経歴
– 奈良先端大 博士後期課程 修了 (2016)
– 東京大学 助教 (兼担:同大学 DMMラボ連携講座 特任助教)
 研究テーマ
– 音声合成変換 / speech synthesis, voice conversion
– 音声信号処理 / speech signal processing
– 音声なりすまし検出 / anti-spoofing
– 深層学習 / deep learning
– 音声コミュニケーション拡張 / augmented speech communication
2
/47
猿渡・小山研究室
3
猿渡 洋
(教授)
・音メディアシステム
・教師無し最適化
・統計・機械学習論的
信号処理
特任研究員 高宗さん
秘書 丹治さん
博士課程学生2名
・音響信号処理
・音場再生・伝送
(音響ホログラフ)
・スパース信号処理
小山翔一
(講師)
高道慎之介
(助教)
・音声信号処理
・統計的音声合成
・声質変換
・深層学習(DNN)
・音メディア信号処理
・統計・機械学習論的
信号処理
・音楽信号処理
修士課程学生4+5名
柏野研学生1名
北村大地
(客員研究員)
香川高専
/47
ヒト・コンピュータの違いを超えた
超音声コミュニケーション
4
音声変換
(声をかえる)
音声合成
(声をつくる)
あらゆるモノが
あらゆる声で
コミュニケーション
/47
テキスト音声合成と音声変換
 テキスト音声合成 (Text-To-Speech: TTS)
– テキストなどから音声を合成
– 人以外のモノのコミュニケーションのため
 音声変換 (Voice Conversion: VC)
– 言語情報を保持したままパラ言語・非言語情報を変換
– 人の発声制約を超えたコミュニケーションのため
5
Text TTS
VC
統計モデルに基づく手法を統計的音声合成・変換と呼ぶ
/47
本日のテーマ
6
分布あるいはモーメント間距離最小化に基づく
統計的音声合成・変換
音声合成から見た
敵対的学習 (GAN)
非対称分布な周期変数に
対応する深層生成モデル
“シンプルだけど強力”・“普遍的な技術に新たに解釈する”がキーワード
デモ
7
/47
高品質音声変換
8
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)
/47
日本人英語音声合成
9
[Oshima16]
従来法で生成
提案法で生成
学習に使用した音声
(大学生、ERJデータベースに含まれる男性話者のうち、
評定スコアが最低)
“I can see that knife now.”
/47
英会話アプリによる実証実験
~音声合成はどこまで役立つか~
10
https://www.joyz.co.jp/press_research
/47
多方言音声合成
11
[Akiyama18]
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
Miyazaki-ben
韻律と単語の教師なし獲得により地域性・話者性を分離した音声合成へ
音声のもつ情報とDNN音声合成
12
/47
音声の持つ情報
13
言語情報
パラ言語情報
非言語情報
狭義の音声認識
(speech-to-text)
話者認識など
(speaker recognition)
感情認識など
(emotion recognition)
テキスト化できる情報
話し手が意図的に付与する,
テキスト化できない情報 (例:感情)
話し手の意図とは無関係に付与される,
テキスト化できない情報(例:話者性)
/47
音声変換は何の情報を保持・変換する?
 例1:話者変換 (名探偵コナンの蝶ネクタイ型変声器)
 例2:感情変換
 例3:音韻変換
14
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
言語
パラ言語
非言語
/a/ /i/
/47
音声合成は何の情報を保持・変換する?
 例:究極の音声翻訳 (ドラえもんのホンヤクこんにゃく)
15
言語
パラ言語
非言語
言語
パラ言語
非言語
翻訳
音声認識
など
感情認識など
話者認識
など
テキスト翻訳
音声合成
/47
音声生成過程
16
音色の付与
口や舌を動かして,
音色をつける!
音高の生成
声帯を開閉させて,
空気を振動させる!
声になる!
畳み込むと…
時間
/47
フレーム分析と音声特徴量
 音声の準定常性を仮定してフレーム分析
– 20~30ms程度であれば,音声は定常信号
17
Time
Freq.
F0 [Hz]
Time有声 無声
声帯が
周期的に振動
Speech
スペクトルとF0が
1フレームの特徴量
/47
Text-to-speechでの利用
18
テキスト特徴量 音声特徴量
t=1
t=2
t=T
当該音素
アクセント
モーラ位置
時間位置
などなど
a
i
u
…
1
2
3
…
0
1
0
1
0
スペクトル (声色)
F0 (音高)
有声・無声
テキスト
DNN
DNNは自然音声特徴量との二乗誤差を最小化するように学習
音声合成から見た敵対的学習 (GAN)
19
/47
生成パラメータの過剰な平滑化:
音質劣化の要因
 統計モデリングにおける平均化により,自然音声パラメータに含
まれていた微細構造が消失すること.音質劣化の主要因
20
Time
Natural speech parameters
Time
Synthetic speech parameters
Speech
parameter
generation
Acoustic
modeling
Training
Synthesis
何が
違う?
/47
通常の音声パラメータ生成
21
Natural
𝒚 = argmax 𝑃 𝒚|𝒙
Generated
x: context, y: speech params, P(): generative model
 最尤推定による音声パラメータ生成
– 自然音声と合成音声で何かが違う…
Time
Spectralparameter
/47
系列内変動 (GV) とその補償
22Time
Natural
+GV
Spectralparameter
𝒗(𝒚)
Generated
𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒗 𝒚
𝜔
v(): global variance
 系列内変動:音声パラメータの2次モーメント (分散)
– GVモデルを用いた Product-of-Experts (PoEs)
– 直感的に言えば「人間のように口を大きく開ける」制約
/47
変調スペクトル (MS)とその補償
23
𝒚 = argmax 𝑃 𝒚|𝒙 𝑃 𝒔 𝒚
𝜔
v(): modulation spectrum
 変調スペクトル:音声パラメータのパワースペクトル
– MSモデルを用いた Product-of-Experts (PoEs)
– 直感的に言えば「人間の声の震えを再現する」制約
+MS
Time
Spectralparameter
/47
変調スペクトルを用いた高品質音声合成
24
Telugu
Tamil
Marathi
Malayalam
Japanese
Bengali
Hindi
Conventional Ours
2015音声合成コンペ・2016音声変換コンペで世界最高品質と評価
まだまだ音が悪い→GANの登場
25
/47
Generative Adversarial Network (GAN):
分布間距離の最小化
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 合成器と,自然/合成音声を識別する識別器を敵対
26
𝒚
1: 自然
0: 生成
[Goodfellow et al., 2014.]
⋯
⋯
⋯
⋯
Text
+noise
Anti-spoofing
Text-to-speech
/47
DNN音声合成のための敵対学習
27
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
Linguistic
feats.
Parameter
generation
𝐿G 𝒚, 𝒚
𝐿D,1 𝒚Feature
function 1: natural
⋯
𝒚 𝒚
Generated
speech
params.
Natural
speech
params.
𝐿 𝒚, 𝒚 = 𝐿G 𝒚, 𝒚 + 𝜔D 𝐿D,1 𝒚 を最小化
敵対的損失生成誤差
Text-to-speech
Anti-spoofing
[Saito et al., 2018.]
/47
GANによる分布補償の効果
28
20th mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE GAN
モーメントや分布を明示的に定義せずに分布を近づける
[Saito et al., 2018.]
/47
GANs as various divergence minimization
29
KL-GAN [Nowozin16]
JS-GAN [Nowozin16]
RKL-GAN [Nowozin16]
GAN [Goodfellow14]
W-GAN [Arjovsky17]
LS-GAN [Mao17]
Kullback Leibler (KL) div.
Jensen-Shannon (JS) div.
Reversed KL div.
Approx. JS div.
Wasserstein div.
1 2 3 4 5
Mean opinion score on synthetic speech quality
[Saito et al., 2018.]
/47
別の観点から見たGAN
 音声なりすまし検出セキュリティ(anti-spoofing) を騙す
– Anti-spoofing: 音声合成・変換による「声のなりすまし」を検出
する識別器
– 「セキュリティを騙せば高品質化できるんじゃない?」
 様々な音声特徴量に適用可能
– Vocoder features (spectral envelope, F0)
– DFT features
– Waveform
30
Anti-spoofing
“I’m Chun-Li!”
“I’m Chun-Li!”
OK!
NG!
非対称分布な周期変数を
モデル化するDNN
31
/47
音声音響信号に現れる周期性
32
音の到来方向 音波の位相 (時間遅れ)
観測データからこれらを予測する場面がしばしばある
(例:振幅スペクトルからの群遅延予測)
点音源
直接波
第一散乱波
https://www.onosokki.co.jp/HP-WK/c_support/newreport/analyzer/FFT1/fft_1.htmより図を引用
/47
課題
33
入力変数に依存し,かつ非対称な確率分布に従う
周期変数をDNNでどう扱う?
𝑦
0 𝜋 2𝜋
Count
/47
パラメトリック確率分布DNNとは
 定義:パラメトリックな条件付き確率分布 𝑃 𝑦|𝑥 を持つDNN
– 負の対数尤度を最小化する,DNN学習時の損失関数 𝐿 ⋅
– 例)
𝑦 − 𝑦 2 → 分散 given の(等方性)ガウス分布DNN
− cos 𝑦 − 𝑦 → 集中度パラメータ given の von Mises分布DNN
 本発表:正弦関数摂動一般化ハート分布
– 円周上の確率分布 (位相のような周期変数に対応)
– 一般化ハート分布 [Jones05] … von Mises 分布を一般化した対称分布
– 正弦関数摂動 [Abe11] … 円周上の分布の非対称化
34
𝑥 𝑦 𝑦𝐿 ⋅
[Takamichi18]
以降では,分布を導入してDNN学習時の損失関数を定義
/47
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
35
𝑃 𝑦; 𝜇, 𝜅, 𝜓 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
平均 (mean) 集中度パラメータ (concentration param.)
[Jones05]
* 本稿では 𝜓をgiven (一定値) とした特殊形のみを扱う
von Mises (𝜓 = 0) Cardioid (𝜓 = 1)Wrapped Cauchy (𝜓 = −1)
𝑦
0 𝜋 2𝜋
𝜇
𝜅
/47
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
36
𝑃 𝑦; 𝜇, 𝜆 = 𝑃circ 𝑦 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
摂動パラメータ (skewness param.)円周上の確率分布
[Abe11]
sine-skewed von Mises (𝜓 = 0, 𝜓 = [−1,1])
𝑦
0 𝜋 2𝜋
/47
正弦関数摂動一般化ハート分布
(sine-skewed generalized cardioid dist.)
37
𝜓∞−∞ −1 10
von
Mises Cardioid
Wrapped
CauchyUniform Uniform
Generalized
cardioid
Sine-skewed
cardioid
1
−1
Sine-skewed
wrapped Cauchy
Sine-skewed
von Mises
Sine-skewed generalized cardioid
𝜆
𝑃 𝑦; 𝜇, 𝜅, 𝜓, 𝜆 =
cosh1/𝜓 𝜅𝜓 1 + tanh 𝜅𝜓 cos 𝑦 − 𝜇 1/𝜓 1 + 𝜆 sin 𝑦 − 𝜇
2𝜋𝑃1/𝜓 cosh 𝜅𝜓
[Abe11]
/47
正弦関数摂動一般化ハート分布DNNによる
群遅延推定
38
0
1
𝐹
Δ𝑦𝑡,∗
Group delay
at frame 𝑡
𝐿GD
gc
⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿GD
ss
⋅Mean
Concentration
Skew
Freq. index
各時間周波数の群遅延が当該分布に従うと仮定し,
DNN学習時の損失関数 𝐿GD
gc
⋅ と 𝐿GD
ss
⋅ を次ページで定義
(一般化ハート由来) (正弦関数摂動由来)
Ampli-
tude
/47
DNN学習時の損失関数
正弦関数摂動巻込み Cauchy (sine-skewed wrapped Cauchy) 分布 DNN
正弦関数摂動 von Mises (sine-skewed von Mises) 分布 DNN
正弦関数摂動ハート (sine-skewed cardioid) 分布 DNN
39
𝐿 = − log 1 + 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log
1 + 𝜅 𝑡,𝑓
2
− 2𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
1 − 𝜅 𝑡,𝑓
2 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
𝐿 = log 𝐼0 𝜅 𝑡,𝑓 − 𝜅 𝑡,𝑓 cos Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓 − log 1 + 𝜆 𝑡,𝑓 sin Δ𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
(一般化ハート由来) (正弦関数摂動由来)
𝐿GD
gc
⋅ 𝐿GD
ss
⋅
*
*
* ここでの𝜅 𝑡,𝑓は一般化ハート分布の𝜅 𝑡,𝑓と異なることに注意.論文を参照.
/47
負の対数尤度の box plot
40
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善
今後の音声合成はどこに向かう?
(超個人的な意見)
41
/47
“Text”-to-speechを超える音声合成と
そのためのコーパス
42
音声による抽象化・具体化を利用した多元的情報の融合へ
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[new!] JSUT-???
???
[Release in this winter]
[Takamichi18]
Jpn. E2E TTS
[Ueno18]
日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
/47
一期一会音声合成
43
[Takamichi17]
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
 今の音声合成は間違えてくれない…
– いつも同じ声・セリフ… → 人間はそうじゃない
– Moment matching network に基づく音声サンプリング [Takamichi17]
/47
感情音声合成から扇情音声合成へ
 感情音声合成
– 計算機の所望した感情を合成音声に付与する技術
– 聞き手 (人間側)のことを何も考えていない
 扇情音声合成
– 計算機の所望した「ユーザの感情」を起こす技術
– 人間の挙動を計算機ループに組み込んだ学習
– 計算機に気持ちよく操られたい
– (名前募集中)
44
人間の音声の挙動を計算機ループに組み込んだ
Human-in-the-loop 音声合成へ
/47
これからの音声合成まとめ
 音声合成の役目は,音声を正確に出すこと?
– 答えはNo. (もちろん,正確に出すことも大事)
 音声合成の役目は,音声コミュニケーションを拡張すること
– 音声の芸術性を満たすには?(感性工学?)
– 音声生成・聴取との関連?(物理学?)
– セキュリティとの関連?(セキュリティ工学?)
• 声の肖像権はどうあるべき?
– 人間を組み込んだ音声合成? (ヒューマンコンピュテーション?)
– IoA (Internet of Ability)としての音声合成?
• 身体・時空間・文化の多様性を認めつつ,それらを拡張できる?
45
まとめ
46
/47
まとめ
 統計的音声合成
 敵対的学習の利用
 方向統計DNN
 今後の音声合成
47

More Related Content

PDF
敵対的学習による統合型ソースフィルタネットワーク
PDF
研究室における研究・実装ノウハウの共有
PDF
cvpaper.challenge 研究効率化 Tips
PPTX
[DL輪読会]Flow-based Deep Generative Models
PDF
4 データ間の距離と類似度
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PDF
IIBMP2016 深層生成モデルによる表現学習
敵対的学習による統合型ソースフィルタネットワーク
研究室における研究・実装ノウハウの共有
cvpaper.challenge 研究効率化 Tips
[DL輪読会]Flow-based Deep Generative Models
4 データ間の距離と類似度
Transformerを多層にする際の勾配消失問題と解決法について
物体検出の歴史(R-CNNからSSD・YOLOまで)
IIBMP2016 深層生成モデルによる表現学習

What's hot (20)

PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PDF
最適輸送入門
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
PDF
WaveNetが音声合成研究に与える影響
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
PDF
Attentionの基礎からTransformerの入門まで
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
PDF
最適輸送の解き方
PDF
Interspeech2022 参加報告
PPTX
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
PDF
ベルヌーイ分布からベータ分布までを関係づける
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
[DL輪読会]MetaFormer is Actually What You Need for Vision
差分プライバシーとは何か? (定義 & 解釈編)
最適輸送入門
【DL輪読会】Scaling Laws for Neural Language Models
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
WaveNetが音声合成研究に与える影響
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Attentionの基礎からTransformerの入門まで
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
変分推論法(変分ベイズ法)(PRML第10章)
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
最適輸送の解き方
Interspeech2022 参加報告
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
ベルヌーイ分布からベータ分布までを関係づける
Ad

Similar to 分布あるいはモーメント間距離最小化に基づく統計的音声合成 (20)

PDF
方向統計DNNに基づく振幅スペクトログラムからの位相復元
PDF
Saito17asjA
PDF
Neural text-to-speech and voice conversion
PDF
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
PDF
Deep learning for acoustic modeling in parametric speech generation
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
PDF
Slp201702
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PDF
saito2017asj_vc
PDF
深層生成モデルに基づく音声合成技術
PDF
深層生成モデルによるメディア生成
PDF
ICASSP読み会2020
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
PDF
【文献紹介】Predictive regression modeling with MEG
PDF
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
PDF
Kameoka2012 talk07 1
PDF
Ieice中国地区
方向統計DNNに基づく振幅スペクトログラムからの位相復元
Saito17asjA
Neural text-to-speech and voice conversion
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
Deep learning for acoustic modeling in parametric speech generation
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Slp201702
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
saito2017asj_vc
深層生成モデルに基づく音声合成技術
深層生成モデルによるメディア生成
ICASSP読み会2020
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
【文献紹介】Predictive regression modeling with MEG
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Kameoka2012 talk07 1
Ieice中国地区
Ad

More from Shinnosuke Takamichi (20)

PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
PDF
音声合成のコーパスをつくろう
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
PDF
国際会議 interspeech 2020 報告
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
PDF
音声合成研究を加速させるためのコーパスデザイン
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
PDF
論文紹介 Building the Singapore English National Speech Corpus
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
PDF
JVS:フリーの日本語多数話者音声コーパス
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

分布あるいはモーメント間距離最小化に基づく統計的音声合成