SlideShare a Scribd company logo
F0-consistent many-to-many non-parallel voice
conversion via conditional autoencoder
Author: K, Qian, Z. Jin, M. H-Johnson, G, J. Mysore
presenter: @peisuke
ICASSP2020⾳響⾳声読み会
⾃⼰紹介
名前:藤本 敬介
所属:ABEJA
研究:コンピュータビジョン、ロボット
活動:
Twitter @peisuke
Github https://github.com/peisuke
Qiita https://qiita.com/peisuke
SlideShare https://www.slideshare.net/FujimotoKeisuke
概要
• タイトル
• F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder
• どんな論⽂?
• Auto Encoderによってメルスペクトログラムを他⼈のものに変換
• その際にF0(ピッチ)が反転してしまう場合があった問題を解決
• ⼯夫点は?
• 過去に実施したAutoVC(AEベースでの⾳声変換)に、ソース⾳声のF0を条件
として与えた
全体の構成
• AutoVC (ICML2019)に対してF0を条件に追加
Output
変換後のメルスペクトログラム
(WaveNetボコーダで⾳声に変換)
Input
ソース⾳声のメルスペクトログラム
ソース話者・ターゲット話者の⾳声特徴
ソース⾳声の正規化したlog F0 ← New!!
AutoVCとは
• AutoEncoderの特徴量の次元を絞ることで、⾳声の変換を実現
1. エンコード・デコード時に話者を変えずに
復元した場合( !𝑋, 𝑋)の復元ロス
2. 上記処理の中間復元結果 $𝑋の復元ロス
3. 復元したメルスペクトログラムを再エン
コードした特徴の⼀致度合い
AutoVCの構成
• 全体のネットワーク構成
AutoVCの構成
• ⼊⼒はメルスペクトログラム
ソース⾳声の
メルスペクトログラム
ターゲット⾳声の
メルスペクトログラム
AutoVCの構成
• 予め話者の特徴抽出機を学習しておく(Wan et al. 2018)
話者の特徴抽出
(事前に学習しておく)
話者の特徴抽出
(事前に学習しておく)
AutoVCの構成
• ソース発話内容と話者特徴をエンコード
発話内容のエンコード
AutoVCの構成
• ダウンサンプルする事で特徴の次元数を落とす
ダウンサンプル&
アップサンプル
AutoVCの構成
• ターゲットの話者特徴を加えてデコードする
ターゲット特徴を
Concatしてデコード
AutoVCの学習・変換
• 学習時はソース話者のみ出現
• 単⼀の話者の発話内容を圧縮し、当該話者の特徴を利⽤して復元
• 話者の変換を明⽰的には学習しない
• 推論時に、ターゲット話者の特徴を利⽤
F0による条件付け
• AutoVCではターゲット話者の韻律の分布と⼀致しない場合がある
• デコーダに持ち越されたソース話者の韻律情報と、ターゲット話者の埋め込み
に含まれる韻律の情報が⽭盾する結果、F0が反転すると予想
• この問題に対して、ソース⾳声のlog-F0を正規化したものを、デコー
ド時にターゲット話者の特徴と⼀緒に埋め込む
• 256段階のone-hot+無⾳1次元分の257次元
𝑝!"#$ =
𝑝%#& − 𝜇
4𝜎
pはフレーム毎のlog-F0
u, σはpの平均・標準偏差
実験
• 実験内容
• F0の情報が適切に復元されるかを、定性的・定量的に調査
• 実験条件
• VCTKコーパスで学習/テストを⾏う
• 過去の実験との条件を合わせるため、男⼥それぞれ10を対象に実験
• 90%のデータを学習、10%をテストに利⽤
定量的評価
• F0の分布に関する評価
• 男⼥4⼈ずつ、160サンプルに関し、F0の分布を調査
• AutoVC(上段)と⽐較し、提案⼿法(下段)の⽅がlog(F0)の分布がGTに近
くなっている
• 上段では2つの⼭が出来ており、⾳声が反転しているケースが確認できる
定量的評価
• 変換前後でF0が⼀貫性を持つかを調査
• 変換後のF0のGTは無いので変換前のF0から線形変換して擬似的に作成
• 左図のように、変換後にF0が⼤きく変化してしまわないことが確認でき、
右図よりエラーの分布も提案⼿法の精度が⾼いことが確認できる
ボトルネックのテストおよびF0の制御
• 実験1:エンコーダのF0リーク検証
• 提案⼿法によって訓練済みのエンコーダに、F0情報を付与しないデコーダを組み合わせ、デ
コーダのみ学習
• エンコーダがF0情報をリークしないように学習できているため、デコーダにF0を付与しない
事でランダムなF0が復元されていることが確認できる
• 実験2:F0の制御の検証
• デコーダに与えるF0をフラットにして実験
• 復元される⾳声のF0もフラットにできる
定性的評価
• Amazon Mechanical TurkでMOS評価を⾏った
• AutoVCに加えStarGANおよびCHOUと⽐較し、各種法と⽐べて⾼い評価を得
られた
• 男⼥変換についてAutoVCと⽐較し、それぞれにおいて良い評価を達成
まとめ
• AutoEncoderベースでのmany-to-many⾳声変換
• ベース⼿法であるAutoVCでは変換によってF0が反転してしまう問題
があった
• F0の情報をデコーダに⼊れる事で上記問題を解決
• 実験により、定量的・定性的に上記効果を検証

More Related Content

PPTX
出会って5行でディープラーニング推論
PDF
A quantum computational approach to correspondence problems on point sets
PDF
YOLACT real-time instance segmentation
PDF
Product Managerの役割、周辺ロールとの差異
PDF
ChainerRLで株売買を結構頑張ってみた(後編)
PDF
Temporal Cycle Consistency Learning
PDF
PDF
20190414 Point Cloud Reconstruction Survey
出会って5行でディープラーニング推論
A quantum computational approach to correspondence problems on point sets
YOLACT real-time instance segmentation
Product Managerの役割、周辺ロールとの差異
ChainerRLで株売買を結構頑張ってみた(後編)
Temporal Cycle Consistency Learning
20190414 Point Cloud Reconstruction Survey

More from Fujimoto Keisuke (20)

PDF
Chainer meetup 9
PDF
20180925 CV勉強会 SfM解説
PDF
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
PDF
LiDAR-SLAM チュートリアル資料
PDF
Stock trading using ChainerRL
PDF
Cold-Start Reinforcement Learning with Softmax Policy Gradient
PDF
Representation learning by learning to count
PDF
Dynamic Routing Between Capsules
PDF
Deep Learning Framework Comparison on CPU
PDF
ICCV2017一人読み会
PDF
Global optimality in neural network training
PDF
CVPR2017 oral survey
PDF
Point net
PDF
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
PDF
Value iteration networks
PDF
sublabel accurate convex relaxation of vectorial multilabel energies
PDF
Deep SimNets
PDF
Deep Fried Convnets
PDF
L0TV: a new method for image restoration in the presence of impulse noise
Chainer meetup 9
20180925 CV勉強会 SfM解説
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
LiDAR-SLAM チュートリアル資料
Stock trading using ChainerRL
Cold-Start Reinforcement Learning with Softmax Policy Gradient
Representation learning by learning to count
Dynamic Routing Between Capsules
Deep Learning Framework Comparison on CPU
ICCV2017一人読み会
Global optimality in neural network training
CVPR2017 oral survey
Point net
CVIM最先端ガイド6 幾何学的推定のための最適化手法 3.5 - 3.8
Value iteration networks
sublabel accurate convex relaxation of vectorial multilabel energies
Deep SimNets
Deep Fried Convnets
L0TV: a new method for image restoration in the presence of impulse noise
Ad

F0-Consistent Many-to-many Non-parallel Voice Conversion via Conditional Autoencoder