SlideShare a Scribd company logo
4
Most read
7
Most read
13
Most read
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Di
ff
usion-based Voice Conversion with Fast
Maximum Likelihood Sampling Scheme
発表者: 阿久澤圭 (松尾研D3)
書誌情報
• タイトル:Di
ff
usion-based Voice Conversion with Fast Maximum
Likelihood Sampling Scheme
• 著者:Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima
Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei(所属:
Huawei Noah s Ark Lab)
• 発表:ICLR2022 (oral)
• 概要:深層生成モデルの一種であるDi
ff
usion Modelを音声変換に利用
• 発表理由:Di
ff
usion-based 生成モデルの勉強,VCへの興味
研究背景:音声変換(Voice Conversion, VC)
• Voice conversion (VC): ある発話の言語内容を保ったまま,声質を特定の人物に変換する
• One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない
=> モデルが特定の話者に依存してはいけない
=> 既存研究は入力から話者非依存の特徴量を抽出(VAE,Vector Quantization,PPG)
Model (e.g., DNN)
ソース話者 ターゲット話者
論文の概要
• 現状のVCの課題:品質と高速化
• 本研究の提案:
• 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案
• エンコーダー:「平均声」を出力する( 新たな話者非依存の特徴量の提案)
• デコーダー:Di
ff
usion Probabilistic Model (DPM)を採用
• 加えて,DPMの推論の高速化のための新しい手法を提案
• VC以外でも利用できる,汎用的な手法
≈
手法の全体像
• 図の見方:実線がVC時のデータフロー,破線が訓練時のデータフロー
• VC時のデータフローは普通のエンコーダー・デコーダーモデルと大体同じ
エンコーダー
• エンコーダーは「平均声」を予測するようにMSEで訓練
• 「平均声」:特定の音素(a, i, u, e, oなど)に対応する音声データをたくさん集めて,それらの
音声データを平均化したもの.平均化しているので話者に非依存
• この枠組の新規性について:
• 従来手法:音素予測タスクや情報ボトルネック等を利用して,話者非依存の特徴量を抽出
• 提案手法:平均声は,音素( PPG)よりもリッチな情報を持つ表現
≈
デコーダー
• Di
ff
usion Probabilistic Model (DPM) のReverse Processを利用
デコーダーの理解に必要な知識
Song. et. al. 2019
Score-matching with Langevin
dynamics
Score-based 生成モデル
Sohl-Dickstein+2015, Ho+2020
Denoting di
ff
usion probabilistic
modeling
Song. et. al. 2021
Score-based 生成モデルの
連続時間化( Neural ODE化)
≈
Popov. et. al. 2022
本論文
離散版 Di
ff
usion Probabilistic Model (DPM)
• Forward Process:データからノイズを生成.既知・簡単.
• Reverse Process:ノイズからデータを生成.未知・扱うのが困難
=> DNNで近似する
Ho et al. 2020
連続版のDPM
• Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張
• メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能
• メリット2: パラメータの効率性が良い(論文中に記載はないがNeural ODE一般にメリット)
• しかし,Reverse SDE に登場するスコア関数 が未知なので,Reverse SDEの計算はナイーブには困難
=> DNN で近似する(時刻 を入力にとる関数であり,Neural ODEとアイデアを共有)
∇log pt(x)
sθ(x(t), t) t
Song et al. 2021
本研究のデコーダー
• 基本的にSong et. al. 2021と同じ
• 特殊な点:PriorがData dependentである
• エンコーダーの出力 を,終端分布 の平均として採用(普通は標準ガウス分布)
=> ソース音声による条件付き生成を可能に
X̄ p(XT)
サンプリング手法の提案
• 背景:
• VCではリアルタイム性が重視される
• しかしSDEの数値計算に利用される手法(Euler-Maruyama Solver
等)は反復計算を必要とするため,そのIteration数がボトルネック
• 提案手法:Maximum Likelihood SDE solver
• 更新式:
• NOTE: Euler-Maruyama法の一般化( )
• ざっくりとしたメリット:提案手法で得たパス は任意のス
テップ数 において尤度を最大化
̂
κt,h = 0, ̂
ωt,h = 0, ̂
σt,h = βth
X = {Xkh}N
k=0
N
実験 既存手法との比較
• 提案手法:Di
ff
-VCTK-ML-N(Nは推論時のIterationの数)
• 評価基準:Naturalness(自然さ),Similarity(ターゲット話者っぽく聞こえるか)
• 評価指標:MOS; Mean Opinion Score (人間による1 5点の評価)
• 音声デモあり:https://di
ff
vc-fast-ml-solver.github.io
実験 推論手法の比較
• 推論手法:EM(Euler-Maruyama), PF(Song+2021),ML(提案)
• EMはiteration数6だとほとんど性能が出ない
まとめと発表者感想
• まとめ
• Di
ff
usion-modelを利用したVC手法の提案
• 高速化のための推論手法も同時に提案
• 実験ではかなり高いMOSを達成(3.5以上は自分の知る限りSoTA)
• 発表者感想
• サーベイ中Di
ff
usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた
• エンコーダーとデコーダーの貢献,どちらが大きいのか知りたい
• エンコーダーの出力を音素事後確率(PPG)にしたらどうなる?
References
• Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep
unsupervised learning using nonequilibrium thermodynamics. In International
Conference on Machine Learning, pp. 2256‒2265, 2015.
• Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di
ff
usion probabilistic models.
Advances in Neural Information Processing Systems, 33, 2020.
• Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the
data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒
11907, 2019.
• Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon,
and Ben Poole. Score-Based Generative Modeling through Stochastic Di
ff
erential
Equations. In International Conference on Learning Representations, 2021.

More Related Content

PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
[DL輪読会]逆強化学習とGANs
PPTX
モデル高速化百選
PDF
実装レベルで学ぶVQVAE
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
最適化超入門
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PDF
変分推論法(変分ベイズ法)(PRML第10章)
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]逆強化学習とGANs
モデル高速化百選
実装レベルで学ぶVQVAE
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
最適化超入門
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
変分推論法(変分ベイズ法)(PRML第10章)

What's hot (20)

PDF
Transformer メタサーベイ
PDF
Neural text-to-speech and voice conversion
PDF
【メタサーベイ】Video Transformer
PDF
変分推論と Normalizing Flow
PDF
Skip Connection まとめ(Neural Network)
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Variational AutoEncoder
PPTX
【DL輪読会】Flow Matching for Generative Modeling
PPTX
Sliced Wasserstein距離と生成モデル
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PDF
GAN(と強化学習との関係)
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
PDF
PRML学習者から入る深層生成モデル入門
PDF
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
論文紹介 Pixel Recurrent Neural Networks
PDF
自己教師学習(Self-Supervised Learning)
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Transformer メタサーベイ
Neural text-to-speech and voice conversion
【メタサーベイ】Video Transformer
変分推論と Normalizing Flow
Skip Connection まとめ(Neural Network)
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Variational AutoEncoder
【DL輪読会】Flow Matching for Generative Modeling
Sliced Wasserstein距離と生成モデル
モデルアーキテクチャ観点からの高速化2019
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
GAN(と強化学習との関係)
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
PRML学習者から入る深層生成モデル入門
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
これからの Vision & Language ~ Acadexit した4つの理由
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
論文紹介 Pixel Recurrent Neural Networks
自己教師学習(Self-Supervised Learning)
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Ad

Similar to [DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme (18)

PPTX
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
深層生成モデルに基づく音声合成技術
PPTX
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
PDF
ICASSP読み会2020
PDF
WaveNetが音声合成研究に与える影響
PPTX
Image net classification with Deep Convolutional Neural Networks
PDF
[DL輪読会]One Model To Learn Them All
PDF
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
PPTX
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PDF
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
PDF
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
PPTX
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
PPTX
猫でも分かるVariational AutoEncoder
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
【DL輪読会】マルチモーダル 基盤モデル
Abstractive Text Summarization @Retrieva seminar
深層生成モデルに基づく音声合成技術
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
ICASSP読み会2020
WaveNetが音声合成研究に与える影響
Image net classification with Deep Convolutional Neural Networks
[DL輪読会]One Model To Learn Them All
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
【DL輪読会】HyperTree Proof Search for Neural Theorem Proving
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
猫でも分かるVariational AutoEncoder
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Di ff usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme 発表者: 阿久澤圭 (松尾研D3)
  • 2. 書誌情報 • タイトル:Di ff usion-based Voice Conversion with Fast Maximum Likelihood Sampling Scheme • 著者:Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Sergeevich Kudinov, Jiansheng Wei(所属: Huawei Noah s Ark Lab) • 発表:ICLR2022 (oral) • 概要:深層生成モデルの一種であるDi ff usion Modelを音声変換に利用 • 発表理由:Di ff usion-based 生成モデルの勉強,VCへの興味
  • 3. 研究背景:音声変換(Voice Conversion, VC) • Voice conversion (VC): ある発話の言語内容を保ったまま,声質を特定の人物に変換する • One-shot VC: one-shotで任意話者に適応 => ソース話者の音声を訓練に利用できない => モデルが特定の話者に依存してはいけない => 既存研究は入力から話者非依存の特徴量を抽出(VAE,Vector Quantization,PPG) Model (e.g., DNN) ソース話者 ターゲット話者
  • 4. 論文の概要 • 現状のVCの課題:品質と高速化 • 本研究の提案: • 高品質な音声変換が可能なエンコーダー・デコーダーモデルを提案 • エンコーダー:「平均声」を出力する( 新たな話者非依存の特徴量の提案) • デコーダー:Di ff usion Probabilistic Model (DPM)を採用 • 加えて,DPMの推論の高速化のための新しい手法を提案 • VC以外でも利用できる,汎用的な手法 ≈
  • 6. エンコーダー • エンコーダーは「平均声」を予測するようにMSEで訓練 • 「平均声」:特定の音素(a, i, u, e, oなど)に対応する音声データをたくさん集めて,それらの 音声データを平均化したもの.平均化しているので話者に非依存 • この枠組の新規性について: • 従来手法:音素予測タスクや情報ボトルネック等を利用して,話者非依存の特徴量を抽出 • 提案手法:平均声は,音素( PPG)よりもリッチな情報を持つ表現 ≈
  • 7. デコーダー • Di ff usion Probabilistic Model (DPM) のReverse Processを利用
  • 8. デコーダーの理解に必要な知識 Song. et. al. 2019 Score-matching with Langevin dynamics Score-based 生成モデル Sohl-Dickstein+2015, Ho+2020 Denoting di ff usion probabilistic modeling Song. et. al. 2021 Score-based 生成モデルの 連続時間化( Neural ODE化) ≈ Popov. et. al. 2022 本論文
  • 9. 離散版 Di ff usion Probabilistic Model (DPM) • Forward Process:データからノイズを生成.既知・簡単. • Reverse Process:ノイズからデータを生成.未知・扱うのが困難 => DNNで近似する Ho et al. 2020
  • 10. 連続版のDPM • Song et. al. 2021 は先ほどのDPMを連続時間の場合に拡張 • メリット1: Forward, BackwardのPassは確率微分方程式 => 任意のSolver (e.g., Euler-Maruyama)で計算可能 • メリット2: パラメータの効率性が良い(論文中に記載はないがNeural ODE一般にメリット) • しかし,Reverse SDE に登場するスコア関数 が未知なので,Reverse SDEの計算はナイーブには困難 => DNN で近似する(時刻 を入力にとる関数であり,Neural ODEとアイデアを共有) ∇log pt(x) sθ(x(t), t) t Song et al. 2021
  • 11. 本研究のデコーダー • 基本的にSong et. al. 2021と同じ • 特殊な点:PriorがData dependentである • エンコーダーの出力 を,終端分布 の平均として採用(普通は標準ガウス分布) => ソース音声による条件付き生成を可能に X̄ p(XT)
  • 12. サンプリング手法の提案 • 背景: • VCではリアルタイム性が重視される • しかしSDEの数値計算に利用される手法(Euler-Maruyama Solver 等)は反復計算を必要とするため,そのIteration数がボトルネック • 提案手法:Maximum Likelihood SDE solver • 更新式: • NOTE: Euler-Maruyama法の一般化( ) • ざっくりとしたメリット:提案手法で得たパス は任意のス テップ数 において尤度を最大化 ̂ κt,h = 0, ̂ ωt,h = 0, ̂ σt,h = βth X = {Xkh}N k=0 N
  • 13. 実験 既存手法との比較 • 提案手法:Di ff -VCTK-ML-N(Nは推論時のIterationの数) • 評価基準:Naturalness(自然さ),Similarity(ターゲット話者っぽく聞こえるか) • 評価指標:MOS; Mean Opinion Score (人間による1 5点の評価) • 音声デモあり:https://di ff vc-fast-ml-solver.github.io
  • 14. 実験 推論手法の比較 • 推論手法:EM(Euler-Maruyama), PF(Song+2021),ML(提案) • EMはiteration数6だとほとんど性能が出ない
  • 15. まとめと発表者感想 • まとめ • Di ff usion-modelを利用したVC手法の提案 • 高速化のための推論手法も同時に提案 • 実験ではかなり高いMOSを達成(3.5以上は自分の知る限りSoTA) • 発表者感想 • サーベイ中Di ff usion Probabilistic Modelは品質・速度ともに数年でかなり進歩した印象をうけた • エンコーダーとデコーダーの貢献,どちらが大きいのか知りたい • エンコーダーの出力を音素事後確率(PPG)にしたらどうなる?
  • 16. References • Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pp. 2256‒2265, 2015. • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising di ff usion probabilistic models. Advances in Neural Information Processing Systems, 33, 2020. • Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. In Advances in Neural Information Processing Systems, pp. 11895‒ 11907, 2019. • Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-Based Generative Modeling through Stochastic Di ff erential Equations. In International Conference on Learning Representations, 2021.