SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Parallel WaveNet: Fast High-Fidelity Speech Synthesis",
Google
Kei	Akuzawa,	Matsuo	Lab	M1
Agenda
1. 書誌情報
2. アブストラクト
3. (DLを使った)⾳声合成の概要
4. Parallel	WaveNet
1. イントロ
2. WaveNet
3. ParallelWaveNet
4. Probability	Density	Distillation
5. 実験
5. 感想
ØDLを使った⾳声合成の概要とWaveNetの位置付けについても話します
ØIAFおよびParallelWaveNetについて、書かれていない部分を妄想で補っているので、
間違いがありましたらご容赦ください
書誌情報
• タイトル:	Parallel	WaveNet:	Fast	High-Fidelity	Speech	Synthesis	
• 著者:	Aaron	van	den	Oord	+	(Google)
• 投稿先:	arxiv 2017/11 (https://arxiv.org/abs/1711.10433)
• 選定理由
• ⾳声合成に興味があった
• GoogleAssistantに使われている技術
• 「⾃⼰回帰NNを順伝播型NNに蒸留」が気になった
アブストラクト
• "WaveNet"はSOTAな⾳声合成⼿法である
• しかし、⾃⼰回帰⽣成モデルなので、⽣成が遅い
• ⾳声データだと、1秒の⾳声を⽣成するために16000回サンプリングが必要
• 提案⼿法"Probability	Density	Distillation":
• ParallelWavenet(順伝播型)の確率密度を、Wavenet(⾃⼰回帰型)の確率密度に近づける
• ParallelWaveNetは、旧WaveNetからほぼ精度を落とさずにreal-timeの20倍(旧
WaveNetの1000倍)早い⽣成が可能になる
⾳声合成の概要
• ⾳声合成とは? => テキスト系列から⾳声系列へのseq2seq
• 伝統的な統計的⾳声合成では、機械学習モデルはテキストから⾳響特徴量の予測
のみを⾏う
逆フーリエ変換スペクトル
⾳声波形
今⽇は寒いですね
テキスト + ⾔語特徴量
機械学習モデル
による予測
⾳響特徴量
MGC, F0, etc
再構成
機械学習モデル Vocoder
⾳声合成の概要 ⾳響特徴量について
• 抽出⼿順:	
• 短時間(TTSでは5ms程度)の⾳声波形をフーリエ変
換することでスペクトルを得る
• 5msなど、分析の対象となる時間幅をフレームと呼ぶ
• スペクトルから⾳響特徴量を抽出する
• 役割:
• MFCC:	声道、⿐腔の形状の情報を持ち、声質、⾳
素の分類に有⽤
• F0(基本周波数):	声の⾼さ、イントネーション、ア
クセントなど
• etc.
フーリエ変換&特徴量抽出
⾳響特徴量
⾳声波形
5ms
⾳声合成の概要 DNN初期
• STATISTICAL	PARAMETRIC	SPEECH	SYNTHESIS	
USING	DEEP	NEURAL	NETWORKS	(Zen+(Google),	
ICASSP2013	)	
• ⾳響特徴量フレーム⼀つ⼀つを順伝播型NNで
予測
• ⼊⼒(⾔語特徴量)と出⼒(⾳響特徴量)の系列⻑
が揃わない
• 「⼀つの⾳素が何フレーム続くか」とい
う情報を使って、⾔語特徴量を引き延ば
す必要があった
• 「⼀つの⾳素が何フレーム続くか」を別
のモデルで予測する必要があった
⾳声合成の概要 towards	End-to-End	[Encoder-Decoder]
• DNN初期の⼿法は、⼊⼒(⾔語特徴量)と出
⼒(⾳響特徴量)の系列⻑を合わせるために
頑張る必要があった
• 最近の⼿法では、機械翻訳と同様の
EncoderDecoder(with	attention)構造によって、
⼊⼒と出⼒の系列⻑が異なってもそのまま訓
練できるようになった
• Char2Wav(Sotelo+	2017)
• Tacotron(Wang+	2017)
• VoiceLoop(Taigman+	2017)
• DeepVoice3(Ping+	2017)
• Tacotron2(Shen+	2017)
(Tacotron2)
⾳声合成の概要 towards	End-to-End	[波形⽣成]
• 伝統的な⾳声合成モデルでは、機械学習モデルは⾳響特徴量の予測までを担い、
「⾳響特徴量から⾳声波形の予測」は"Vocoder"と呼ばれるツールに任せていた
• Vocoderの例:	WORLD,	STRAIGHT
• "Vocoder"によって⾳声合成の質が左右されたくない =>	⾳声波形を直接⽣成すれ
ばいいのでは?
• WaveNet(Aaron+	2016)
• SampleRNN (Mehri+	2017)
• ただし、WaveNet⾃体は前述のEncoder-Decoder構造を持たないので、DNN初期の
ような⼿法で⼊⼒と出⼒の系列⻑を合わせる必要がある
• WaveNetとEncoder-Decoder構造組み合わせたらよくね? =>	Tacotron2
⾳声合成の概要 towards	End-to-End	[波形⽣成]
• WaveNetによる⽣成のイメージ
⾳声波形
今⽇は寒いですね
テキスト
⾳響特徴量
F0
外部モデル WaveNet
⾔語特徴量
⾳素
継続⻑
Agenda
1. 書誌情報
2. アブストラクト
3. (DLによる)⾳声合成の概要
4. Parallel	WaveNet
1. イントロ
2. WaveNet
3. ParallelWaveNet
4. Probability	Density	Distillation
5. 実験
5. 感想
Parallel	WaveNet:	イントロ
• やること:
1. 既存⼿法WaveNetは訓練が⾼速
2. 提案⼿法ParallelWaveNetはサンプリングが⾼速
3. 訓練済みWaveNetを教師として、ParallelWaveNetを蒸留により効率的に訓練する
4. そうして得たParallelWaveNetより⾼速なサンプリングが可能となる
構造 訓練 サンプリング
WaveNet ⾃⼰回帰⽣成モデル 早い 遅い
Parallel WaveNet ⾃⼰回帰⽣成モデル
の双対表現(Inverse	
Autoregressive Flows)
遅い 早い
Parallel	Wavenet:	WaveNet
• 詳細:	https://www.slideshare.net/DeepLearningJP2016/dlwavenet-a-generative-model-
for-raw-audio
• WaveNetは⾃⼰回帰⽣成モデル
=>	⾼次元のデータの同時分布を条件付き分布の積に変形
𝑝 𝑥#, … , 𝑥& =	∏ 𝑝&
*+# 𝑥* 𝑥,*, ; 𝜽 , 		 𝑥*:	時刻tでの⾳声波形の値,	𝜃:	パラメータ
Parallel	Wavenet:	WaveNet
• 構造:
• Causal	Convolution:	未来の情報を⾒ない
• Dilated	Convolution:	遠くを⾒る
• Gated	Activation:	
• 学習可能な⾮線形活性化関数
• 𝒛 = tanh(𝑊8,9 ∗ 𝒙) ⨀	𝜎(𝑊?,9 ∗ 𝒙)
• Conditioning:
• テキスト、話者などの追加情報(𝒉)で条件付け
• 𝒛 = tanh(𝑊8,9 ∗ 𝒙 + 𝑉8,9 ∗ 𝒉) ⨀	𝜎(𝑊?,9 ∗ 𝒙 + 𝑉8,9 ∗ 𝒉)
• オリジナルのWaveNetと、この論⽂での教師WaveNetの変更点:	⾼解像度化
• ⾳声のビット深度を8-bitから16-bitへ(65536クラス)
Øモデルの出⼒𝑝 𝑥* 𝑥,*, ; 𝜽 を、多項分布からdiscretized	mixture	of	loistics distributionへ
• ⾳声を16kHzから24kHzへ(サンプリングレートを3/2倍)
Ødilated	convolutionのfilter	sizeを2から3へ
Parallel	Wavenet:	Parallel	WaveNet
• Parallel	WaveNetの前に、前提知識として以下2つを話します
• Normalizing	Flows:	
• 変分推論において、真の事後分布を近似するための、柔軟な事後分布を記述する⼿法
• Inverse	Autoregressive	Flows	(IAF)
• Normalizing	Flowsの⼀種
• Parallel	WaveNetはIAFを使⽤
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows]
• Normalizing	Flows	(Rezende+,	2015):
• 単純な多変量分布𝑝C(𝒛)を出発点とする(例えば、分散が単位⾏列のロジスティック分布)
• 確率変数に対し以下の変換を⾏う:	
• 𝒙 = 𝑓(𝒛) ,	ただし𝑓は⾮線形でinvertibleな変換
• このときの確率密度関数:
• log𝑝H 𝒙 = log𝑝C 𝒛 	− log|
K𝒙
K𝒛
|
• よって、 𝑝C 𝒁 を介して複雑な多変量分布𝑝H 𝒙 からサンプリングを⾏なったり、尤度を計算
することができる
• 変換を複数回⾏うと、さらに柔軟な分布を得ることが期待できる
• 𝐳 𝐊 = 𝑓O 	∘ ⋯ ∘ 𝑓R 	∘ 𝑓# 	∘ (𝒛 𝟎)
• ただし、|
K𝒙
K𝒛
|(⾏列式)の計算量は普通𝑂(𝑛V) =>	効率的でない
• |
K𝒙
K𝒛
|の計算が効率的になるような𝑓を設計する必要がある =>	IAFへ
Parallel	Wavenet:	Parallel	WaveNet [IAF]
• Inverse	Autoregressive	Flows(Kingma+,	2017):
• 𝒙 = 𝑓(𝒛)を以下のように設計する
𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 ,		ただし𝒙 = 𝑥#, … , 𝑥& , 𝒛 = [𝑧#, … , 𝑧]
• このとき,
K^_
K`a
=
𝑧* X
Kb 𝒛cd,𝜽
K`a
, 	𝑖𝑓	𝑖 > 𝑗
𝑠 𝒛,*, 𝜽 , 						𝑖𝑓	𝑖 = 𝑗
0, 																			𝑖𝑓	𝑖 < 𝑗
• よって
K𝒙
K𝒛
は下三⾓⾏列となり、効率的に計算できる
log
K𝒙
K𝒛
= ∑ log
K^d
K`d
&
*+#
= ∑ log&
*+# 𝑠 𝒛,*, 𝜽
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows	+	VAE]
• Normalizing	Flows	の使⽤例:	VAE
• 通常VAEでは、事後分布を 𝑞l 𝒛 𝟎 𝒙 ~	𝑁(𝜇 𝒙 , 𝜎 𝒙 ) と仮定する
• これにNormalizin Flowsによる変換をK回ほどこすと、柔軟な分布𝑞Oが得られる
• 𝐳 𝐊 = 𝑓O 	∘ ⋯ ∘ 𝑓R 	∘ 𝑓# 	∘ (𝒛 𝟎)
• log𝑞O 𝒛 𝑲 𝒙 = log𝑞l 𝒛 𝟎 𝒙 	− ∑ logO
9 |
K𝒛 𝒌
K𝒛 𝒌q𝟏
|
• 事後分布𝑞が柔軟であるほど,	変分下限が最⼤化できる!!
• 𝐿 𝒙; 	𝜽 = 	log𝑝t 𝒙 − 𝐷Ov[𝑞 𝒛 𝒙 	||	𝑝 𝒛 𝒙 ]
• VAE+IAFはPixelCNNと尤度評価でいい勝負(すごい)
inverse	autoregressive	flow
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows	+	⽣成モデル]
• Normalizing	Flowsは単体で⽣成モデルとして使うこともできる
• 以下の設定を考える
• 𝒛~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0, 𝑰)
• 𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 … ①,		ただし𝒙 = 𝑥#, … , 𝑥& , 𝒛 = [𝑧#, … , 𝑧]
• このとき、𝑥*~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝜇 𝒛,*, 𝜽 , 𝑠 𝒛,*, 𝜽 )
• サンプリング:	早い
• 𝒛~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0, 𝑰)から適当に𝒛をサンプリング
• すべてのtについて、𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 を並列計算できる
• 訓練:	遅い
• 𝒙が観測されたもとで、𝑥*の尤度を計算したい =>	 𝜇 𝒛,*, 𝜽 , 𝑠 𝒛,*, 𝜽 が欲しい =>𝒛,*が欲しい
• ①を変形すると、𝑧* =
^d}~ 𝒛cd,𝜽
b 𝒛cd,𝜽
=>	これを𝑧#から逐次的に解けば𝒛,*が得られる
• この計算は𝒛に関する⾃⼰回帰モデルなので、遅い
Parallel	Wavenet:	Parallel	WaveNet [構造]
• WaveNetと同様のCausal	+	Dilated	Convolution
• ⼊⼒:	𝐳~𝕃(0, 𝑰)	
• 出⼒:	𝜇 𝒛,𝒕, 𝜽 , 𝑠 𝒛,𝒕, 𝜽
• 出⼒分布:	𝑥*~𝕃 𝜇 𝒛,𝒕, 𝜽 , 𝑠 𝒛,𝒕, 𝜽 , 𝑤ℎ𝑒𝑟𝑒	𝑥* = 𝑧* ⋅ 𝑠 𝒛,𝒕, 𝜽 + 𝜇 𝒛,𝒕, 𝜽
𝜇 𝒛,𝒊, 𝜽 , 𝑠 𝒛,𝒊, 𝜽
Parallel	Wavenet:	Probability	Density	Distillation
• Parallel	WaveNetで直接尤度最⼤化をすると遅い(前述)
• そこで、提案⼿法Probability	Density	Distillationは、以下のKL距離を最⼩化する
𝐷Ov(𝑝b 𝒙 | 𝑝& 𝒙 , 𝑤ℎ𝑒𝑟𝑒	𝑝b 𝒙 = Parallel	WaveNet,		𝑝& 𝒙 = WaveNet
• IAFの使い⽅をVAEとParallelWaveNetで⽐較:
• VAEでは未知の分布𝑝 𝒛 𝒙 とのKL距離を暗黙的に最⼩化
• ここでは既知の分布𝑝& 𝒙 とのKL距離を直接最⼩化
Parallel	Wavenet:	Probability	Density	Distillation
並列化可能
並列化可能
Parallel	Wavenet:	Probability	Density	Distillation
• 𝐻 𝑃•, 𝑃& = ∑ 𝔼‘’ 𝒙cd
&
*+# 𝐻(𝑝• 𝑥*|𝒙,* , 𝑝& 𝑥*|𝒙,* )のイメージ
• ⽣徒(Parallel	WaveNent)から𝒙のサンプリングを⾏い、それを教師(WaveNet)への⼊⼒として
𝑝& 𝑥*|𝒙,* を(すべてのtについて並列に)計算
Parallel	Wavenet:	Probability	Density	Distillation	[追加的なloss]
• Probability	Density	Distillation	にいくつかのLossを追加
• Power	Loss:	 𝜙 𝑔 𝒛, 𝒄 − 𝜙 𝒚
R
, 𝑤ℎ𝑒𝑟𝑒	𝜙 𝒙 = 𝑺𝑻𝑭𝑻 𝒙 R
• 合成⾳声のpowerを全ての周波数帯で本物に近づける
• Perceptual	Loss:	⾳素識別器に真の⾳声、合成⾳声を与えてFeature	Matching
• Contrastive	Loss:	−𝛾𝐷Ov(𝑝b 𝒄𝒊 ||𝑝& 𝒄𝒋›𝒊 )
• 話者、テキストによる条件付け𝒄𝒊が異なる時のKL距離を最⼤化する
Parallel	Wavenet:	実験
• 教師WaveNetの設定:
• ⾳声データは7680timesteps(約320ms)に揃える
• 10	x	3	=	30層のDilated	CNN
• ⽣徒ParallelWaveNetの設定
• IAFを4回適⽤する
• 10	+	10	+	10	+	30	=	60層
Parallel	Wavenet:	実験
• 伝統的⼿法よりMOSが向上
• 蒸留してもMOSは落ちない
• ⾳声を16->24kHz,	8->16bit	に変えたことによる効果もあると思われる
Parallel	Wavenet:	実験
• Multi-Speaker(⼀つのモデルで、複数⼈の話者の⾳声を再現)でもよい精度
• ただ、⼀⼈当たりの訓練データ量が多いので、パラメータ共有のメリットを⾔え
ていない気が個⼈的にしている
Parallel	Wavenet:	実験
• 追加的なLossを使うことによりMOSが向上
• KL(Probability	Density	Distillation)単体だと⾃然な⾳声が⽣成されず、最低でも
Power	Lossと組み合わせる必要がある
感想
• IAF⾃体は昔からある⼿法ですが、「⾃⼰回帰モデルの弱点を補うために、⾃⼰
回帰モデルの双対表現であるIAFを使う」という発想はおそらくこの論⽂が初出
で、かっこいいです
• KL単体の最⼩化ではうまくいかず、いろいなLossを追加したりしていて実験が⼤
変そう
References
• Zen,	Heiga,	Senior,	Andrew,	and	Schuster,	Mike.	Statistical	parametric	speech	synthesis	using	deep	neural	networks.	In	
Proceedings	of	the	IEEE	International	Conference	on	Acoustics,	Speech,	and	Signal	Processing	(ICASSP),	pp.	7962–7966,	2013.	
• Jose	Sotelo,	Soroush	Mehri,	Kundan	Kumar,	Joao	Felipe	Santos,	Kyle	Kastner,	Aaron	Courville,	and	Yoshua	Bengio.	Char2wav:	
End-to-end	speech	synthesis.	In	ICLR	workshop,	2017.	
• Y.	Wang,	R.	Skerry-Ryan,	D.	Stanton,	Y.	Wu,	R.	J.	Weiss,	N.	Jaitly,	Z.	Yang,	Y.	Xiao,	Z.	Chen,	S.	Bengio,	Q.	Le,	Y.	
Agiomyrgiannakis,	R.	Clark,	and	R.	A.	Saurous,	“Tacotron:	Towards	end-to-end	speech	synthesis,”	in	Proceedings	of	Inter-	
speech,	Aug.	2017.	
• Taigman, Yaniv; Wolf, Lior; Polyak, Adam; Nachmani, Eliya,	VoiceLoop:	Voice	Fitting	and	Synthesis	via	a	Phonological	Loop.	
arXiv	preprint	arXiv:1707.06588,	2017
• W.Ping,K.Peng,A.Gibiansky,S.O	̈.Arik,A.Kannan,	S.	Narang,	J.	Raiman,	and	J.	Miller,	Deep	voice	3:	2000-	speaker	neural	text-to-
speech.	arXiv	preprint	arXiv:1710.07654,	2017.	
• Jonathan	Shen, Ruoming	Pang, Ron	J.	Weiss, Mike	Schuster, Navdeep	Jaitly, Zongheng	Yang, Zhifeng	Chen, Yu	Zhang, Yuxuan	
Wang, RJ	Skerry-Ryan, Rif	A.	Saurous, Yannis	Agiomyrgiannakis, Yonghui	Wu,	Natural	TTS	Synthesis	by	Conditioning	WaveNet	
on	Mel	Spectrogram	Predictions.	arXiv	preprint	arXiv:1712.05884,	2017.
• Aaron	van	den	Oord,	Sander	Dieleman,	Heiga	Zen,	Karen	Simonyan,	Oriol	Vinyals,	Alex	Graves,	Nal	Kalchbrenner,	Andrew	
Senior,	and	Koray	Kavukcuoglu.	Wavenet:	A	generative	model	for	raw	audio.	arXiv	preprint	arXiv:1609.03499,	2016.	
• Soroush	Mehri,	Kundan	Kumar,	Ishaan	Gulrajani,	Rithesh	Kumar,	Shubham	Jain,	Jose	Sotelo,	Aaron	Courville,	and	Yoshua	
Bengio.	SampleRNN:	An	unconditional	end-to-end	neural	audio	generation	model.	arXiv	preprint	arXiv:1612.07837,	2016.	
• Danilo	Jimenez	Rezende	and	Shakir	Mohamed.	Variational	inference	with	normalizing	flows.	arXiv	preprint	arXiv:1505.05770,	
2015.	
• Diederik	P	Kingma,	Tim	Salimans,	and	Max	Welling.	Improving	variational	inference	with	inverse	autoregressive	flow.	arXiv	
preprint	arXiv:1606.04934,	2016.

More Related Content

PDF
SSII2019企画: 点群深層学習の研究動向
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
グラフィカルモデル入門
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
実装レベルで学ぶVQVAE
PPTX
猫でも分かるVariational AutoEncoder
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
SSII2019企画: 点群深層学習の研究動向
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
グラフィカルモデル入門
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
実装レベルで学ぶVQVAE
猫でも分かるVariational AutoEncoder
Curriculum Learning (関東CV勉強会)
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...

What's hot (20)

PDF
Optimizer入門&最新動向
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PDF
最適輸送入門
PPTX
Sliced Wasserstein距離と生成モデル
PDF
[DL輪読会]Understanding Black-box Predictions via Influence Functions
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
【DL輪読会】Flow Matching for Generative Modeling
PDF
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
ConvNetの歴史とResNet亜種、ベストプラクティス
PDF
Active Learning の基礎と最近の研究
PDF
ELBO型VAEのダメなところ
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
最適輸送の解き方
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Optimizer入門&最新動向
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
最適輸送入門
Sliced Wasserstein距離と生成モデル
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【DL輪読会】Flow Matching for Generative Modeling
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
[DL輪読会]GQNと関連研究,世界モデルとの関係について
ConvNetの歴史とResNet亜種、ベストプラクティス
Active Learning の基礎と最近の研究
ELBO型VAEのダメなところ
最適輸送の計算アルゴリズムの研究動向
最適輸送の解き方
【DL輪読会】ViT + Self Supervised Learningまとめ
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Ad

Similar to [DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis (20)

PPTX
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
PDF
暗号技術の実装と数学
PPTX
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
PPTX
The review of 'Explaining nonlinear classification decisions with deep Taylor...
PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PDF
PRML復々習レーン#9 6.3-6.3.1
PPTX
PRML第6章「カーネル法」
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PDF
楕円曲線と暗号
PDF
Dynamic Routing Between Capsules
PDF
論文紹介:The wavelet matrix
PDF
Computing for Isogeny Kernel Problem by Groebner Basis
PPTX
レトリバ勉強会資料:深層学習による自然言語処理2章
PDF
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
PDF
楕円曲線入門 トーラスと楕円曲線のつながり
PDF
バイナリニューラルネットとハードウェアの関係
PDF
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
PDF
行列計算アルゴリズム
PDF
文献紹介:SlowFast Networks for Video Recognition
PDF
暗認本読書会13 advanced
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
暗号技術の実装と数学
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
The review of 'Explaining nonlinear classification decisions with deep Taylor...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PRML復々習レーン#9 6.3-6.3.1
PRML第6章「カーネル法」
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
楕円曲線と暗号
Dynamic Routing Between Capsules
論文紹介:The wavelet matrix
Computing for Isogeny Kernel Problem by Groebner Basis
レトリバ勉強会資料:深層学習による自然言語処理2章
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
楕円曲線入門 トーラスと楕円曲線のつながり
バイナリニューラルネットとハードウェアの関係
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
行列計算アルゴリズム
文献紹介:SlowFast Networks for Video Recognition
暗認本読書会13 advanced
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis