SlideShare a Scribd company logo
2
Most read
4
Most read
6
Most read
Onoma-to-wave:
オノマトペを利⽤した環境⾳合成⼿法の提案
☆ 岡本 悠希1,井本 桂右2,1,⾼道 慎之介3,⼭⻄ 良典4,1,福森 隆寛1,⼭下 洋⼀1
⽴命館⼤学1,同志社⼤学2,東⼤院3,関⻄⼤学4
Mar. 11, 2021
⽇本⾳響学会 2021年春季研究発表会 2-2-5
概要
背景︓
u 環境⾳を統計的に合成する技術に関する研究
ü 応⽤例︓背景⾳・効果⾳の作成,環境⾳認識のためのデータ拡張 etc.
u 従来の環境⾳合成では,⽣成⾳の多様性(⾳⾼や⾳⾊など)に⽋ける
u⽣成⾳の多様性を⾃由に制御可能な環境⾳合成⼿法の実現が⽬的
提案法︓
u 系列変換モデルを⽤いたオノマトペからの環境⾳合成
ü ⾳の特徴を模倣したオノマトペを⼊⼒とすることで⽣成⾳の多様性を制御
2/13
提案法により生成音の多様性の制御を実現!!
深層学習を用いた従来の環境音合成
u ⾳響イベントラベルを⼊⼒とする環境⾳合成 [Okamoto+, 2019]
「⾵の⾳」,「⾬⾳」といった⾳の種類を表すラベル
3/13
ベルの音
ひげ剃りの動作音
太鼓の音
笛の音
目覚まし時計の音
紙を引き裂く音
Input: Sound event label Output: synthesized sound
WaveNet
生成する音の種類(音響イベント)が制御可能
生成する音の多様性(音高,音色など)が制御困難
→ 環境音は同じ音響イベントでも音の特徴は多様
柔軟に生成音を制御できる手法が必要!
オノマトペからの環境音合成
u オノマトペは⾳の特徴を表現する⼿段として有効
ü オノマトペ︓⾳の特徴を⾃然⾔語を使⽤して表現したもの(例︓カンカンカン)
ü 環境⾳の検索など幅広い⽤途で使⽤されてる
u オノマトペを⼊⼒とすることで⾳の多様性の制御を期待
ü オノマトペにより⾳⾼や⾳⾊の違いを表現
4/13
図1:オノマトペを入力とする環境音合成の概要
カンカンカンカン ザァー
ブロロロロ
Input: オノマトペ
環境音合成モデル
Output: 合成された環境音
ピー ビイイイ
同じ笛の音でも吹き方によって音の特徴
(音高,音色など)は多様に存在
オノマトペを用いることで音の特徴を表現可能
図2:オノマトペで制御が期待できる音情報の例
提案法の概要
5/13
⾳響特徴量を波形に復元
本研究ではGriffin-Limアルゴリズムを利⽤
⾳響モデルとオノマトペより⾳響特徴量を推定
⾳響特徴量として振幅スペクトログラムを使⽤
学習部において⾳響モデルを作成
オノマトペと⾳響特徴量の対応関係を深層学習にて学習
図3:環境音合成システムの概要
モデル学習
音響モデル
環境音データ オノマトペ
学習部
波形生成
合成音
オノマトペ
合成部
音響特徴量抽出 オノマトペを音素列に変換
音響特徴量推定 オノマトペを音素列に変換
カンカンカン
提案①:オノマトペのみを入力とするモデル学習
u オノマトペのみを⼊⼒とする環境⾳合成の⼿法
ü ⾳⾼や⾳⾊など⾳の多様性の制御を期待
u Sequence-to-sequence学習の利⽤
ü ⼊出⼒の系列間の関係性を学習
ü Encoder-Decoderより構成
• Encoder
• ⼊⼒されたオノマトペより特徴ベクトルを抽出
• Decoder
• Encoderで抽出された特徴ベクトルより⾳響特徴量を推定
6/13
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS> O1
O2
O3
Output: Acoustic features
O1
O2
O3
<EOS>
LSTM
k / a / N / k / a / N / k / a / N
Encoder
Decoder
図4:オノマトペのみを入力とするモデル学習の概要
提案②:オノマトペ + 音響イベントラベル
を入力とするモデル学習
u オノマトペだけでは音響イベントの種類を制御困難
ü 同一オノマトペが複数の音響イベントに対応することもある
• e.g.) ⾵船が割れる⾳「パン」
ピストルの⾳ 「パン」
uオノマトペに加え⾳響イベントラベルも使⽤
ü Encoderの出⼒に⾳響イベントの情報を付加
• ⾳響イベントラベルをOne-hot表現して利⽤
7/13
図5:オノマトペ + 音響イベントラベル を入
力とするモデル学習
オノマトペのみを⼊⼒とする
とどちらの⾳響イベントの⾳
か制御困難
Input: Onomatopoeia
LSTM
Bi-directional
LSTM
<BOS>
Output: Acoustic features
LSTM
Fully
connected
Concat
c
Sound
Event
label
Event label Conditioning
Fully
connected
Concat
k / a / N / k / a / N / k / a / N
Encoder
Decoder
l1
l2
l3
l4
l5
lT
o1
o2
o3
oT'
o1
o2
oT'-1
音響イベントの種類の制御を期待
合成音の品質に関する評価実験
u 主観評価実験を実施
ü 実験Ⅰ︓環境⾳の品質に関する評価
ü 実験Ⅱ︓オノマトペに対する環境⾳の評価
ü 実験Ⅲ︓⾳響イベントラベルを加えることによる⽣成⾳の変化の検証
u 各実験における1⼿法あたりの評価数
ü 実験Ⅰ︓1,500サンプル(50⾳×30⼈)
ü 実験Ⅱ︓3,000サンプル(100⾳×30⼈)
ü 実験Ⅲ︓1,300サンプル(26⾳×50⼈)
u モデル学習に使⽤したデータセット
ü ⾳データ︓RWCP 実環境⾳声・⾳響データベース[Nakamura+, 1999]
• 合計950⾳ (10種類×95⾳)
ü オノマトペ︓RWCP-SSD-Onomatopoeia [Okamoto+, 2020]
• 合計14,250個のオノマトペを使⽤ (950⾳×15オノマトペ)
8/13
表2:実験条件
表1:使用した音響イベント
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
naturalness
非常に自然である
非常に不自然である
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
実験Ⅰ:環境音の品質に関する評価
9/13
WaveNetによる合成音と同程度の品質を獲得
図6:環境音の全体的な印象に関する平均スコアと標準偏差 図7:環境音の自然性に関する平均スコアと標準偏差
u 内容︓⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
WaveNet:
・⾳響イベントラベルのみを⼊⼒とする⼿法
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
・オノマトペと環境⾳が1対1で対応づいており,
波形接続のような⽅式で⾳を⽣成
Seq2Seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2Seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒とし
た提案⼿法
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
W
a
v
e
N
e
t
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
MOS
score
on
overall
impression
非常に良い
非常に悪い
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
○
-
システムへの入力
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Expressiveness
score
非常に表現できている
非常に表現できていない
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
実験Ⅱ:オノマトペに対する環境音の評価
10/13
u 内容︓オノマトペと⾳を被験者に提⽰し,各指標5段階で評価
Natural sounds:
・データセットに含まれる⾳
KanaWave:
・オノマトペから環境⾳を⽣成する従来法
Seq2seq:
・オノマトペのみを⼊⼒とした提案⼿法
Seq2seq + Event Conditioning︓
・オノマトペと⾳響イベントラベルを⼊⼒
とした提案⼿法
従来法 (KanaWave)よりも許容度,表現性ともに高いスコアを獲得
図9:オノマトペに対する環境音の表現性の平均スコアと標準偏差
図8:オノマトペに対する環境音の許容度の平均と標準偏差
⼊⼒オノマトペ︓「ティリリリリリンッ」
⾳響イベント︓「⽬覚まし時計の⾳」
K
a
n
a
W
a
v
e
S
e
q
2
S
e
q
S
e
q
2
S
e
q
+
e
v
e
n
t
l
a
b
e
l
s
N
a
t
u
r
a
l
s
o
u
n
d
s
1
2
3
4
5
Acceptance
score
Natural Sound
Conventional
Proposed
○
オノマトペ
音響イベント
ラベル
○ ○
- - ○
システムへの入力
非常に許容できる
非常に許容できない
実験Ⅲ:音響イベントラベルを加えることによる生成音の変化
の検証
11/13
u 内容︓被験者に⾳を提⽰し,10種類の⾳響イベントラベルから最も当てはまる
と思うラベル1つ選択してもらう
音響イベントラベルも使用することで同一オノマトペから様々な音響イベントを表現可能!!
図10:提案手法における各生成音に対して付与された音響イベントラベルの分布
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Percentage
of
each
sound
event
label
(%)
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
0.0
50.0
100.0
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
C
o
f
f
e
e
g
r
i
n
d
e
r
C
u
p
C
l
o
c
k
W
h
i
s
t
l
e
M
a
r
a
c
a
s
D
r
u
m
S
h
a
v
e
r
T
r
a
s
h
B
o
x
T
e
a
r
i
n
g
B
e
l
l
Sound synthesized by seq2seq with event labels
Sound synthesized by seq2seq
Input onomatopoeia: / b i b i b i b i b i /
Input onomatopoeia: / c h i: q / Input Onomatopoeia: / d u: N /
Input onomatopoeia: / sh a r i sh a r i /
Sound event label: Drum, Trashbox
Sound event label: Clock1, Tearing, Maracas, Coffmill
Sound event label: Shaver, Trashbox
Sound event label: Cup1, Shaver, Tearing, Whistle3
同一オノマトペに対する生成音の多様性に関する分析
12/13
音響イベントラベルを加えることで複数の音響イベントを表現可能に!!
図11:オノマトペ 「ビーイッ」を入力とした各手法における生成音のスペクトログラム
同一オノマトペに対しては類似した音ば
かり生成される
複数の音響イベントを表現できない
音響イベントラベルも用いる
ことで音響イベントの種類の
制御が可能に!!
Natural sound
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq with event labels
Whistle3 Shaver Tearing paper
Frequency
(kHz)
0.0 0.5 1.0 0.0 0.5 1.0 0.0 0.5 1.0 1.5
Time (s)
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
Synthesized sound by Seq2Seq
Frequency
(kHz)
0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
0.0 0.5 1.0 0.0 0.5 1.0
0
1
2
3
4
5
6
7
8
まとめ
u オノマトペからの環境⾳合成⼿法を提案
ü ⼿法①︓オノマトペのみを⼊⼒とする合成⼿法
ü オノマトペを表現した⾳の⽣成を実現
ü ⼿法②︓オノマトペと⾳響イベントラベルを⼊⼒とする⼿法
ü オノマトペでの制御に加え,⾳響イベントの制御も可能に︕︕
u 環境⾳に対する品質評価にて,従来法よりも⾼い合成品質を獲得
u オノマトペに対する環境⾳の評価にて,従来法より⾼いスコアを獲得
⾳響イベントごとに⽣成⾳の詳細な分析を⾏う
13/13
今後の予定
https://y-okamoto1221.github.io/IJCNN_Demonstration_jp/
生成音のデモ

More Related Content

PDF
音声合成のコーパスをつくろう
PPTX
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
PDF
ICASSP 2019での音響信号処理分野の世界動向
PDF
Neural text-to-speech and voice conversion
PDF
JVS:フリーの日本語多数話者音声コーパス
PDF
実環境音響信号処理における収音技術
PDF
音響信号に対する異常音検知技術と応用
PPTX
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音声合成のコーパスをつくろう
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
ICASSP 2019での音響信号処理分野の世界動向
Neural text-to-speech and voice conversion
JVS:フリーの日本語多数話者音声コーパス
実環境音響信号処理における収音技術
音響信号に対する異常音検知技術と応用
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...

What's hot (20)

PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
PDF
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
PDF
WaveNetが音声合成研究に与える影響
PDF
初めてのグラフカット
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PDF
音響システム特論 第11回 実環境における音響信号処理と機械学習
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
PDF
異常音検知に対する深層学習適用事例
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
PDF
音声の声質を変換する技術とその応用
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
PDF
距離学習を導入した二値分類モデルによる異常音検知
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PDF
End-to-End音声認識ためのMulti-Head Decoderネットワーク
PDF
深層生成モデルに基づく音声合成技術
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
PDF
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
音源分離における音響モデリング(Acoustic modeling in audio source separation)
環境音の特徴を活用した音響イベント検出・シーン分類
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
WaveNetが音声合成研究に与える影響
初めてのグラフカット
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
音響システム特論 第11回 実環境における音響信号処理と機械学習
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
異常音検知に対する深層学習適用事例
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音声の声質を変換する技術とその応用
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
距離学習を導入した二値分類モデルによる異常音検知
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
End-to-End音声認識ためのMulti-Head Decoderネットワーク
深層生成モデルに基づく音声合成技術
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Ad

Similar to Onoma-to-wave: オノマトペを利用した環境音合成手法の提案 (9)

PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
PPTX
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
PPTX
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
PDF
Nakai22sp03 presentation
PDF
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
PDF
Thesis introduction audo_signal_processing
PPTX
音声分析合成[7].pptx
PPTX
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
PDF
招待講演(鶴岡)
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
Nakai22sp03 presentation
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
Thesis introduction audo_signal_processing
音声分析合成[7].pptx
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
招待講演(鶴岡)
Ad

Onoma-to-wave: オノマトペを利用した環境音合成手法の提案