SlideShare a Scribd company logo
11
Most read
12
Most read
13
Most read
クラウドソーシングを利用した
対訳方言音声コーパスの構築
○高道 慎之介,猿渡 洋 (東大院・情報理工)
日本音響学会 2017年 秋季研究発表会
1-8-4
/14
概要
 背景:機械学習技術の発達により音声言語研究が加速
– 次のステップの1つが (日本語)方言
– しかし,音声言語処理に使える方言コーパスは非常に限定的
 提案:クラウドソーシングを利用した対訳方言コーパス CPJD
– Crowdsourced Parallel corpora of Japanese Dialect
– クラウドソーシングを利用したオンラインのコーパス収集
– 標準語との対訳テキストとその読み上げ音声
 結果:
– 21の方言・計9時間分のコーパスを作成
2
/14
既存の日本語方言コーパス
 既存のコーパス
– 日本語危機方言データベース
– 甑島方言アクセントデータベース
– 「日本語方言の地域差」方言音声コーパス など
– → 音声言語研究に利用できるデータは限定的…
 日本語対訳方言コーパス [Yoshino et al., 2016.]
– 8都道府県,話者毎に100文を理想的な環境で収録
– 標準語との対訳方言テキスト,その読み上げ音声
– → 音声合成のみならず,音声認識・言語処理にも応用可能
– → しかし,このような理想的な環境で収録できる方言は少数
3
/14
CPJDコーパスの狙い
 ①ウェブ音声収録・クラウドソーシングの利用
– 一般家庭環境における,読み上げ音声の収録
– 地理的・金銭的制約を緩和する,比較的安価なデータ収集方法
 ②多くの地域の方言の収集
– 地理情報・話者の年齢情報などを利用した混合方言モデル
– → (時)空間情報を利用した音声言語処理へ
4
音声収録依頼・依頼費
方言データ
CPJDコーパスの構築
5
/14
収集手順
 ①標準語テキストの構築
– 収録者に翻訳させる標準語テキスト [Yoshino et al., 2016.]
 ②ウェブ音声収録プラットフォームの構築
– ブラウザ上での音声収録
 ③収録者募集とデータ収集
– クラウドソーシングサービスで募集
– 収録者は,標準語を自らの方言に翻訳して朗読
 ④発話誤りとポーズ位置推定
– データ収集後に人手でアノテーション
6
/14
標準語テキストの作成と
ウェブ音声収録プラットフォーム
 標準語テキストの作成
– 以下の2コーパスから,ランダムに文を抽出
• 日本書き言葉均衡コーパス [Maekawa et al., 2014.] のブログエントリ
• KNBコーパス [Hashimoto et al., 2011.]
– 地域性のある固有名詞 (地名など) は除外
– 現代にそぐわない単語は置換 (携帯電話 → スマートフォン)
 ウェブ音声収録プラットフォーム
– Recorder.js*を用いて,以下の機能をもつWebページを作成
• 収録開始・停止ボタン
• パワースペクトル,時間波形の表示
– 発音誤り検出・音声区間検出・音量調整機能は非実装
7
*https://github.com/mattdiamond/ Recorderjs
/14
収録者募集とデータ収集
 収録者の募集
– クラウドソーシングサービス上で収録者を募集
– (収集データを研究資料とすることに承諾した人のみ)
 作業手順
– 作業は全て,各家庭のPCもしくはスマートフォンで実施
– 標準語テキストを自らの方言に翻訳
– 翻訳したテキストを朗読し,その音声を録音
• その方言テキストと音声ファイルを提出
 インストラクション
– 敬語表現を日常表現に置換すること
– 生活音の混入を出来る限り避けること
8
収集結果と分析
9
/14
収集条件と結果
10
サービス ランサーズ (http://www.lancers.jp/)*
標準語テキスト 各話者毎に250文
サンプリング周波数 44.1 kHz or 48 kHz
募集期間 2017/04~05のうち5日間
発話者選択 都道府県と方言がかぶらない様に選択
話者数 22名(男性9名,女性13名)
平均発話分数 24分36秒/話者 (非音声区間を含む)
方言数 21
条件
結果
*研究グループで日常的に使用しているため,このサービスを利用した.
/14
収集地域と方言
11
北海道弁,津軽弁
秋田弁
金沢弁,福井弁,大阪弁
奈良弁,京都弁,京言葉
出雲弁,広島弁
岡山弁
伊予弁,阿波弁
土佐弁福岡弁,宮崎弁
諸県弁
いわき弁,埼玉弁
静岡弁
0 500
/14
収集データの例
12
標準語
できるだけスマートフォンひとつで身の回りのこと
全て片付けようとしているようだ.
宮崎弁
なるだけスマートフォンひとつで身んまわりんこと
全部片付けようとしちょるみたいやね.
津軽弁
でぎるだげスマートフォンばりで身の回りのこと
まるっととっけるんた.
標準語
これからこの機能が加わったからといって
特別ハッピーなわけでもない
京言葉*
これからこの機能が加わったからゆうて
特別ハッピーなわけでもあらへん.
阿波弁
これからほの機能が加わったからといって
特別ハッピーなわけやないし.
*収録者と相談して,京言葉(祇園言葉)と京都弁は別の方言としてカウント
/14
発話者毎のSN比
(decision directed法[Plapous et al., 2006.]を用いて計算)
13
Min -2.1
Max 57.8
Mean 15.1
Median 12.6
/14
まとめ
 日本語対訳方言コーパスCPJDを構築
– 標準語テキスト・方言テキスト・方言音声・地理データ
– 21の方言,計9時間の音声データ
 今後の予定
– 雑音環境下音声からの高品質音声合成
• 宇根 他, “雑音環境下音声を用いた音声合成のための雑音生成モ
デルの敵対的学習,” SLP研究会10月 で発表予定
– 地理データ(空間情報)を用いた方言音声合成
14

More Related Content

PDF
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
PDF
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
PDF
miyoshi17sp07
PDF
音情報処理における特徴表現
PDF
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
PDF
miyoshi2017asj
ODP
音声認識の基礎
PDF
Moment matching networkを用いた音声パラメータのランダム生成の検討
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
miyoshi17sp07
音情報処理における特徴表現
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
miyoshi2017asj
音声認識の基礎
Moment matching networkを用いた音声パラメータのランダム生成の検討

What's hot (20)

PDF
saito2017asj_vc
PDF
Nakai22sp03 presentation
PDF
Saito19asjAutumn_DeNA
PDF
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
PDF
Saito18sp03
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
PPTX
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
PDF
Saito20asj_autumn
PDF
音声の声質を変換する技術とその応用
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
PDF
Saito19asj_s
ODP
音声の認識と合成
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
PDF
複数話者WaveNetボコーダに関する調査
PDF
Saito17asjA
PDF
Saito21asj Autumn Meeting
PDF
WaveNetが音声合成研究に与える影響
saito2017asj_vc
Nakai22sp03 presentation
Saito19asjAutumn_DeNA
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Saito18sp03
短時間発話を用いた話者照合のための音声加工の効果に関する検討
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
Saito20asj_autumn
音声の声質を変換する技術とその応用
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Saito19asj_s
音声の認識と合成
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
複数話者WaveNetボコーダに関する調査
Saito17asjA
Saito21asj Autumn Meeting
WaveNetが音声合成研究に与える影響
Ad

More from Shinnosuke Takamichi (20)

PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
PDF
音声合成のコーパスをつくろう
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
PDF
国際会議 interspeech 2020 報告
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
PDF
音声合成研究を加速させるためのコーパスデザイン
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
PDF
論文紹介 Building the Singapore English National Speech Corpus
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
PDF
JVS:フリーの日本語多数話者音声コーパス
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
PDF
統計的ボイチェン研究事情
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
統計的ボイチェン研究事情
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Ad

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”