日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”

クラウドソーシングを利用した
対訳方言音声コーパスの構築
○高道慎之介，猿渡洋 (東大院・情報理工)
日本音響学会 2017年秋季研究発表会
1-8-4

/14
概要
 背景：機械学習技術の発達により音声言語研究が加速
– 次のステップの1つが (日本語)方言
– しかし，音声言語処理に使える方言コーパスは非常に限定的
 提案：クラウドソーシングを利用した対訳方言コーパス CPJD
– Crowdsourced Parallel corpora of Japanese Dialect
– クラウドソーシングを利用したオンラインのコーパス収集
– 標準語との対訳テキストとその読み上げ音声
 結果：
– 21の方言・計9時間分のコーパスを作成
2

/14
既存の日本語方言コーパス
 既存のコーパス
– 日本語危機方言データベース
– 甑島方言アクセントデータベース
– 「日本語方言の地域差」方言音声コーパスなど
– → 音声言語研究に利用できるデータは限定的…
 日本語対訳方言コーパス [Yoshino et al., 2016.]
– 8都道府県，話者毎に100文を理想的な環境で収録
– 標準語との対訳方言テキスト，その読み上げ音声
– → 音声合成のみならず，音声認識・言語処理にも応用可能
– → しかし，このような理想的な環境で収録できる方言は少数
3

/14
CPJDコーパスの狙い
 ①ウェブ音声収録・クラウドソーシングの利用
– 一般家庭環境における，読み上げ音声の収録
– 地理的・金銭的制約を緩和する，比較的安価なデータ収集方法
 ②多くの地域の方言の収集
– 地理情報・話者の年齢情報などを利用した混合方言モデル
– → (時)空間情報を利用した音声言語処理へ
4
音声収録依頼・依頼費
方言データ

/14
収集手順
 ①標準語テキストの構築
– 収録者に翻訳させる標準語テキスト [Yoshino et al., 2016.]
 ②ウェブ音声収録プラットフォームの構築
– ブラウザ上での音声収録
 ③収録者募集とデータ収集
– クラウドソーシングサービスで募集
– 収録者は，標準語を自らの方言に翻訳して朗読
 ④発話誤りとポーズ位置推定
– データ収集後に人手でアノテーション
6

/14
標準語テキストの作成と
ウェブ音声収録プラットフォーム
 標準語テキストの作成
– 以下の2コーパスから，ランダムに文を抽出
• 日本書き言葉均衡コーパス [Maekawa et al., 2014.] のブログエントリ
• KNBコーパス [Hashimoto et al., 2011.]
– 地域性のある固有名詞 (地名など) は除外
– 現代にそぐわない単語は置換 (携帯電話 → スマートフォン)
 ウェブ音声収録プラットフォーム
– Recorder.js*を用いて，以下の機能をもつWebページを作成
• 収録開始・停止ボタン
• パワースペクトル，時間波形の表示
– 発音誤り検出・音声区間検出・音量調整機能は非実装
7
*https://github.com/mattdiamond/ Recorderjs

/14
収録者募集とデータ収集
 収録者の募集
– クラウドソーシングサービス上で収録者を募集
– (収集データを研究資料とすることに承諾した人のみ)
 作業手順
– 作業は全て，各家庭のPCもしくはスマートフォンで実施
– 標準語テキストを自らの方言に翻訳
– 翻訳したテキストを朗読し，その音声を録音
• その方言テキストと音声ファイルを提出
 インストラクション
– 敬語表現を日常表現に置換すること
– 生活音の混入を出来る限り避けること
8

/14
収集条件と結果
10
サービスランサーズ (http://www.lancers.jp/)*
標準語テキスト各話者毎に250文
サンプリング周波数 44.1 kHz or 48 kHz
募集期間 2017/04~05のうち5日間
発話者選択都道府県と方言がかぶらない様に選択
話者数 22名（男性9名，女性13名）
平均発話分数 24分36秒/話者 (非音声区間を含む)
方言数 21
条件
結果
*研究グループで日常的に使用しているため，このサービスを利用した．

/14
収集地域と方言
11
北海道弁，津軽弁
秋田弁
金沢弁，福井弁，大阪弁
奈良弁，京都弁，京言葉
出雲弁，広島弁
岡山弁
伊予弁，阿波弁
土佐弁福岡弁，宮崎弁
諸県弁
いわき弁，埼玉弁
静岡弁
0 500

/14
収集データの例
12
標準語
できるだけスマートフォンひとつで身の回りのこと
全て片付けようとしているようだ．
宮崎弁
なるだけスマートフォンひとつで身んまわりんこと
全部片付けようとしちょるみたいやね．
津軽弁
でぎるだげスマートフォンばりで身の回りのこと
まるっととっけるんた．
標準語
これからこの機能が加わったからといって
特別ハッピーなわけでもない
京言葉*
これからこの機能が加わったからゆうて
特別ハッピーなわけでもあらへん．
阿波弁
これからほの機能が加わったからといって
特別ハッピーなわけやないし．
*収録者と相談して，京言葉(祇園言葉)と京都弁は別の方言としてカウント

/14
発話者毎のSN比
(decision directed法[Plapous et al., 2006.]を用いて計算)
13
Min -2.1
Max 57.8
Mean 15.1
Median 12.6

/14
まとめ
 日本語対訳方言コーパスCPJDを構築
– 標準語テキスト・方言テキスト・方言音声・地理データ
– 21の方言，計9時間の音声データ
 今後の予定
– 雑音環境下音声からの高品質音声合成
• 宇根他, “雑音環境下音声を用いた音声合成のための雑音生成モ
デルの敵対的学習,” SLP研究会10月で発表予定
– 地理データ(空間情報)を用いた方言音声合成
14

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”

More Related Content

What's hot (20)

More from Shinnosuke Takamichi (20)

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”