論文の紹介 A Comparative Evaluation of Search Techniques for Query-by-Humming Using the MUSART Testbed (MUSART Testbed  の使用で の QbH  の検索手法の比較的評価 ) ルトフィアナ サリ 池田研   B4
目次 Introduction QbH (Query-by-Humming) とは 使われるクエリ&データベース MUSART Testbed とは MRR という実験結果を比較するために使われる値とは 実 験とその結果 自分の考え
目次 Introduction 実験とその結果 紹介された手法 MRR の比較結果 人工クエリを使用した場合の結果 N- グラムの使用に関して 2段検索での N- グラム 結果の感度に関する研究 エラーの原因 もっと大きなデータベーしに向けては 結論 自分の考え
Introduction (1/4) -QbH とは - 鼻歌をクエリとするような音楽の検索  (music retrieval) 鼻歌だけでなく、普通に歌うことをクエリとするのもあり 内容(コンテンツ)ベースの検索の一種 クエリの入力者は音楽知識が必要なし
Introduction (2/4) - クエリとデータベース - クエリ :鼻歌と歌声 データベース:音楽の MIDI ファイル MIDI ファイルとは -> mp3 などの音楽ファイルと違い、アナログ信号は出さない -> 音楽再生の機械や計算機などのプロトコルがシンクロナイズ(同期)できる -> 計算機が読めるような楽譜 -> 中身は音符、音高、リズムなど
Introduction (2/4) - クエリとデータベース - クエリ 1  -> データベース 1 クエリ 2  -> データベース 2 データベース  1  :ビートルズの曲(テーマ数は 2844) 、 MIDI ファイルは 5.4MB で、そのテーマは 0.96MB データベース  2  :ポピューラと伝統的な曲(テーマ数は 8926) 、 MIDI ファイルは 33MB で、そのテーマは 2.2MB クエリ  1  : 10 人に10曲(1人に一曲)のビートルズ曲を聞かせ、一番印象のある曲の部分を歌ってもらったもの(一回以上クエリを入力  ok 、合計で 131 のクエリあり) クエリ  2  :学生がボランティアでデータベース 2 の曲を自由に歌ったもの(合計で 165 のクエリあり)
Introduction (3/4) -MUSART Testbed  とは - Michigan 大学と Carnegie Mellon  大学が共同研究プロジェクトに使われるデータセットのようなもの いろいろな QbH の手法を比較するため クエリ集、データターゲット、分析ソフトウェア、検索アルゴリズムが中に含まれ
Introduction (3/4) -MUSART Testbed  とは - クエリの前処理 あるクエリの基本周波数を 10 ms  ごとにフレームとして区切る フレームを音符の列にするには、5つ以上のフレームを一番近い音符の値に量子化する ある音符が終わるというのは値が大きく変わる時と何も検出されない時
Introduction (3/4) -MUSART Testbed  とは - ターゲット曲の前処理 MIDI ファイルが’ Theme Extractor’ というプログラムで抽出され、そのテーマを求める 元々テーマは、音楽家が音楽の索引(インデクス)を作るために使われ、どこがテーマなのかを決めるには音楽知識が必要 例: http://www.multimedialibrary.com/barlow/index.asp Theme Extractor’ はその作業を自動的に行う
Introduction (3/4) -MUSART Testbed  とは - 何故テーマを抽出? Theme Extractor が抽出するのは、ある曲の中にある一番繰り返し数の多い音符の列で、実際の試験では手でテーマを決める結果と比べると正解率が高いと証明済 テーマは人間が普通歌うもの 検索対象の量を減らすため
Introduction (4/4) -MRR という実験結果を比較するために使われる値とは - 正確さの順で、あるクエリに対する答えのリストを評価するための統計的な値 例  :
実験とその結果  (1/9) - 紹介された手法 - Note Interval 文字列: <Pitch, Rhythm>  として取り扱う Pitch :相対音高  (Relative Pitch) Ryhtm : Log IOI Ratio D(A,B) ::  列  A (=a 1 a 2... a m ) と列  B (=b 1 b 2... b n ) の相似性  (similarity を計算し、結果のランクが求められる a i   あるいは  b j   は  <Pitch, Rhythm> というデータの単位のようなもの
実験とその結果  (1/9) - 紹介された手法 - N- グラム
実験とその結果  (1/9) - 紹介された手法 - Melodic Contour クエリとターゲット曲の前処理に少し違いがあり: 1つのフレームは 100ms ごとに区切る 検出される音符を量子化されないので、フレームとフレームの比較は信号を比較することと同様 クエリのテンポを  0.5, 1.0, 2.0  の倍数で延ばしたりち縮じんだりする(クエリのテンポが間違っている可能性があるため) Dynamic Time Warping (DTW)  でクエリのフレームとターゲットのフレームを比較する
実験とその結果  (1/9) - 紹介された手法 - HMM ( 隠れマルコフモデル ) 隠れ状態:  s i  = <E[i], K[i], S’[i]> ->  観測される値: o t  = <Pitch, Rhythm>  = <P[t], R[t]> 左図:普通の HMM の構造 右図:ここで使われる構造 クエリが上記の前処理で観測モデルされたら、データベスと比較される
実験とその結果  (1/9) - 紹介された手法 - CubyHum
実験とその結果  (2/9) -MRR の比較結果 - Search Algorithm クエリ1の MRR クエリ2の MRR Note Interval 0.134 0.282 N- グラム 0.090 0.110 Melodic Interval 0.210 0.329 HMM 0.270 0.310 CubyHum 0.023 0.093
実験とその結果  (3/9) - 人工クエリを使用した場合の結果 -
実験とその結果  (4/9) -N- グラムの使用に関して -
実験とその結果  ( 5 /9) -2 段検索での N- グラム -
実験とその結果  (6/9) - 結果の感度に関する研究 -
実験とその結果  (7/9) - エラーの原因 - 人間が歌ったクエリは元の音楽との違いが大きい 50% :正確ににマッチ 20% :部分的にマッチ 25% :逆順番や繰り返しが含まれるクエリからのマッチ 残り:マッチしない *  正確にマッチというのは、クエリの音符と習得されたデータの音符が一致すること
実験とその結果  (8/9) - もっと大きなデータベースに向けては -
実験とその結果  (9/9) - 結論 - 上記にあげられたシステムはクエリのクオリティが一番結果に影響を与えることが分かった
自分の考え どのぐらいクエリのクオリティが悪いのか? クエリの前処理には音高のクオリティなどを上げることは可能? ここであげられた手法(アルゴリズム)はクエリとターゲットのデータとマッチするかどうかは一つ一つ行われたが、クラスタ ( や   indexing ?) などをすることで構造的な検索方法はないか?
参照: Roger B. Dannenberg, et al (2007, February 1). “A Comparative of Search Techniques for Query-by-Humming Using the MUSART Testbed”.  Journal of the American Society for Information Science and Technology  58 Roger B. Dannenberg, et al (2004). “The MUSART Testbed for Query-by-Humming Evaluation”. Computer Music Journal Volume 28, Number 2 Meek Colin, Birmingham William P. . (2001). “Thematic Extractor” ISMIR Wikipedia. Mean reciprocal rank. http://en.wikipedia.org/wiki/Mean_reciprocal_rank.  アクセス日 :   2011 年 5 月 16 日 Wikipedia. Musical Instrument Digital Interface. http://en.wikipedia.org/wiki/Musical_Instrument_Digital_Interface. アクセス日: 2011 年5月19日
ご清聴ありがとうございます

More Related Content

PDF
Nakai22sp03 presentation
PDF
Saito19asjAutumn_DeNA
PDF
Saito18sp03
ODP
ぼくとしりとりの約3.0*10^3日間戦争
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
PDF
Kameoka2016 miru08
PDF
音声を検索するための索引付け方式の紹介(専門家向け)
PDF
Saito20asj_autumn
Nakai22sp03 presentation
Saito19asjAutumn_DeNA
Saito18sp03
ぼくとしりとりの約3.0*10^3日間戦争
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Kameoka2016 miru08
音声を検索するための索引付け方式の紹介(専門家向け)
Saito20asj_autumn

What's hot (10)

PDF
バイノーラル信号音源分離における両耳事前分布モデルの考察
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
PDF
テキストの内容を表す記述要素の自動生成
PDF
テキストの内容を表す記述要素の自動生成
ODP
音声合成の基礎
PDF
音情報処理における特徴表現
PDF
Oscnagoya2021 python tokai
PDF
高効率音声符号化―MP3詳解―
PPT
探索的検索のための音声入力インタフェースの検討
PDF
WaveNet: A Generative Model for Raw Audio
バイノーラル信号音源分離における両耳事前分布モデルの考察
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
テキストの内容を表す記述要素の自動生成
テキストの内容を表す記述要素の自動生成
音声合成の基礎
音情報処理における特徴表現
Oscnagoya2021 python tokai
高効率音声符号化―MP3詳解―
探索的検索のための音声入力インタフェースの検討
WaveNet: A Generative Model for Raw Audio
Ad

Viewers also liked (8)

PPT
論文の紹介A comparative evaluation for qb h
PDF
PPTX
Technology K-12 in the classroom
PPTX
Technology K-12 in the classroom
PPTX
Technology k 12 in the classroom
PDF
演習発表 Sari v.1.2
PPTX
Technology K-12 in the Classroom
論文の紹介A comparative evaluation for qb h
Technology K-12 in the classroom
Technology K-12 in the classroom
Technology k 12 in the classroom
演習発表 Sari v.1.2
Technology K-12 in the Classroom
Ad

論文の紹介A comparative evaluation for qbh

  • 1. 論文の紹介 A Comparative Evaluation of Search Techniques for Query-by-Humming Using the MUSART Testbed (MUSART Testbed の使用で の QbH の検索手法の比較的評価 ) ルトフィアナ サリ 池田研 B4
  • 2. 目次 Introduction QbH (Query-by-Humming) とは 使われるクエリ&データベース MUSART Testbed とは MRR という実験結果を比較するために使われる値とは 実 験とその結果 自分の考え
  • 3. 目次 Introduction 実験とその結果 紹介された手法 MRR の比較結果 人工クエリを使用した場合の結果 N- グラムの使用に関して 2段検索での N- グラム 結果の感度に関する研究 エラーの原因 もっと大きなデータベーしに向けては 結論 自分の考え
  • 4. Introduction (1/4) -QbH とは - 鼻歌をクエリとするような音楽の検索 (music retrieval) 鼻歌だけでなく、普通に歌うことをクエリとするのもあり 内容(コンテンツ)ベースの検索の一種 クエリの入力者は音楽知識が必要なし
  • 5. Introduction (2/4) - クエリとデータベース - クエリ :鼻歌と歌声 データベース:音楽の MIDI ファイル MIDI ファイルとは -> mp3 などの音楽ファイルと違い、アナログ信号は出さない -> 音楽再生の機械や計算機などのプロトコルがシンクロナイズ(同期)できる -> 計算機が読めるような楽譜 -> 中身は音符、音高、リズムなど
  • 6. Introduction (2/4) - クエリとデータベース - クエリ 1  -> データベース 1 クエリ 2  -> データベース 2 データベース 1 :ビートルズの曲(テーマ数は 2844) 、 MIDI ファイルは 5.4MB で、そのテーマは 0.96MB データベース 2 :ポピューラと伝統的な曲(テーマ数は 8926) 、 MIDI ファイルは 33MB で、そのテーマは 2.2MB クエリ 1 : 10 人に10曲(1人に一曲)のビートルズ曲を聞かせ、一番印象のある曲の部分を歌ってもらったもの(一回以上クエリを入力 ok 、合計で 131 のクエリあり) クエリ 2 :学生がボランティアでデータベース 2 の曲を自由に歌ったもの(合計で 165 のクエリあり)
  • 7. Introduction (3/4) -MUSART Testbed とは - Michigan 大学と Carnegie Mellon 大学が共同研究プロジェクトに使われるデータセットのようなもの いろいろな QbH の手法を比較するため クエリ集、データターゲット、分析ソフトウェア、検索アルゴリズムが中に含まれ
  • 8. Introduction (3/4) -MUSART Testbed とは - クエリの前処理 あるクエリの基本周波数を 10 ms ごとにフレームとして区切る フレームを音符の列にするには、5つ以上のフレームを一番近い音符の値に量子化する ある音符が終わるというのは値が大きく変わる時と何も検出されない時
  • 9. Introduction (3/4) -MUSART Testbed とは - ターゲット曲の前処理 MIDI ファイルが’ Theme Extractor’ というプログラムで抽出され、そのテーマを求める 元々テーマは、音楽家が音楽の索引(インデクス)を作るために使われ、どこがテーマなのかを決めるには音楽知識が必要 例: http://www.multimedialibrary.com/barlow/index.asp Theme Extractor’ はその作業を自動的に行う
  • 10. Introduction (3/4) -MUSART Testbed とは - 何故テーマを抽出? Theme Extractor が抽出するのは、ある曲の中にある一番繰り返し数の多い音符の列で、実際の試験では手でテーマを決める結果と比べると正解率が高いと証明済 テーマは人間が普通歌うもの 検索対象の量を減らすため
  • 11. Introduction (4/4) -MRR という実験結果を比較するために使われる値とは - 正確さの順で、あるクエリに対する答えのリストを評価するための統計的な値 例 :
  • 12. 実験とその結果 (1/9) - 紹介された手法 - Note Interval 文字列: <Pitch, Rhythm>  として取り扱う Pitch :相対音高 (Relative Pitch) Ryhtm : Log IOI Ratio D(A,B) :: 列 A (=a 1 a 2... a m ) と列 B (=b 1 b 2... b n ) の相似性 (similarity を計算し、結果のランクが求められる a i あるいは b j は <Pitch, Rhythm> というデータの単位のようなもの
  • 13. 実験とその結果 (1/9) - 紹介された手法 - N- グラム
  • 14. 実験とその結果 (1/9) - 紹介された手法 - Melodic Contour クエリとターゲット曲の前処理に少し違いがあり: 1つのフレームは 100ms ごとに区切る 検出される音符を量子化されないので、フレームとフレームの比較は信号を比較することと同様 クエリのテンポを 0.5, 1.0, 2.0 の倍数で延ばしたりち縮じんだりする(クエリのテンポが間違っている可能性があるため) Dynamic Time Warping (DTW) でクエリのフレームとターゲットのフレームを比較する
  • 15. 実験とその結果 (1/9) - 紹介された手法 - HMM ( 隠れマルコフモデル ) 隠れ状態: s i = <E[i], K[i], S’[i]> -> 観測される値: o t = <Pitch, Rhythm> = <P[t], R[t]> 左図:普通の HMM の構造 右図:ここで使われる構造 クエリが上記の前処理で観測モデルされたら、データベスと比較される
  • 16. 実験とその結果 (1/9) - 紹介された手法 - CubyHum
  • 17. 実験とその結果 (2/9) -MRR の比較結果 - Search Algorithm クエリ1の MRR クエリ2の MRR Note Interval 0.134 0.282 N- グラム 0.090 0.110 Melodic Interval 0.210 0.329 HMM 0.270 0.310 CubyHum 0.023 0.093
  • 18. 実験とその結果 (3/9) - 人工クエリを使用した場合の結果 -
  • 19. 実験とその結果 (4/9) -N- グラムの使用に関して -
  • 20. 実験とその結果 ( 5 /9) -2 段検索での N- グラム -
  • 21. 実験とその結果 (6/9) - 結果の感度に関する研究 -
  • 22. 実験とその結果 (7/9) - エラーの原因 - 人間が歌ったクエリは元の音楽との違いが大きい 50% :正確ににマッチ 20% :部分的にマッチ 25% :逆順番や繰り返しが含まれるクエリからのマッチ 残り:マッチしない * 正確にマッチというのは、クエリの音符と習得されたデータの音符が一致すること
  • 23. 実験とその結果 (8/9) - もっと大きなデータベースに向けては -
  • 24. 実験とその結果 (9/9) - 結論 - 上記にあげられたシステムはクエリのクオリティが一番結果に影響を与えることが分かった
  • 25. 自分の考え どのぐらいクエリのクオリティが悪いのか? クエリの前処理には音高のクオリティなどを上げることは可能? ここであげられた手法(アルゴリズム)はクエリとターゲットのデータとマッチするかどうかは一つ一つ行われたが、クラスタ ( や indexing ?) などをすることで構造的な検索方法はないか?
  • 26. 参照: Roger B. Dannenberg, et al (2007, February 1). “A Comparative of Search Techniques for Query-by-Humming Using the MUSART Testbed”. Journal of the American Society for Information Science and Technology 58 Roger B. Dannenberg, et al (2004). “The MUSART Testbed for Query-by-Humming Evaluation”. Computer Music Journal Volume 28, Number 2 Meek Colin, Birmingham William P. . (2001). “Thematic Extractor” ISMIR Wikipedia. Mean reciprocal rank. http://en.wikipedia.org/wiki/Mean_reciprocal_rank. アクセス日 :   2011 年 5 月 16 日 Wikipedia. Musical Instrument Digital Interface. http://en.wikipedia.org/wiki/Musical_Instrument_Digital_Interface. アクセス日: 2011 年5月19日