NIPS 2010 読む会

The Multidimentional Wisdom of Crowds
Peter Welinder, Steve Branson, Serge Belongie, Pietro Perona

NIPS 2010 読む会
発表者 : 坪坂正志
m.tsubosaka(at)gmail.com

2010/12/26 NIPS2010読む会 1

背景
• 多くの機械学習アルゴリズムにおいては大量のラベ
ルありデータが必要となる
• 肝心のラベルは誰がつけるか
– 多くの場合人手
– ラベル付けのために専用の人材を雇うのはコストが高い
– あまり面白い仕事でもない
• cf: 10000枚の写真から猫の移ってる写真を取り出す

2010/12/26 NIPS2010読む会 2

Amazon Mechanical Turk
• 簡単な大量のタスクを多くの人にやってもらうため
のWebサービス (crowdsourcing)
– https://www.mturk.com/mturk/welcome
– 一つのタスクにつき数セントで実施してもらえる
– 例えば
• 画面に何が移っているか答えてもらう
• 語義曖昧性の解消
• サイトのレビュー記事を書いてもらう

• 大量のアノテーションされたデータセットの作成に使
われている
– 画像処理 : [Deng+, CVPR 2009] (ImageNet)
– NLP : [Snow+, EMNLP 2008]
2010/12/26 NIPS2010読む会 3

Crowd Sourcingの問題点
• 安く済む分、専門性の低いアノテーターを使うことに
なるのでラベルづけの精度は落ちる
• さらに、お金目当てで適当に回答を行う人間がいる
• そのため、一つのタスクに対して、複数のアノテー
ターを用意して多数決をとる(majority voting)などの
方法をとる必要がある
– これには多くのアノテーターが必要、つまり多くのお金が
必要となる

2010/12/26 NIPS2010読む会 4

本論文の内容
• 画像の二値ラベル付けに関して扱う
– Ex : 画像に”duck”が写ってるかどうか
• 画像自体の難しさとアノテーターのアノテーションを
行う過程をモデル化することにより、既存の方法より
も高い精度を達成
– あるタスクにおいての精度が提案手法 75.4%,
GLAD[Whitehill+ 2009, NIPS] 60.4% , Majority voting 68.3%
• 個々のアノテーターおよび画像をグループ分けする
ことが可能となる

2010/12/26 NIPS2010読む会 5

画像について
• 各画像には変数 ∈ *0,1+が対応する
• 各の値に応じて、多次元ベクトルが生成される

識別が簡単 2

1

識別が困難
2010/12/26 NIPS2010読む会 6

アノテータのノイズ
• アノテータは画像に関する量ではなく、ノイズの
入った = + を観測する
– は各アノテータ固有のパラメータによって定まる
2

2 ノイズ小

1
2

1
ノイズ大

1
2010/12/26 NIPS2010読む会 7

アノテータのバイアス
• アノテータはパラメータ( , )で表される線形識別
面に基づいて上のデータのラベル付けをする
– これはアノテータの主観で決まって必ずしも二値分類でき
てるとはかぎらない

2010/12/26 NIPS2010読む会 8

Annotatorが誤るパターン
• 画像自体が判別しずらい
– が判別面の境界付近に存在する
• ラベルのつけ方にむらがある
– が大きい
– 画像に対してのラベル付けの整合性がとれてない
• タスクへの誤った認識
– , の値が真の判別面と異なる
– 鴨と鵜の区別がつかない

2010/12/26 NIPS2010読む会 9

先行研究
• [David and Skene 1979]
– アノテータのバイアスとスキルを考慮
– [Welinder and Perona 2010, CVPR]によってbinary annotationタ
スク以外にも拡張されてる
• [Raykar+ 2009, ICML]
– アノテータのバイアスについて考慮
– 問題の難しさについては考慮せず
• [Whitehill+ 2009, NIPS] (GLAD)
– 問題の難易度、アノテータの信頼度をモデル化している
– アノテータのバイアスについては考慮していない
• 他にもnon-binary annotationタスクに対して[Spain and
Perona 2008 ECCV],[Smyth+ 1995 NIPS]などがある

2010/12/26 NIPS2010読む会 10

確率モデル
• いままでのアノテータモデルの結合確率を書くと

• グラフィカルモデル

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 11

画像に関するモデル
• ラベルに関する分布
– = 1 =
• 画像に対する量の分布
2
– = ( ; , )
– = 0のとき = −1、 = 1のとき = 1
– が多次元ベクトルのときも同様

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 12

観測時のモデル
• アノテータごとの画像に対する観測値の分布
– , = ( ; , 2 )
• アノテータの決定面
– 勾配 , バイアス
– ラベル付けは = ( ⋅ ≥ )に従い決定的に行わ
れる
• について積分消去すると

2010/12/26 NIPS2010読む会 13

パラメータについて

• = , = とreparameterizeする

– (3)式がΦ( ⋅ − )と書き直せる
• ハイパーパラメータについて
– の事前分布は平均0, 分散 = 3の正規分布を仮定
– の事前分布は平均1, 分散 = 3の正規分布を仮定
– 実のところハイパーパラメータを変えても実験結果には大
きく影響しなかった

2010/12/26 NIPS2010読む会 14

MAP推定
• (1)式を変更すると以下のようになる

• 観測値 = * +を得た上で(4)式を最大化する

– , , = log (, , , )

2010/12/26 NIPS2010読む会 15

MAP推定(conn)
• 以下を繰り返す
– 1. を固定したもとで(, )を最適化
– 2. (, )を固定したもとでを最適化
• 最適化には最急法を用いる
• 実験では20回以内の繰り返しで収束した

2010/12/26 NIPS2010読む会 16

Signal detection theoryとの関係
• 一次元の場合、信号検出理論で使われてるモデル
と同じとなる
– ノイズから被験者がどれだけ正しくシグナルを検出できる
かを知るための理論

http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem05/nakashima.pdf より
2010/12/26 NIPS2010読む会 17

Signal detection theoryとの関係
• Sensitivity index ′ : アノテータがどの程度うまくノイ
ズとシグナルを分離できるかの指標
• Threshold : アノテータのバイアスを表す指標

モデルから計算した場合 False alarm rate とhit rate ℎ
から計算した場合
1 − 0 2
′ = = ′ = Φ−1 ℎ − Φ−1 ()

+ 2
2

1 −1
= = − (Φ ℎ + Φ−1 )
2

2010/12/26 NIPS2010読む会 18

シミュレーションによる実験
• 提案モデルの通りにデータおよびアノテータのパラ
メータを生成してそれによるラベルデータを作成
• 500個の疑似イメージデータを作成して、4から20の
アノテータにラベル付けさせるという設定
• 以上の手続きを40回繰り返した平均をとる

2010/12/26 NIPS2010読む会 19

実験結果
• 推定されたパラメータと真のパラメータとの相関

[Welinder+ 2010]

• 他手法との比較

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 20

実際の人間による実験
• Amazon MTurkで実際のアノテータを使った実験を
行った
• 他手法との比較のため、写真にIndigo Buntingと
Blue Grosbeakのどちらが写ってるか答えさせる実験
を行った
– アノテータは各画像に対して40人

2010/12/26 NIPS2010読む会 21

実験結果
• 他手法に比べて提案手法の方が精度が高かった
– [1]は[David and Skene 1979]
– [13]はNIPS 2009のもの

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 22

Ellipse Dataset
• 与えられた楕円が垂直に近いか水平に近いかを答
えてもらうタスク
– 1度刻みで1度から180度までの180枚の画像を用意
– アノテータの数は20人
– 45度のときが最も判別しずらい

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 23

実験結果
• 各画像に関するの推定値
– 横軸は45度からのずれで45度から離
れるにつれ判別しやすくなっている
• SDTとの関係
– モデルパラメータから推定した値と [Welinder+ 2010]
False alarm rate, Hit rateから計算した
値の整合性が取れている

[Welinder+ 2010]
2010/12/26 NIPS2010読む会 24

Greeble Dataset
• 緑色で背の高い画像をクラス0とし、黄色で背の低
い画像をクラス1とする。
– このときアノテータにはクラス0の特徴として色もしくは身
長のどちらかしか教えない
– アノテータは色もしくは身長のどちらかの知識のみで分類
を行う
– 画像データの身長および色のパラメータは平均(1,1)もしく
は(-1,-1)、分散0.8の正規分布からランダムに作成する

クラス0 クラス1

[Welinder+ 2010]
2010/12/26 NIPS2010読む会 25

実験結果
• 色で判定しているアノテータと身長で判定しているア
ノテータで判別面にあきらかな違いがでている

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 26

Waterbird Dataset
• Mallard(マガモ), American Black Duck (アメリカガモ),
Canada Goose(カナダガン), Red-necked Grebe(アカ
エリカイツブリ)の四種の水鳥についての画像を50
枚ずつ用意
• 加えて鳥が写っていない風景画像を40枚用意
• 40人のアノテータにたいしてカモが写っているかどう
かを答えてもらう

2010/12/26 NIPS2010読む会 27

実験結果
• アノテータの判別面は三種類のパターンとなった
– Duckとそれ以外をわける
– Duck + Grebeとそれ以外
– 水鳥とそれ以外

2010/12/26 NIPS2010読む会
[Welinder+ 2010] 28

実験結果
• 見当はずれの判別面がみられるがこれは報酬目当
てで適当に答えているアノテータと思われる
– これは[Snow+ 2008]でも報告されている
• 他手法と比較すると提案手法が一番精度が高い
– 提案手法 75.4%
– GLAD[NIPS 2009] 60.4%
– Majority voting 68.3%

2010/12/26 NIPS2010読む会 29

Conclusions
• アノテーションの過程に関してのベイズモデルを提
案
• Amazon MTurkを使って実験した結果既存手法より
も高い精度を得た
• 提案手法を使えば、二値分類問題を解くだけではな
く、画像の難しさの尺度やアノテータがどのように判
別しているかのグルーピングが行える

2010/12/26 NIPS2010読む会 30

NIPS 2010 読む会

More Related Content

What's hot (11)

Similar to NIPS 2010 読む会 (20)

More from 正志坪坂 (20)