機械学習のアノテーションにおけるデータ収集
~精度向上のための仕組み・倫理や社会性バイアス~
2021.6.11
藤本 敬介(ABEJA)
Copyright © ABEJA, Inc. All rights reserved
自己紹介
2
名前:
所属:
役割:
研究分野:
藤本 敬介
ABEJA, Labs
Researcher
機械学習
コンピュータビジョン
音声
自然言語処理
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
3
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
4
Copyright © ABEJA, Inc. All rights reserved
機械学習とアノテーション
教師あり学習
5
教師なし学習
Dog / Cat
Copyright © ABEJA, Inc. All rights reserved
機械学習とアノテーション
• 教師あり学習では、人手で学習データに予め正解の情報を与えておく
• この作業を「アノテーション」と呼ぶ
6
Dog
Cat
画像認識タスクでの例:
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:画像認識
7
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:物体検出
8
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:セグメンテーション
9
Copyright © ABEJA, Inc. All rights reserved
アノテーションの手段について
• 自身で実施
• クラウドソーシング
• アノテーションサービスの利用
10
Copyright © ABEJA, Inc. All rights reserved
クラウドソーシング
• WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事
を依頼できる
• Amazon Mechanical Turk (MTurk)などが有名
• Deep Learningの多くの研究においてMTurkを利用してのデータセット作り
が行われている
• 研究で利用するような様々なタスクが依頼できる
11
Copyright © ABEJA, Inc. All rights reserved
アノテーションサービス
• 各社で展開されているアノテーションのサービス
• アノテーションの作業者を自動で確保してくれる
• タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い
12
AI Platform Data Labeling Service Amazon SageMaker Ground Truth
Copyright © ABEJA, Inc. All rights reserved
機械学習におけるデータの大切さ
機械学習モデルは、学習に用いたデータにより挙動が決まる
機械学習の手法と同様に、データの量・質が大切
13
機械学習モデル = 「手法」 x 「データ」
Copyright © ABEJA, Inc. All rights reserved
良いデータ・悪いデータで学習した場合の比較
• クリーンなデータに対する大量のアノテーションが精度に寄与
14
顔認証における研究の例
過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、
これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成
一般物体認識のロバスト性の例
ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし
なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆
Copyright © ABEJA, Inc. All rights reserved
データ量が不十分であった場合の実験
15
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
• CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき
の精度の比較
CIFAR10 CIFAR100
Copyright © ABEJA, Inc. All rights reserved
正解ラベルにノイズが入っていた場合での実験
16
• CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた
ときの精度の比較
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
CIFAR10 CIFAR100
Copyright © ABEJA, Inc. All rights reserved
質の悪いデータをなくすための方針
• データ収集の際のデータの質の向上
• データの質に対してロバストな技術の適用
• アノテーション補助技術やサービスの利用
17
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
18
Copyright © ABEJA, Inc. All rights reserved
アノテーションにおける課題
• 大きな人的コスト
• 質や精度の担保
• ワーカーマネージメント
• ツール作成やデータ管理
19
Copyright © ABEJA, Inc. All rights reserved
データセットやアノテーションに関する関連研究
20
アノテーションの補助
データセットの作成 モデルの高精度化
Object Detection
Semantic Segmentation
Apparent Age Estimation Using Ensemble
of Deep Learning Models
Regularized Estimation of Annotator Confusion
Copyright © ABEJA, Inc. All rights reserved
論文紹介: ObjectNet: A large-scale bias-controlled dataset for
pushing the limits of object recognition models (NIPS2019)
• ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ
る物体の回転や背景、視点のランダム性をコントロール
• 無作為なデータセットではなく、バリエーションの種類をコントロールする
ことで、認識する上で望ましいデータとなる
21
Copyright © ABEJA, Inc. All rights reserved
論文紹介:We don’t need no bounding-boxes: Training object
class detectors using only human verification (CVPR 2016)
• 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき
るフレームワークの提案
• BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を
出せるようにしていく
22
• 回答の際に、BBに対して、
Yes/Part/Container/Mixed/Miss
ed Verificationといった複数の
カテゴリに分けることで、効
率的な学習が可能
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Training object class detectors with click
supervision (CVPR 2017)
• 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出
を行えるようにするための方針
• その情報からBBの高さや幅を機械学習モデルを用いて予測し、 アノテータ
ーの作業時間を9〜18倍改善
23
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Extreme clicking for efficient object
annotation (CVPR 2017)
• BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで
アノテーションを行うExtreme Clickingという手法の提案
• 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ
ンを実現
24
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Large-scale interactive object segmentation
with human annotators (CVPR 2019)
• モデルが出力したセグメンテーション結果を、マウスクリックによりインタ
ラクティブに修正していく
• 250万枚もの大量のセグメンテーションのアノテーションデータを作成、
COCOデータにおいて既存より3倍速いアノテーションを実現
25
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Crowdsourcing Annotations for Visual Object
Detection (AAAI 2012)
• クラウドソーシングで複数人に重複してタ
スクを割り当てるのは高コスト
• この研究ではタスクを3つのマイクロタス
クに分割する(Draw / Quality Verification /
Coverage Verification)ことを提案
• 不特定多数のいるクラウドソーシングにお
いてマイクロタスクの有用性を示した
26
https://tech-blog.abeja.asia/entry/annotation-survery
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Modeling Human Annotation Errors to Design Bias-
Aware Systems for Social Stream Processing (ASONAM 2019)
• アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し
てしまう
• ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動
学習を提案
• アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来
るようになる
27
Copyright © ABEJA, Inc. All rights reserved
アノテーションにおける精度の課題
• 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし
て、それを効率化する事を目的としている
• 実際は人手によるアノテーションの精度自体の担保が難しい
• アノテーター毎のスキルのバラツキ
• アノテーションをする基準の曖昧さ
• そもそもアノテーションが困難な問題設定
28
Copyright © ABEJA, Inc. All rights reserved 29
Copyright © ABEJA, Inc. All rights reserved
アノテーションの精度の重要性
• アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、
テストデータに適合しているだけになる
• アノテーションが正しく行われる必要がある中で、その精度を高めることが
課題
30
Copyright © ABEJA, Inc. All rights reserved
アノテーションに関する商用サービスの利用
• 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう
サービス
• 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要
• ABEJA社内でのアノテーション作業の工夫点を紹介
31
Copyright © ABEJA, Inc. All rights reserved
アノテーションの作業フロー
• 品質を上げるため、下記のような様々な取り組みを行っている
32
教師データの作成・準備 トライアル アノテーション実施 最終確認・納品
• アノテーションの要
件定義
• アノテーションマニ
ュアル
• 作成・アップロード
• データのアップロー
ド
• トライアル結果の
確認
• アノテーターから
の質疑回答
• アノテーション
• 随時、質疑への回答
• 結果の確認
• アノテーション結果
の納品
Copyright © ABEJA, Inc. All rights reserved
アノテーション体制の構築
• アノテーション専任のPMのアサイン
• 大量のアノテーション人員の確保
• 結果レビュー体制の構築
33
Copyright © ABEJA, Inc. All rights reserved
アノテーションのセキュリティ
• 運用面
• セキュリティセンターでの作業の実施
• システム面
• データセンタのセキュリティ
• 通信の保護
• データの保護
• 認証・認可
34
Copyright © ABEJA, Inc. All rights reserved
アノテーションに関する詳細な要件定義
• 通常、アノテーターによって、ラベルのブレが発生しやすい
• アノテーション開始前にマニュアルを作成し、均一の水準になるようにする
35
Copyright © ABEJA, Inc. All rights reserved
アノテーション結果のレビュー制度
• アノテーションの課題
• アノテーターによっては定義を理解していない場合がある
• 雑なアノテーションがされる場合がある
• アノテーション結果を人手で確認するフローを入れる
36
• レビュアーは結果を確認して差し戻し/完了を選択
• 差し戻す場合はコメントを入れることにより以降のア
ノテーションの品質向上に寄与
Copyright © ABEJA, Inc. All rights reserved
重複アノテーションによるバラツキの抑制
• アノテーターをアサインする際に一つのデータに対して、複数回のアノテー
ションを行うケースもある
• 重複してアノテーションすることで、アノテーター間のバラツキを抑制
37
利用例:
• Apparent Age Estimation Using Ensemble of
Deep Learning Models
• 顔画像からの年齢推定において、複数のアノテ
ーションを利用して、バラツキを低減
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
38
Copyright © ABEJA, Inc. All rights reserved
社会性・バイアスについて
• 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある
• 性別や人種の違いによって望ましくない結果を出力
• 自動運転や医療のシステムにおいて事故を起こしてしまう
• 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ
アスが含まれると問題が発生してしまう
39
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:Microsoft’s Tay
40
• Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった
• 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と
考えられている
https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:
Google Photosが黒人をゴリラと誤認識
41
https://twitter.com/jackyalcine/status/615329515909156865
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:
Amazonの履歴書チェックAIの女性差別問題
• Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当
に差別していることが発覚し、開発中止。
• 学習に使用した過去の履歴書データは
男性のものが多く、テクノロジー企業には
男性が多いというバイアスを反映して
しまっていた。
42
https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-
secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:Gender Shades
• 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま
う。
学習に使用されたデータセットに
含まれる性別・人種の分布に偏りが
あるせいだと考えられる。
43
http://gendershades.org/overview.html
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• 教師あり学習のロジック
1. 解決したい具体的なタスクを定義し、データを集める
2. データにアノテーションをする
3. モデルを設計する
4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化
44
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• 機械学習は、生まれたばかりの赤ちゃん(=モデル)に、ひたすら限定的な
情報(データ+アノテーション)だけを提示し続けて学ばせるようなもの
• モデルにとっては得られる情報が全てであり、データに含まれない一般常識
(例えば、善悪・差別など)は学習されない
45
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る
46
Copyright © ABEJA, Inc. All rights reserved
各プロセスにおけるバイアス
• データに関するバイアス
• 学習に用いるために収集したデータに内在するバイアス
• 収集したデータにアノテーションする際に発生するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
47
Copyright © ABEJA, Inc. All rights reserved
各プロセスにおけるバイアス
• データに関するバイアス
• 学習に用いるために収集したデータに内在するバイアス
• 収集したデータにアノテーションする際に発生するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
48
Copyright © ABEJA, Inc. All rights reserved
データ収集に起因するバイアス
• データ収集・アノテーション時に発生するバイアス、学習・評価に影響する
49
Copyright © ABEJA, Inc. All rights reserved
顔画像処理におけるデータ選択バイアス
• 研究で使われているデータセットは西洋人(最近では中国人も)が多い
• データセットにあまり含まれない人種の精度は低くなる
50
Copyright © ABEJA, Inc. All rights reserved
顔画像処理におけるデータ選択バイアス
• 年齢推定だと、20-40歳に分布が集中
• 子供や高齢者に対する推定精度が低くなりがち
51
Copyright © ABEJA, Inc. All rights reserved
CVPR2019 Workshop: Bias Estimation in Face Analysis
(BEFA)
バイアス問題は、学会でも注目されている
52
Goal
• 顔認識や顔属性推定におけるバイアス
を特定する最新手法の評価
• バイアスを考慮した、もしくはバイアス
に依存しないモデルづくりの促進
• 顔の解析におけるバイアスについての
分野横断的な議論
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスの難しさ
• データセットの作られやすい対象の方が優先されやすいため、マジョリティ
が優先されやすい構造となる
• マイノリティデータをどのように集めて学習に使えるようにするか
• 多様なマイノリティの存在を気づくこと自体が難しい
• 社会的背景によりマイノリティとなっているデータはそもそも収集するこ
とが難しいことがある、プライバシー保護の観点との衝突
53
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
54
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
55
Copyright © ABEJA, Inc. All rights reserved
データセットのバイアスについて
• 学習に用いるために収集したデータに内在するバイアス
• データ収集の都合で発生することが多い
• 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ
うに無害なものまで多様にあり得る
• 収集したデータにアノテーションする際に発生するバイアス
• アノテーターの判断基準のバラツキ
• 悪意あるアノテーターの作成したデータ
56
Copyright © ABEJA, Inc. All rights reserved
データセットのバイアスへの対策について
• データのバイアスを検出するロジックを利用する
• バイアスを無くす学習手法を利用する
• バイアスなどを社会学的に体系化し、可能な限りデータを整理する
57
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Representation Learning with Statistical
Independence to Mitigate Bias (WACV2021)
• データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ
セットから公平な学習を行おうとするアプローチ
• タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる
ように、敵対的学習に基づいてモデルを学習
58
Copyright © ABEJA, Inc. All rights reserved
論文紹介: Learning From Noisy Labels By Regularized
Estimation of Annotator Confusion (CVPR 2019)
• アノテーターの特性を学習することでノイジーなラベルから真の分布を見出
すアプローチ
• 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と
して推定
59
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Are We Modeling the Task or the Annotator? An
Investigation of Annotator Bias in Natural Language
Understanding Datasets (ACL2019)
• 文章理解タスクにおけるアノテーターによるバイアスを調査
• 特に質の高い少数のアノテーターに大量の文を生成させると、データの多
様性の問題が起きやすい
• アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、
アノテーターのバイアスが学習されることを示唆する
• テストセットのアノテーターはトレーニングセットのアノテーターとは別に
するべきであるという提案がされている
60
Copyright © ABEJA, Inc. All rights reserved
論文紹介:REVISE: A Tool for Measuring and Mitigating
Bias in Visual Datasets (ECCV2020)
• データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化
• オブジェクト、ジェンダー、ジオグラフィー
• バイアスを軽減するためのステップを提案し、ユーザーを支援
61
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Towards Fairer Datasets: Filtering and Balancing the
Distribution of the People Subtree in the ImageNet Hierarchy
• ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある
ことを調査
• アノテーションの方針を設計し直し、バイアスを取り除く試みを行った
62
一番上段がオリジナルのデータ、
以下は、それぞれ性別・肌・年齢に関して
のバランスを取ったデータ
Copyright © ABEJA, Inc. All rights reserved
LaMDAにおける倫理性
• Google社による対話システム(Google I/O 2021で発表)
• AI原則に反した誤用を避けるように注意をして提供している
63
https://www.tensorflow.org/responsible_ai
Copyright © ABEJA, Inc. All rights reserved
オープンソースにおける対策
Tensorflow
• 責任ある機械学習モデルを作
るための様々な仕組みを内包
• 公平性、プライバシー、解
釈可能性、セキュリティ
64
Pytorch
• 公平性を導入するライブラリ
• 人工統計的均衡性などに基づい
て公正なモデルを構築
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Toward a better trade-off between performance and
fairness with kernel-based distribution matching (2019)
• 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ
ナルティを与える
• カーネルベースのアプローチにより、性能と精度のトレードオフを改善
65
Maximum Mean Discrepancy
・・・カーネル空間における平均の差
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
66
Copyright © ABEJA, Inc. All rights reserved
モデルの推論根拠の理解・解析について
• データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな
い場合になったとして、その理由の理解や説明が求められることもある
• これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ
ったり、人間が期待する推論プロセスを踏んでいないこともある
67
Copyright © ABEJA, Inc. All rights reserved
解釈可能なDNNに付いての研究
DNNの推論プロセスを可視化し、解釈することを目指す研究
68
Copyright © ABEJA, Inc. All rights reserved
DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
69
Copyright © ABEJA, Inc. All rights reserved
DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
70
Copyright © ABEJA, Inc. All rights reserved
推論根拠の提示
• 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる
71
Copyright © ABEJA, Inc. All rights reserved
ImageNetで学習されたモデルはテクスチャーを見る
• ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー
をもとに推論しがちであることが明らかになった。
72
Copyright © ABEJA, Inc. All rights reserved
バイアスに関する展望
• 機械学習を実用化するためには、これまで述べたようなデータのバイアスに
気をつける必要がある
• 挙動を制御できないため、予期せぬ結果になることもしばしばある
• 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ
ながら、正しくデータを作成する必要がある
• 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切
• 顔認識をする場合などは利用の許諾なども必要
73
Copyright © ABEJA, Inc. All rights reserved
まとめ
• アノテーションの重要性、技術、バイアスについて述べた
• アノテーションの速度・精度を向上させるための技術は多数存在する
• タスクの難易度に応じ、適切に技術を選定する
• 大量でクリーンなデータを用意することは重要であるが、今後、その上で更
に公平・構成なデータとなるように気をつける必要ある
74
Copyright © ABEJA, Inc. All rights reserved 75

More Related Content

PDF
全力解説!Transformer
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
機械学習モデルの判断根拠の説明
PDF
協調フィルタリング入門
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PDF
【メタサーベイ】数式ドリブン教師あり学習
全力解説!Transformer
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
機械学習モデルの判断根拠の説明
協調フィルタリング入門
SSII2022 [OS3-02] Federated Learningの基礎と応用
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【メタサーベイ】数式ドリブン教師あり学習

What's hot (20)

PDF
最適輸送の解き方
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PDF
ブレインパッドにおける機械学習プロジェクトの進め方
PDF
CV分野におけるサーベイ方法
PPTX
XAI (説明可能なAI) の必要性
PDF
モデルではなく、データセットを蒸留する
PDF
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
PDF
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
Data-Centric AIの紹介
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
Python 3.9からの新定番zoneinfoを使いこなそう
PDF
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
PPTX
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
PDF
リクルート式 自然言語処理技術の適応事例紹介
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
PDF
Active Learning 入門
最適輸送の解き方
【DL輪読会】A Path Towards Autonomous Machine Intelligence
ブレインパッドにおける機械学習プロジェクトの進め方
CV分野におけるサーベイ方法
XAI (説明可能なAI) の必要性
モデルではなく、データセットを蒸留する
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Data-Centric AIの紹介
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Python 3.9からの新定番zoneinfoを使いこなそう
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
リクルート式 自然言語処理技術の適応事例紹介
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Deep Learningと画像認識   ~歴史・理論・実践~
Active Learning 入門
Ad

Similar to SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜 (20)

PDF
ヒトの機械学習
PPTX
DNNの曖昧性に関する研究動向
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PDF
機械学習品質管理・保証の動向と取り組み
PDF
Training object class detectors with click supervision
PDF
NGK2022S
PDF
予測の不確かさのユーザー調査
PPTX
Icml2018読み会_overview&GANs
PDF
AI Utilization Seminar 20190709
PDF
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
PPTX
Image net classification with Deep Convolutional Neural Networks
PDF
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -
PDF
Taking a Deeper Look at the Inverse Compositional Algorithm
PDF
Deep nlp 4.2-4.3_0309
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PDF
実世界に埋め込まれる深層学習
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
ヒトの機械学習
DNNの曖昧性に関する研究動向
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
機械学習品質管理・保証の動向と取り組み
Training object class detectors with click supervision
NGK2022S
予測の不確かさのユーザー調査
Icml2018読み会_overview&GANs
AI Utilization Seminar 20190709
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
Image net classification with Deep Convolutional Neural Networks
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -
Taking a Deeper Look at the Inverse Compositional Algorithm
Deep nlp 4.2-4.3_0309
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
実世界に埋め込まれる深層学習
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Ad

More from SSII (20)

PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PDF
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
PDF
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
PDF
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
PDF
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
PDF
SSII2022 [OS2-01] イメージング最前線
PDF
SSII2022 [OS1-01] AI時代のチームビルディング
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PDF
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
PDF
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
PDF
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
PDF
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用

SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

  • 2. Copyright © ABEJA, Inc. All rights reserved 自己紹介 2 名前: 所属: 役割: 研究分野: 藤本 敬介 ABEJA, Labs Researcher 機械学習 コンピュータビジョン 音声 自然言語処理
  • 3. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 3
  • 4. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 4
  • 5. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション 教師あり学習 5 教師なし学習 Dog / Cat
  • 6. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション • 教師あり学習では、人手で学習データに予め正解の情報を与えておく • この作業を「アノテーション」と呼ぶ 6 Dog Cat 画像認識タスクでの例:
  • 7. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:画像認識 7
  • 8. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:物体検出 8
  • 9. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:セグメンテーション 9
  • 10. Copyright © ABEJA, Inc. All rights reserved アノテーションの手段について • 自身で実施 • クラウドソーシング • アノテーションサービスの利用 10
  • 11. Copyright © ABEJA, Inc. All rights reserved クラウドソーシング • WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事 を依頼できる • Amazon Mechanical Turk (MTurk)などが有名 • Deep Learningの多くの研究においてMTurkを利用してのデータセット作り が行われている • 研究で利用するような様々なタスクが依頼できる 11
  • 12. Copyright © ABEJA, Inc. All rights reserved アノテーションサービス • 各社で展開されているアノテーションのサービス • アノテーションの作業者を自動で確保してくれる • タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い 12 AI Platform Data Labeling Service Amazon SageMaker Ground Truth
  • 13. Copyright © ABEJA, Inc. All rights reserved 機械学習におけるデータの大切さ 機械学習モデルは、学習に用いたデータにより挙動が決まる 機械学習の手法と同様に、データの量・質が大切 13 機械学習モデル = 「手法」 x 「データ」
  • 14. Copyright © ABEJA, Inc. All rights reserved 良いデータ・悪いデータで学習した場合の比較 • クリーンなデータに対する大量のアノテーションが精度に寄与 14 顔認証における研究の例 過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、 これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成 一般物体認識のロバスト性の例 ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆
  • 15. Copyright © ABEJA, Inc. All rights reserved データ量が不十分であった場合の実験 15 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 • CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき の精度の比較 CIFAR10 CIFAR100
  • 16. Copyright © ABEJA, Inc. All rights reserved 正解ラベルにノイズが入っていた場合での実験 16 • CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた ときの精度の比較 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 CIFAR10 CIFAR100
  • 17. Copyright © ABEJA, Inc. All rights reserved 質の悪いデータをなくすための方針 • データ収集の際のデータの質の向上 • データの質に対してロバストな技術の適用 • アノテーション補助技術やサービスの利用 17
  • 18. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 18
  • 19. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける課題 • 大きな人的コスト • 質や精度の担保 • ワーカーマネージメント • ツール作成やデータ管理 19
  • 20. Copyright © ABEJA, Inc. All rights reserved データセットやアノテーションに関する関連研究 20 アノテーションの補助 データセットの作成 モデルの高精度化 Object Detection Semantic Segmentation Apparent Age Estimation Using Ensemble of Deep Learning Models Regularized Estimation of Annotator Confusion
  • 21. Copyright © ABEJA, Inc. All rights reserved 論文紹介: ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models (NIPS2019) • ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ る物体の回転や背景、視点のランダム性をコントロール • 無作為なデータセットではなく、バリエーションの種類をコントロールする ことで、認識する上で望ましいデータとなる 21
  • 22. Copyright © ABEJA, Inc. All rights reserved 論文紹介:We don’t need no bounding-boxes: Training object class detectors using only human verification (CVPR 2016) • 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき るフレームワークの提案 • BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を 出せるようにしていく 22 • 回答の際に、BBに対して、 Yes/Part/Container/Mixed/Miss ed Verificationといった複数の カテゴリに分けることで、効 率的な学習が可能
  • 23. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Training object class detectors with click supervision (CVPR 2017) • 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出 を行えるようにするための方針 • その情報からBBの高さや幅を機械学習モデルを用いて予測し、 アノテータ ーの作業時間を9〜18倍改善 23
  • 24. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Extreme clicking for efficient object annotation (CVPR 2017) • BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで アノテーションを行うExtreme Clickingという手法の提案 • 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ ンを実現 24
  • 25. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Large-scale interactive object segmentation with human annotators (CVPR 2019) • モデルが出力したセグメンテーション結果を、マウスクリックによりインタ ラクティブに修正していく • 250万枚もの大量のセグメンテーションのアノテーションデータを作成、 COCOデータにおいて既存より3倍速いアノテーションを実現 25
  • 26. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Crowdsourcing Annotations for Visual Object Detection (AAAI 2012) • クラウドソーシングで複数人に重複してタ スクを割り当てるのは高コスト • この研究ではタスクを3つのマイクロタス クに分割する(Draw / Quality Verification / Coverage Verification)ことを提案 • 不特定多数のいるクラウドソーシングにお いてマイクロタスクの有用性を示した 26 https://tech-blog.abeja.asia/entry/annotation-survery
  • 27. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Modeling Human Annotation Errors to Design Bias- Aware Systems for Social Stream Processing (ASONAM 2019) • アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し てしまう • ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動 学習を提案 • アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来 るようになる 27
  • 28. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける精度の課題 • 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし て、それを効率化する事を目的としている • 実際は人手によるアノテーションの精度自体の担保が難しい • アノテーター毎のスキルのバラツキ • アノテーションをする基準の曖昧さ • そもそもアノテーションが困難な問題設定 28
  • 29. Copyright © ABEJA, Inc. All rights reserved 29
  • 30. Copyright © ABEJA, Inc. All rights reserved アノテーションの精度の重要性 • アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、 テストデータに適合しているだけになる • アノテーションが正しく行われる必要がある中で、その精度を高めることが 課題 30
  • 31. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する商用サービスの利用 • 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう サービス • 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要 • ABEJA社内でのアノテーション作業の工夫点を紹介 31
  • 32. Copyright © ABEJA, Inc. All rights reserved アノテーションの作業フロー • 品質を上げるため、下記のような様々な取り組みを行っている 32 教師データの作成・準備 トライアル アノテーション実施 最終確認・納品 • アノテーションの要 件定義 • アノテーションマニ ュアル • 作成・アップロード • データのアップロー ド • トライアル結果の 確認 • アノテーターから の質疑回答 • アノテーション • 随時、質疑への回答 • 結果の確認 • アノテーション結果 の納品
  • 33. Copyright © ABEJA, Inc. All rights reserved アノテーション体制の構築 • アノテーション専任のPMのアサイン • 大量のアノテーション人員の確保 • 結果レビュー体制の構築 33
  • 34. Copyright © ABEJA, Inc. All rights reserved アノテーションのセキュリティ • 運用面 • セキュリティセンターでの作業の実施 • システム面 • データセンタのセキュリティ • 通信の保護 • データの保護 • 認証・認可 34
  • 35. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する詳細な要件定義 • 通常、アノテーターによって、ラベルのブレが発生しやすい • アノテーション開始前にマニュアルを作成し、均一の水準になるようにする 35
  • 36. Copyright © ABEJA, Inc. All rights reserved アノテーション結果のレビュー制度 • アノテーションの課題 • アノテーターによっては定義を理解していない場合がある • 雑なアノテーションがされる場合がある • アノテーション結果を人手で確認するフローを入れる 36 • レビュアーは結果を確認して差し戻し/完了を選択 • 差し戻す場合はコメントを入れることにより以降のア ノテーションの品質向上に寄与
  • 37. Copyright © ABEJA, Inc. All rights reserved 重複アノテーションによるバラツキの抑制 • アノテーターをアサインする際に一つのデータに対して、複数回のアノテー ションを行うケースもある • 重複してアノテーションすることで、アノテーター間のバラツキを抑制 37 利用例: • Apparent Age Estimation Using Ensemble of Deep Learning Models • 顔画像からの年齢推定において、複数のアノテ ーションを利用して、バラツキを低減
  • 38. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 38
  • 39. Copyright © ABEJA, Inc. All rights reserved 社会性・バイアスについて • 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある • 性別や人種の違いによって望ましくない結果を出力 • 自動運転や医療のシステムにおいて事故を起こしてしまう • 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ アスが含まれると問題が発生してしまう 39
  • 40. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Microsoft’s Tay 40 • Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった • 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と 考えられている https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
  • 41. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Google Photosが黒人をゴリラと誤認識 41 https://twitter.com/jackyalcine/status/615329515909156865
  • 42. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Amazonの履歴書チェックAIの女性差別問題 • Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当 に差別していることが発覚し、開発中止。 • 学習に使用した過去の履歴書データは 男性のものが多く、テクノロジー企業には 男性が多いというバイアスを反映して しまっていた。 42 https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps- secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  • 43. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Gender Shades • 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま う。 学習に使用されたデータセットに 含まれる性別・人種の分布に偏りが あるせいだと考えられる。 43 http://gendershades.org/overview.html
  • 44. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 教師あり学習のロジック 1. 解決したい具体的なタスクを定義し、データを集める 2. データにアノテーションをする 3. モデルを設計する 4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化 44
  • 45. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 機械学習は、生まれたばかりの赤ちゃん(=モデル)に、ひたすら限定的な 情報(データ+アノテーション)だけを提示し続けて学ばせるようなもの • モデルにとっては得られる情報が全てであり、データに含まれない一般常識 (例えば、善悪・差別など)は学習されない 45
  • 46. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る 46
  • 47. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 47
  • 48. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 48
  • 49. Copyright © ABEJA, Inc. All rights reserved データ収集に起因するバイアス • データ収集・アノテーション時に発生するバイアス、学習・評価に影響する 49
  • 50. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 研究で使われているデータセットは西洋人(最近では中国人も)が多い • データセットにあまり含まれない人種の精度は低くなる 50
  • 51. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 年齢推定だと、20-40歳に分布が集中 • 子供や高齢者に対する推定精度が低くなりがち 51
  • 52. Copyright © ABEJA, Inc. All rights reserved CVPR2019 Workshop: Bias Estimation in Face Analysis (BEFA) バイアス問題は、学会でも注目されている 52 Goal • 顔認識や顔属性推定におけるバイアス を特定する最新手法の評価 • バイアスを考慮した、もしくはバイアス に依存しないモデルづくりの促進 • 顔の解析におけるバイアスについての 分野横断的な議論
  • 53. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスの難しさ • データセットの作られやすい対象の方が優先されやすいため、マジョリティ が優先されやすい構造となる • マイノリティデータをどのように集めて学習に使えるようにするか • 多様なマイノリティの存在を気づくこと自体が難しい • 社会的背景によりマイノリティとなっているデータはそもそも収集するこ とが難しいことがある、プライバシー保護の観点との衝突 53
  • 54. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 54
  • 55. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 55
  • 56. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスについて • 学習に用いるために収集したデータに内在するバイアス • データ収集の都合で発生することが多い • 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ うに無害なものまで多様にあり得る • 収集したデータにアノテーションする際に発生するバイアス • アノテーターの判断基準のバラツキ • 悪意あるアノテーターの作成したデータ 56
  • 57. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスへの対策について • データのバイアスを検出するロジックを利用する • バイアスを無くす学習手法を利用する • バイアスなどを社会学的に体系化し、可能な限りデータを整理する 57
  • 58. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Representation Learning with Statistical Independence to Mitigate Bias (WACV2021) • データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ セットから公平な学習を行おうとするアプローチ • タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる ように、敵対的学習に基づいてモデルを学習 58
  • 59. Copyright © ABEJA, Inc. All rights reserved 論文紹介: Learning From Noisy Labels By Regularized Estimation of Annotator Confusion (CVPR 2019) • アノテーターの特性を学習することでノイジーなラベルから真の分布を見出 すアプローチ • 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と して推定 59
  • 60. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets (ACL2019) • 文章理解タスクにおけるアノテーターによるバイアスを調査 • 特に質の高い少数のアノテーターに大量の文を生成させると、データの多 様性の問題が起きやすい • アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、 アノテーターのバイアスが学習されることを示唆する • テストセットのアノテーターはトレーニングセットのアノテーターとは別に するべきであるという提案がされている 60
  • 61. Copyright © ABEJA, Inc. All rights reserved 論文紹介:REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets (ECCV2020) • データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化 • オブジェクト、ジェンダー、ジオグラフィー • バイアスを軽減するためのステップを提案し、ユーザーを支援 61
  • 62. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy • ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある ことを調査 • アノテーションの方針を設計し直し、バイアスを取り除く試みを行った 62 一番上段がオリジナルのデータ、 以下は、それぞれ性別・肌・年齢に関して のバランスを取ったデータ
  • 63. Copyright © ABEJA, Inc. All rights reserved LaMDAにおける倫理性 • Google社による対話システム(Google I/O 2021で発表) • AI原則に反した誤用を避けるように注意をして提供している 63 https://www.tensorflow.org/responsible_ai
  • 64. Copyright © ABEJA, Inc. All rights reserved オープンソースにおける対策 Tensorflow • 責任ある機械学習モデルを作 るための様々な仕組みを内包 • 公平性、プライバシー、解 釈可能性、セキュリティ 64 Pytorch • 公平性を導入するライブラリ • 人工統計的均衡性などに基づい て公正なモデルを構築
  • 65. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Toward a better trade-off between performance and fairness with kernel-based distribution matching (2019) • 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ ナルティを与える • カーネルベースのアプローチにより、性能と精度のトレードオフを改善 65 Maximum Mean Discrepancy ・・・カーネル空間における平均の差
  • 66. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 66
  • 67. Copyright © ABEJA, Inc. All rights reserved モデルの推論根拠の理解・解析について • データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな い場合になったとして、その理由の理解や説明が求められることもある • これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ ったり、人間が期待する推論プロセスを踏んでいないこともある 67
  • 68. Copyright © ABEJA, Inc. All rights reserved 解釈可能なDNNに付いての研究 DNNの推論プロセスを可視化し、解釈することを目指す研究 68
  • 69. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 69
  • 70. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 70
  • 71. Copyright © ABEJA, Inc. All rights reserved 推論根拠の提示 • 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる 71
  • 72. Copyright © ABEJA, Inc. All rights reserved ImageNetで学習されたモデルはテクスチャーを見る • ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー をもとに推論しがちであることが明らかになった。 72
  • 73. Copyright © ABEJA, Inc. All rights reserved バイアスに関する展望 • 機械学習を実用化するためには、これまで述べたようなデータのバイアスに 気をつける必要がある • 挙動を制御できないため、予期せぬ結果になることもしばしばある • 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ ながら、正しくデータを作成する必要がある • 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切 • 顔認識をする場合などは利用の許諾なども必要 73
  • 74. Copyright © ABEJA, Inc. All rights reserved まとめ • アノテーションの重要性、技術、バイアスについて述べた • アノテーションの速度・精度を向上させるための技術は多数存在する • タスクの難易度に応じ、適切に技術を選定する • 大量でクリーンなデータを用意することは重要であるが、今後、その上で更 に公平・構成なデータとなるように気をつける必要ある 74
  • 75. Copyright © ABEJA, Inc. All rights reserved 75