18. CV系の急速な発展
What happen if… [Mottaghi, 16] PHYRE [Bakhtin, 19]
• もはや単なる1000クラス分類の機械ではない
• 十分に成熟し,複雑な例に使われている
• 教師なしもかなり進展(Mutual Information Maximization across View) 18
19. CV×言語
• Image Captioning
– MSCOCO, Conceptual Captions (billions of webpages)
• Visual Question Answering
• Language and Visual推論
– CLEVER,NVLR, VNLR2
• Visual Commonsense Reasoning
• Multimodal captioning and Translation
– VATEX
• Video BERTのような大規模モデルを言語による事前学習なしでも学
習できる規模のデータも集まっている
19
20. CV×NLPの最近の例
• “A Corpus for Reasoning about
Natural Language Grounded in
Photographs”
• ACL2019
• 2つの画像と言語の説明が与え
られ,言語の説明が正しいか判
定
• 例:「左の画像には右の画像の2
倍移っている」
20
22. CV×NLPの最近の例
• “VATEX: A Large-Scale, High-Quality
Multilingual Dataset for Video-and-
Language Research”, ICCV2019
• 大規模なビデオと言語のペアのデー
タセット.
• 41,250のビデオ,825,000の
キャプション
• 言語は同じ画像に英語と中国語の2つ
がついているので,
(1) 多言語ビデオキャプショニング
(2) ビデオを利用した翻訳
の2つのタスクに利用できる
22
23. CV×NLPの最近の例
23
• "VideoBERT: A Joint Model for Video and Language Representation
Learning”, ICCV2019
• 料理動画の画像と言語の双方向の生成.スクリプトのモデル化.
24. Is an orange more like a baseball or a banana?
• WS1:答えられない
• WS2:オレンジと野球のボールがどちらも転がるということはわか
るかもしれないが,物体の変形強度や質感,相対的な大きさなど
はとらえられない
– “How large are lions? inducing distributions over quantitative
attributes”
• WS3:どういう風に変形するかを理解するかもしれないが,どちら
がより変形に力を必要とするかはわからない
(ニュアンスは理解してない)
24
27. 人間は,環境からの情報を概念の形成に利用
• “Conceptual precursors to language”, Nature 2004
– 生後5か月の子供(英語が母国語)が,英語にはないが韓国語にはある
概念(物体間のlooseとtight)を区別するのかの検証
– 結論はする
– ヒトの中での概念が周囲にある音などに依存して形成されることを示唆
• Effect of Touch Screen Tablet Use on Fine Motor Development
of Young Children
– iPadをよく使う子供は微細な運動能力がそうでない子供より悪い
27
39. マルチエージェントなタスク例
• [Reasoning about Pragmatics with
Neural Listeners and Speakers
• SpeakerとLisner(それぞれNN)が
参照ゲーム [reference game]をす
る
• 説明文に対して正しい画像を選ぶ
• “Emergence of linguistic
communication from referential
games with symbolic and pixel
input”, ICLR2018も近い
39
40. Theory of Mind (Premack and Woodruff, 1978)
• 相手の気持ちに配慮する能力,またそれがどう機能するかについ
ての理論
• “Speaker–listener neural coupling underlies successful
communication”, PNAS2010
– 対話中の2人の人の[fMRI]は,コミュニケーションが成立している場合は
時空間的に相関しているが,コミュニケーションに失敗していると相関が
消える
40
41. “Evaluating Theory of Mind in Question Answering”, ACL2018
• Sarry –Annテストを機械でやった研究
– サリーはチョコをテーブルに置いた後部屋を出た
– アンはチョコを箱にしまった
– サリーはチョコがどこにあると思っているか?
• 他者の信念が現実と違っても,他者の信念を予測できるか
• ここでは,(1) 最初にどこにあったか(記憶),(2) 実際どこにあるか
(真実),(3) サリーはどこにあると思っているか,(4) アンはサリー
がどこにあると思っていると思っているかを,二人が同じ信念を持
ちうる場合そうでない場合で検証
41
43. 社会的なコンテキストを組み込む試みも進行
• “Social-IQ: A Question Answering Benchmark for Artificial Social
Intelligence”, CVPR2019
– 例えば「写真の中の人は真剣に会話しているか」,など
– Random 50%の指標,人間が95%で精度良いモデルで65%くらい
• “Persuasion for Good: Towards a Personalized Persuasive Dialogue
System for Social Good”, ACL2019
– 相手を説得する際の会話に,使われている戦略(10種類に分類)がアノテー
ションされたデータセット.
– 発話者のパーソナリティどの戦略が有効かの関係を調査
• “Winning arguments: Interaction dynamics and persuasion strategies
in good-faith online discussion”, WWW2016
– Redditのデータを分析して,説得のメカニズムを検証
43