DEEP LEARNING JP
[DL Papers]
“Experience Grounds Language”
Presenter:Yusuke Iwasawa, Matsuo Lab
http://deeplearning.jp/
書誌情報
• タイトル:Experience Grounds Language
• 著者:Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas,
Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan
May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian
• サーベイ論文(arXiv),2020/4/21
• 「経験」に基づいた言語(意味)という観点から見た既存
研究や議論の整理
– 全部で18ページあるが9ページが参考文献
– 古典的な話から最近のDLモデルまでよく網羅されている
• Yonatan Biskらは,” Embodied Vision, Actions, & Language”というワーク
ショップをECCV2020で開催予定
2
背景:テキストを扱う技術の急速な進展
3
GLUEで人間はもはや12位
機械は「意味」を理解しているのか
• 理解しているという感じはしない
• 生成は自然ではあるが,視覚的,身体的,社会的な常識とはずれ
た文を生成してしまう
• そもそも、「意味」というのは言語に特有の概念ではない
– 何が言語的なコーパスに表されていて、何が表せれていないのかを考え
る必要がある
4
本論文ではWorld Scopeという概念で既存研究を整理
• World Scopeは,扱っている世界の範囲
• WS1:コーパス
• WS2:大規模コーパス
• WS3:認知
• WS4:身体性
• WS5:社会性
• 既存の多くの研究はまだ2だが,3~5に向かっていくことが必要,
というのが基本的な論旨 5
WORLD SCOPE1:コーパスと表現
WORLD SCOPE2:大規模コーパスと転移
The Written World
6
WS1:コーパスの例 Penn Tree Bank (PTB)
• WS1の代表的なコーパス:Penn Tree Bank
– POS Tagging(品詞タグ付け)
• コーパスにより,データに基づく言語学が発展
7
どのように言語をデータに基づいて表現するか
• BoWベース
– TFIDF
– LSI (Latent Semantix Indexing)
• ニューラルネット(コネクショニズム)
– 簡単な文法などを表現できることは90’sから検証
– 構造を入れたモデルなども提案されている
(Recursive Neural Networks)
8
分布仮説 [Firth, 1957]
“You shall know a word by the company
it keep” [Firth, 1957] 2010年ごろから爆発的に引用増加
9
似ている文脈を持つ単語は同じ意味を持つという考え
(単語表現の多くの基本)
WS2:インターネット、大規模、転移
• 基本的な考え方はWS1と一緒
• 扱うデータの規模・モデルサイズが全く違う
– Wikipedia(1.9B), WMT2008-2012 (3.6B)
• 代表的な手法
– Word2Vec
– Glove
– ELMO: 94M parameters
– BERT-Large: 340M parameters
– GPT2: 1.5B parameters
• これらの表現は,汎用に使えることが多い(転移可能)
10
大規模なモデルの成功例 :GPT2 [Radlford, 19]
11
• 巨大なTransoformerを40GBのテキストで言語モデルとして訓練
• 様々なタスクにゼロショット転移
• モデルサイズを増やすと精度向上
大規模にすれば,すべての意味が分かるのだろうか
• コーパスはどこまで大規模化しても扱えるのは
「記述された世界(The Written World)」
– 言い換えれば単語の共起関係でしか意味をとらえていない
• こうしたアプローチだけで,意味は表せるのだろうか
• 著者の主張:大規模化による効用は減少している
12
大規模化だけでは解決しないことの傍証
13
• LAMBADAデータセット[Paperno, 16]
• 広いコンテキストの理解が必要
• 人間には容易だが,機械にはほとんどできない(GPT2とかでよく
なってはいるがそれでも67%くらい)
物理的な概念を単語埋め込みは持っているか?
• 人間の評定が付いた意味属性データセットを予測できるかの検証
14
[Lucy, 17]Are distributional representations ready for the real world? Evaluating word vectors
for grounded perceptual meaning
言語だけでは何がダメなのか
• 言語モデルの成功は,意味を「コンテキスト」に依存したものとして
考えているところ
– 例:Word2Vec
• しかしある単語(や文)が立脚しているコンテキストは,言語だけで
はない
– ある文が書かれた時の情景,心情など,さまざまなコンテキストが言語
に影響を与えている
– => WS3, WS4, WS5へ
15
WORLD SCOPE3:PERCEPTION(認知)
The World of Sights and Sounds
16
言語理解には知覚が必要
• 話し方で意味は変わる
• 触覚は「重い」「軽い」といった相対的概念を理解するのに必要
• スクリプトを理解することはWebのマニュアルだけを読んでもわか
らない(その状況を想起できる必要がある)
– ([script],人が通常行っている定型的な行動を、事象列という形で表現し
たもの。シャンク(Schank, R. C.)は、人間は知っている多くのスクリプトか
ら状況に応じて適切なものを想起することにより、文脈を理解していると
仮定している。)
17
CV系の急速な発展
What happen if… [Mottaghi, 16] PHYRE [Bakhtin, 19]
• もはや単なる1000クラス分類の機械ではない
• 十分に成熟し,複雑な例に使われている
• 教師なしもかなり進展(Mutual Information Maximization across View) 18
CV×言語
• Image Captioning
– MSCOCO, Conceptual Captions (billions of webpages)
• Visual Question Answering
• Language and Visual推論
– CLEVER,NVLR, VNLR2
• Visual Commonsense Reasoning
• Multimodal captioning and Translation
– VATEX
• Video BERTのような大規模モデルを言語による事前学習なしでも学
習できる規模のデータも集まっている
19
CV×NLPの最近の例
• “A Corpus for Reasoning about
Natural Language Grounded in
Photographs”
• ACL2019
• 2つの画像と言語の説明が与え
られ,言語の説明が正しいか判
定
• 例:「左の画像には右の画像の2
倍移っている」
20
CV×NLPの最近の例
21
• “From Recognition to Cognition: Visual Commonsense Reasoning”,
CVPR2019
• Q「なぜAさんはBさんを指さしている?」
• A「Cさん(店員)にAさんがパンケーキを頼んだと伝えている.」
• 人間は90%くらいとけるがビジョンモデルには難しい(45%とか)
CV×NLPの最近の例
• “VATEX: A Large-Scale, High-Quality
Multilingual Dataset for Video-and-
Language Research”, ICCV2019
• 大規模なビデオと言語のペアのデー
タセット.
• 41,250のビデオ,825,000の
キャプション
• 言語は同じ画像に英語と中国語の2つ
がついているので,
(1) 多言語ビデオキャプショニング
(2) ビデオを利用した翻訳
の2つのタスクに利用できる
22
CV×NLPの最近の例
23
• "VideoBERT: A Joint Model for Video and Language Representation
Learning”, ICCV2019
• 料理動画の画像と言語の双方向の生成.スクリプトのモデル化.
Is an orange more like a baseball or a banana?
• WS1:答えられない
• WS2:オレンジと野球のボールがどちらも転がるということはわか
るかもしれないが,物体の変形強度や質感,相対的な大きさなど
はとらえられない
– “How large are lions? inducing distributions over quantitative
attributes”
• WS3:どういう風に変形するかを理解するかもしれないが,どちら
がより変形に力を必要とするかはわからない
(ニュアンスは理解してない)
24
WORLD SCOPE4:EMBODIMENT
Embodiment and Action
25
注釈:この辺から解釈がだいぶ入ります
• そもそも身体性という概念も若干曖昧
– 単に身体がないとわからない概念があるという意味合い(例:痛み)
– 行為を行う主体としたの身体(ある概念を理解しているかを行動を伴うタ
スクの成否としてみる)
– 世界に影響を与えることで意味が分かるという観点での身体性
(つまり,世界に影響を与えた経験を通して初めて意味が分かる)
• ここで出てくる事例は1個目と2個目に近い意味で身体性を使って
いるが,タイトルからすると主張は3個目に近いような気がする
26
人間は,環境からの情報を概念の形成に利用
• “Conceptual precursors to language”, Nature 2004
– 生後5か月の子供(英語が母国語)が,英語にはないが韓国語にはある
概念(物体間のlooseとtight)を区別するのかの検証
– 結論はする
– ヒトの中での概念が周囲にある音などに依存して形成されることを示唆
• Effect of Touch Screen Tablet Use on Fine Motor Development
of Young Children
– iPadをよく使う子供は微細な運動能力がそうでない子供より悪い
27
なぜ意味理解は難しいのか
• 人間が持っている知識の多くは非言語的だが,言語的知識の理
解に必要である,ということ
• これらを先に学ばないと,言語的な知識の獲得に支障をきたす.
• またこれらは言語的な知識と結びつく前から主体の中に存在する
28
言語×ロボティクス
• ロボティクス技術は画像ほどは成熟してないが急速に発展
• 例:シミュレータ
– Mujoco, NVIDIA Isacc, Habitat, AI2-THOUR, RLBench, SAPIEN
• 例:フレームワーク
– Pyrobot (ROSの高レベルインタフェース)
• 例:安価なロボット
• 素直には,言語指示に従って行動を生成する研究が多々ある
29
シミュレータ例:SAPIEN
30
• SAPIEN: A SimulAted Part-based Interactive Environment, CVPR2019
• 多様な環境を生成できることが強味?パートの意味がよくわかってない
がよりリッチなコンタクトがシミュレートできる?
言語×ロボティクス例
31
• “Learning Interpretable Spatial Operations in a Rich 3D Blocks World”,
AAAI2018
• 3D blockの世界で,言語指示を行動にマッピング
• 物理的な概念(mirrorなど)を扱える必要がある
言語×ロボティクス例
• ALFRED: A Benchmark for
Interpreting Grounded
Instructions for Everyday Tasks
• ECCV2020 Challenge
• シミュレータ上で,ゴール,サブ
ゴールが与えられ,エージェント
はそれを解く
• 似たデータセットはいくつかある
がそれらより複雑
32
言語×ロボティクス例
33
• “Learning to map natural language instructions to physical quadcopter
control using simulated flight”, CoRL2019
WORLD SCOPE5:SOCIAL
34
対話システム
• 言語は,対人コミュニケーションを可能にするために生まれている
• 対人コミュニケーションの実現が言語的知性の必要要件であると
考えることもよくある
– 例:模倣ゲーム [Turing, 1950]
– 人の会話特別つかないような機械
• 対話システムは存在するが,
人間レベルには到底届いてない
35
Language Does Something
• そもそも,なぜ社会性が意味理解にとって重要なのか?
• 機能が意味の源泉である
– 内包や外縁によってあらわされるのではない
– Wittgensteinの言語ゲーム
• 例:“hate”という意味は他者に対してどういう心情の変化を引き起こす
かによって決まる
• 広い意味での「世界」にどういう影響を与えるかによって意味が決まる
• 既存の対話システムは自身の経験から学んでない
≒自分の発話が与える効果を学習できない
– エージェントが自ら言語的な活動に参加して学ぶ必要がある
36
効果を測れる例:説得
• “Evaluating Machines by their
Real-World Language Use”,
• Preprint, 2020
[TuringAdvice] 人が実際に対面した
状況に対して,アドバイスを生成する
というタスク
37
マルチエージェントなタスク例
• “Executing Instructions in
Situated Collaborative
Interactions”, EMNLP2019
• 全体が見えるLeaderが一部しか
見えないFollowerをナビゲートし
てタスクを達成するようなタスク
• モデルはなんか複雑そうだけど
基本は画像をなんか埋め込んで
RNNで言語支持を出力している
感じ
38
マルチエージェントなタスク例
• [Reasoning about Pragmatics with
Neural Listeners and Speakers
• SpeakerとLisner(それぞれNN)が
参照ゲーム [reference game]をす
る
• 説明文に対して正しい画像を選ぶ
• “Emergence of linguistic
communication from referential
games with symbolic and pixel
input”, ICLR2018も近い
39
Theory of Mind (Premack and Woodruff, 1978)
• 相手の気持ちに配慮する能力,またそれがどう機能するかについ
ての理論
• “Speaker–listener neural coupling underlies successful
communication”, PNAS2010
– 対話中の2人の人の[fMRI]は,コミュニケーションが成立している場合は
時空間的に相関しているが,コミュニケーションに失敗していると相関が
消える
40
“Evaluating Theory of Mind in Question Answering”, ACL2018
• Sarry –Annテストを機械でやった研究
– サリーはチョコをテーブルに置いた後部屋を出た
– アンはチョコを箱にしまった
– サリーはチョコがどこにあると思っているか?
• 他者の信念が現実と違っても,他者の信念を予測できるか
• ここでは,(1) 最初にどこにあったか(記憶),(2) 実際どこにあるか
(真実),(3) サリーはどこにあると思っているか,(4) アンはサリー
がどこにあると思っていると思っているかを,二人が同じ信念を持
ちうる場合そうでない場合で検証
41
社会的なコンテキスト
• 人間の間で言語が使われるときは,言語の使われ方は社会的な
コンテキストに必ず立脚している
– 例:立場,ステータス,意図,など
– 社会的認知 ([social cognition])
• こういった社会的なコンテキストを理解できるような状況が,言語
モデルの真の評価には必要
42
社会的なコンテキストを組み込む試みも進行
• “Social-IQ: A Question Answering Benchmark for Artificial Social
Intelligence”, CVPR2019
– 例えば「写真の中の人は真剣に会話しているか」,など
– Random 50%の指標,人間が95%で精度良いモデルで65%くらい
• “Persuasion for Good: Towards a Personalized Persuasive Dialogue
System for Social Good”, ACL2019
– 相手を説得する際の会話に,使われている戦略(10種類に分類)がアノテー
ションされたデータセット.
– 発話者のパーソナリティどの戦略が有効かの関係を調査
• “Winning arguments: Interaction dynamics and persuasion strategies
in good-faith online discussion”, WWW2016
– Redditのデータを分析して,説得のメカニズムを検証
43
まとめ
• 5つのWorld Scopeに従って既存研究を整理
– WS1, WS2: The Written World(既存研究の多く)
– WS3: Perception(知覚的なコンテキストが必要)
– WS4, WS5: Embodiment & Social(世界に影響を与えた経験が必要)
• 主張
– 言語はラジオから学べない(WS3が必要)
– 言語はテレビから学べない(WS4が必要)
– 言語は自分自身では学べない(WS5が必要)
• 環境や他者に影響を与えた「経験」にグラウンドすることが必要
(”Experience Ground Language”)
– どういうタスク、表現、帰納バイアスが必要だろうか?
44
感想
• 結論は,「意味というのは世界や他者への作用であるから,そう
いったものを考えることなしに意味理解は実現できない」ということ
だと思っている
• これはわかるものの,一方ある主体にとって意味を「理解する」と
いうのがどういう現象なのかがそもそも議論されないまま進んで
いる印象がある
– 意味が何なのかだけでなく,それを理解するということが何なのかを考え
る必要があるのでは?
• 汎用なタスクをとけること,という定義っぽいが,それは理解したと
いうことを事後に確認するすべであって,理解自体が何かを示し
ていない(ような気がする) 45
感想2
• 単語埋め込みがやっていることは、コンテキストで意味を表現す
るということだが、これはある単語が言語的な世界に
影響を与えていると考える事もできる
– つまり言語空間に限った単語の影響を考えているのが既存の単語埋め
込み
• 素朴にはこれを知覚や社会コンテキストに拡張できないだろうか
– 意味を理解するとは,「あるシンボルが世界に与える効果が予測できる
こと」「慣習に従って経験を生成できること」ではないだろうか
46

More Related Content

PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PPTX
Complex Sequential Question Answering: Towards Learning to Converse Over Link...
PDF
メタスタディ (Vision and Language)
PPTX
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
PDF
Interspeech2022 参加報告
PDF
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
PPTX
LLM は言葉の意味を理解しているのか?
子どもの言語獲得のモデル化とNN Language ModelsNN
Complex Sequential Question Answering: Towards Learning to Converse Over Link...
メタスタディ (Vision and Language)
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Interspeech2022 参加報告
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
LLM は言葉の意味を理解しているのか?

Similar to [DL輪読会]Experience Grounds Language (20)

PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PDF
Vision and Language(メタサーベイ )
PDF
20190324 第6章 テキストデータのための素性
PPTX
深層学習による自然言語処理の研究動向
PDF
言語資源と付き合う
PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
人口知能・自然言語処理・社会科学・政治学
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
20190407 第7章 事例研究:自然言語処理における素性
PDF
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
PDF
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
PDF
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
PDF
国際会議 interspeech 2020 報告
PPTX
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
PDF
[DL輪読会]Temporal Abstraction in NeurIPS2019
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Vision and Language(メタサーベイ )
20190324 第6章 テキストデータのための素性
深層学習による自然言語処理の研究動向
言語資源と付き合う
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
これからの Vision & Language ~ Acadexit した4つの理由
人口知能・自然言語処理・社会科学・政治学
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】基盤モデル / Foundation Models
20190407 第7章 事例研究:自然言語処理における素性
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Deep Learning による視覚×言語融合の最前線
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
国際会議 interspeech 2020 報告
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
[DL輪読会]Temporal Abstraction in NeurIPS2019
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

[DL輪読会]Experience Grounds Language

Editor's Notes

  • #4: GLUEでもはや人間は12位