Bert for multimodal

BERTの
Multi Modalタスクへの活用

自己紹介
 Twitter/Github: ymym3412
 自然言語処理万事屋

MultiModalとは
複数のモダリティ(テキスト/画像/音声 etc...)を組み合わせて扱うこと
単一のモダリティでタスクを解くよりも性能が良くなることを期待できる
例えばSarcasm Detectionであれば
テキスト単体から検出するよりも
話者の画像や音声も活用した方が検出精度を
高められるということが直感的に想像できる
今回はVision+Languageに絞って話します

MultiModal領域でのBERT
 ViLBERT
 LXMERT
 VL-BERT
 Unicoder-VL
 UNITER

解きたいタスク
Visual Question Answering
Cross-Modal Retrieval
Visual Commonsense Reasoning
Referring Expression Comprehension

ViLBERT
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks(NeurIPS2019)
 BERTのSelf-Attention Layerの代わりにCo-Attention Layerの導入
 Masked Multi-Modal LearningとMulti-Modal alignment Predictionの事前学習の導入
 画像の入力は物体検出で検出された領域

ViLBERT
 Co-Attention Layerの導入
 VisualとLinguisticの2つのTransformer Layerを用意
 Self-AttentionではQuery/Key/Valueがすべて自身だが、Co-AttentionではQueryは自身で
Key/Valueは対となるモーダルから来る

ViLBERT
 Multi-Modalモデル向け事前学習タスクの導入
 入力は[<IMG>, v1,…,<CLS>, w1, …, <SEP>]の形式
 Masked Multi-Modal Learning
 ランダムにマスクしたvi/wiのクラスを予測
 Multi-Modal Alignment Prediction
 画像とテキストがペアのデータかどうかを予測

ViLBERT
 事前学習したモデルを各タスクでFine-Turning

LXMERT
LXMERT: Learning Cross-Modality Encoder Representations from Transformers(EMNLP2019)
 Modal毎のTransformer EncoderとModalityを統合するCross-Modality Encoder
 5種類の事前学習タスクを導入

LXMERT
 Image Encoderでは物体検出で得たRoI FeatureとBBのPos Featureを合わせ、
Transformerの入力とし物体間のRelationも学習する
 Textは通常のTransformer
 Cross-Modality EncoderではModalを跨いだCross-Attention
 それぞれのEncoderを複数個Stackする

LXMERT
 5種類の事前学習タスク
 Masked Cross-Modality LM
 通常のMasked LMだがImageの情報も活用できる
 Masked Object Prediction/RoI-Feature Regression
 RoIをランダムにMask、最終的な出力とのL2 Lossを計算
 Masked Object Prediction/Detected-Label Classification
 出力からODのラベルを予測
 Cross-Modality Matching
 画像とテキストがペアか予測
 Image Question Answering
 QA問題を解く(コーパス中のQAのデータのみ)

LXMERT
 Devセットでは学習済みBERTで初期化するよりスクラッチでLXMERTを
学習させた方が良い性能。どちらが良いかは断定はできない
 VQA系のタスクに対しては、Image FeatureやImage-QAの事前学習
がうまく機能している

VL-BERT
VL-BERT: PRE-TRAINING OFGENERICVISUAL -LINGUISTICR EPRESENTATIONS(ICLR 2020)
 ImageとTextのEncoderを分離せず同じTransformerで扱う機構
 事前学習はMasked LMとMasked RoI Classification

VL-BERT
VL-BERT: PRE-TRAINING OFGENERICVISUAL -LINGUISTICR EPRESENTATIONS(ICLR 2020)
 ViLBERTやLXMERTはEncoderを分けてCo-Attentionを行っていたが、VL-BERTでは同じ
Transformer Encoderに入力しSelf-AttentionをすることでAttentionの制約を回避できる(著
者)
 Image Featureの生成に工夫が加えられている

Unicoder-VL
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal(AAAI 2020)
 こちらもひとつのTransformer EncoderでTextとImageを扱う
 事前学習はMasked LM, Masked Object Classification, Visual-Linguistic Matching
 Unicoder-VLは他のモデルと違いdownstream taskがCross-Modal Retrieval

差が分かりづらくなってきた？
 VL-BERTの論文に各種Multi-Modal BERT系モデルの比較表がある
 Single TransformerやDownstream task, Pretrain Taskなどに差

UNITER
UNiversal Image-TExt Representation Learning
 モデルはImageとTextを同じTransformer Encoderに投入するタイプ
 4種類の事前学習タスクを用いる
 事前学習には従来の主流だったConceptual Captions[Sharma et al., 2018]に加えてCOCO[Chen et al., 2015],
Visual Genome[Krishna et al., 2016], SBU Captions[Ordonez et al., 2011]などの4種類のデータセットを用いる

UNITER
 4種類の事前学習タスク
 Masked Language Modeling
 Image-Text Matching
 Word-Region Alignment
 WordとRegionの対応付けを最適輸送問題として解く
 コスト関数はImageとWordのベクトルのコサイン類似度
 最適輸送をIPOTで求めその距離を損失とする
 Masked Region Modeling
 3種の損失関数を設計
 Masked Region Feature Regression
 Masked Region Classification
 Masked Region Classification with KL-D

UNITER
 実験結果ではここまで紹介したMultiModal系BERTモデルを凌いでいる

まとめ
 モデルの構造として各Modalを分けてEncodeするものと、ひとつのEncoderに投入するものが主流
 事前学習として、通常のBERTと同じMasked LMとImageのRoIに対するMasked Region
Modelがほとんどのモデルで行われる
 Masked Region ModelはL2回帰で行う場合とラベル分類で行う場合、あるいは両方を行う場合がある
 上記の事前学習に加えて画像とテキストのペアの正例/負例で行うImage-Text Matchingやモデル
固有の事前学習タスク(Image-QAやWord Region Alignmentなど)が提案されている
 事前学習にはConceptual Captionsを使う場合が多いが、UNITERでは加えてCOCO, Visual
Genome, SBU Captionsが用いられている

参考文献
 Lu, J., Batra, D., Parikh, D., Lee, S.: Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In:
NeurIPS (2019)
 Tan, H., Bansal, M.: Lxmert: Learning cross-modality encoder representations from transformers. In: EMNLP (2019)
 Su, W., Zhu, X., Cao, Y., Li, B., Lu, L., Wei, F., Dai, J.: Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint
arXiv:1908.08530 (2019)
 Li, G., Duan, N., Fang, Y., Jiang, D., Zhou, M.: Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training.
arXiv preprint arXiv:1908.06066 (2019)
 Yen-Chun Chen ? , Linjie Li ? , Licheng Yu ? , Ahmed El Kholy Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu:UNITER: UNiversal
Image-TExt Representation Learning. arXiv preprint arXiv:1909.11740 (2019)
 Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ar, P., Zitnick, C.L.: Microsoft coco: Common objects in
context. In: ECCV (2014)
 Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L.J., Shamma, D.A., et al.: Visual genome:
Connecting language and vision using crowdsourced dense image annotations. IJCV (2017)
 Sharma, P., Ding, N., Goodman, S., Soricut, R.: Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic
image captioning. In: ACL (2018)
 Ordonez, V., Kulkarni, G., Berg, T.L.: Im2text: Describing images using 1 million captioned photographs. In: NeurIPS (2011)

Bert for multimodal

More Related Content

What's hot (20)

Similar to Bert for multimodal (20)

More from Yasuhide Miura (6)

Bert for multimodal