Video-Language Pre-training based on Transformer Models

Video-Language
Pre-training
based on
Transformer
Models
Submitted by,
Raghava Devaraje Urs
015135653

Introduction
• Transfer-based training for natural language processing and computer vision.
• In the pre-training step of machine learning, the model is trained using a large
amount of data referred to as training data.
• Once this is complete, it is fine-tuned on a smaller dataset. This step eventually
helps in the betterment of the downstream tasks.
• Transformer networks have become popular in the field of Deep Learning by
providing precedence in performance. Having a smaller model bias and
network structure easy to deepen makes the transformer ideal for training and
finetuning.
• Making transformers superior compared to Multi-Layer Perceptrons (MLP),
Convolutional Neural Networks (CNNs), and Recurrent Neural Networks
(RNNs).

Pre-training and fine-tuning
Proxy tasks Video-Language Downstream Tasks

Proxy tasks
COMPLETION TASKS MATCHING TASKS ORDERING TASKS

Completion
tasks
Masked Language Modelling (MLM)
Masked Frame Modelling
Masked Token Modeling
Masked Modal Modeling
Language Reconstruction
Video Language Matching
Sentence Ordering Modeling
Frame Ordering Modeling

Video Language Downstream Tasks
TEXT-BASED
VIDEO RETRIEVAL
ACTION
RECOGNITION
ACTION
SEGMENTATION
ACTION STEP
LOCALIZATION
VIDEO QUESTION
ANSWERING
VIDEO
CAPTIONING

Video-Language Datasets
LABEL BASED CAPTION BASED

Video-language
Transformer
Models
Single-Stream Transformers
VideoBERT
HERO - Hierarchical Encoder for Omni representation
CLipBERT
DeCEMBERT - Dense Captions and Entropy Minimization
VLM - Video Language Model
VATT - Video Audi Text Transformer
VATT - Video Audi Text Transformer

Video-language
Transformer
Models
Multi-Stream Transformers
CBT
ActBERT
Univl

Summary and
Conclusion
Transformer block perspective
Word and Video embedding
Model training objectives
Model evaluation

Video-Language Pre-training based on Transformer Models

More Related Content

Similar to Video-Language Pre-training based on Transformer Models (20)

Recently uploaded (20)

Video-Language Pre-training based on Transformer Models