SlideShare a Scribd company logo
4
Most read
6
Most read
12
Most read
From Transformer to Foundation Models
Transformerから基盤モデルまでの流れ
cvpaper.challenge
1
http://xpaperchallenge.org/cv
基盤モデル | Foundation models
2
Foundation models @On the Opportunities and Risks of Foundation Models
̶ any model that is trained on broad data at scale and can be
adapted (e.g., fine-tuned) to a wide range of downstream tasks...
広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル
基盤モデル
Photo from Stanford HAI
Foundation modelsが⽬指す先とは?
3
AGI: Artificial General Intelligence*(汎⽤⼈⼯知能)
̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われます
が,Foundation Modelsの目的は種々あります
2022年現在,基盤モデルの衝撃
4
CVとしては“Florence”と“DALL•E2”が主⼒︕
https://openai.com/dall-e-2/
https://arxiv.org/pdf/2111.11432.pdf
画像・動画・⾔語と広範なタスクを同時処理
● 画像/動画と⾔語を別々に学習して統合
● 9億もの画像・⾔語ペアにより学習して基盤モデル構築
● 実に44タスク(データセット)を⾼度に認識、うち多くの
タスクにて最⾼⽔準の精度まで到達
⾔語から⾼精細な画像を⽣成
● CLIP: 画像・⾔語空間の対応関係を⾼度に学習
● Diffusion Models: ノイズ復元により⾼解像な画像描画
● WEB上から収集した数億の画像・⾔語ペアにより学習して
Text-to-Imageのモデルを構築
● この結果,AIは創造性を持ったと総評されるに⾄る
次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
From Transformer to FMs(1/N)
5
⾃然⾔語処理 (NLP)分野でTransformerが提案
● Transformer
● Self-attention (⾃⼰注視)機構により系
列データを⼀括処理
● “Attention Is All You Need”とタイトル
を名付けるくらいには衝撃的だった
● 学習時間短縮・性能向上を同時に実現
【Why Transformer?】
Transformerの提案論⽂ “Attention Is All You
Need”(NIPS 2017)にて,機械翻訳タスク(Neural
Machine Translation; NMT)を⾼度に解いたモデル
だからだと思っているのですが諸説あり︖
Transformerについてはこちらも参照
https://www.slideshare.net/cvpaperchallenge/transformer-247407256
From Transformer to FMs(1/N)
6
NLP分野にてTransformerが拡がる
● BERT(Bi-directional Encoder Representations from Transformers)
● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル
● ⽂章の「意味を理解」することができるようになったと話題
● なぜBERTが躍進したか︖
● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能
● 双⽅向モデルにつき,単語の前後から⽂脈を把握
https://arxiv.org/abs/1810.04805
BERTでは多くのタスクを単⼀モデルで解くことが
できるが,その学習は「⽂章のマスクと復元」の
⾃⼰教師あり学習により実施される
Attention is All You Need.(元データ)
↓ 意図的に⽋損作成
Attention is All ___ Need.(復元前)
↓ BERTにより推定
Attention is All You Need.(復元後)
GPT-3論⽂はNeurIPS 2020にて
Best Paper Awardを獲得
From Transformer to FMs(1/N)
7
⼈間レベルの⽂章⽣成を可能にした
● GPT(Generative Pre-trained Transformer)
● 与えられた⽂章の先を予測して⽂章⽣成
● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加
○ GPT-1: 1.2億パラメータ
○ GPT-2: 15億パラメータ, 40GBテキスト
○ GPT-3: 1750億パラメータ, 570GBテキスト
○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた
● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得
https://arxiv.org/pdf/2005.14165.pdf
https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開
From Transformer to FMs(1/N)
8
その後もTransformerの勢いは⽌まらない
Attentionこそ全て︕ ⽂章の先を予測︕
(その後⼤規模化により
GPT-2/3に改良)
⽂章の⽂脈を双⽅向
から理解︕マスク・
復元により⾃⼰教師
学習 画像と⾔語を処理
畳み込みとの融合により
画像認識(検出)を実現
純粋にTransformer構造で画像認識
その後,⼊⼒の⼯夫で動画認識
Natural Language Processing Natural Language Processing Vision & Language Computer Vision
From Transformer to FMs(1/N)
9
Vision Transformer(ViT)
● 純Transformer構造により画像認識
● 画像パッチを単語と⾒なして処理
● Encoderのみ使⽤ / MLPを通して出⼒
● ViTの後にも亜種が登場
● CNN + Transformer: CvT, ConViT(擬似畳込み),
CMT, CoAtNet
● MLP: MLP-Mixer, gMLP
● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21]
【Vision Transformer】
【Swin Transformer V1/V2】
Swin Transformer V1 [Liu+, ICCV21]
Swin Transformer V2 [Liu+, CVPR22]
From Transformer to FMs(1/N)
10
ViTでも自己教師あり学習できることを実証
● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ
● 最初はContrastive Learning (対照学習)が提案・使⽤
● SimCLR / MoCo / DINOいずれもViTを学習可能
SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21]
⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった)
Transformerへ適⽤する研究も多数
MoCo [He+, CVPR20]
From Transformer to FMs(1/N)
11
ViTにおける自己教師あり学習の真打ち!?
● “ViTでBERTする” Masked AutoEncoder (MAE)
● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec
MAE [He+, CVPR22]
Data2vec [Baevski+, arXiv22]
どちらも「マスクして復元」という⽅法論
● MAEは画像における⾃⼰教師あり学習
● Data2vecは3つのモダリティ(但しFTは個別)
● 今後,基盤モデルのための⾃⼰教師あり学習が登場す
る可能性は⼤いにある
From Transformer to FMs(1/N)
12
CLIPは画像と⾔語のモダリティをより近づけた
CLIPには強いタスクと弱いタスクが混在
↓
苦⼿な領域が存在するので
拡張が求められていた
↓
Florence
3つの追加学習軸
From Transformer to FMs(1/N)
13
Transformer → FMs 3つのポイント
● 複数モダリティ・単⼀モデル
● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える
● 同時に扱えるモダリティは増加傾向
● モデル・データのサイズ増加
● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT)
● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA)
● ラベルなしデータで事前学習
● ⾃⼰教師あり学習の台頭
● マルチモーダルの教師なし学習

More Related Content

PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
画像生成・生成モデル メタサーベイ
PPTX
マルチモーダル深層学習の研究動向
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PPTX
[DL輪読会]Object-Centric Learning with Slot Attention
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
画像生成・生成モデル メタサーベイ
マルチモーダル深層学習の研究動向
[DL輪読会]MetaFormer is Actually What You Need for Vision
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【メタサーベイ】Vision and Language のトップ研究室/研究者
[DL輪読会]Object-Centric Learning with Slot Attention

What's hot (20)

PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
機械学習で泣かないためのコード設計 2018
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
全力解説!Transformer
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Transformer メタサーベイ
PPTX
猫でも分かるVariational AutoEncoder
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
【DL輪読会】"A Generalist Agent"
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
近年のHierarchical Vision Transformer
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
機械学習で泣かないためのコード設計 2018
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
全力解説!Transformer
SSII2022 [OS3-02] Federated Learningの基礎と応用
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Transformer メタサーベイ
猫でも分かるVariational AutoEncoder
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
これからの Vision & Language ~ Acadexit した4つの理由
【DL輪読会】"A Generalist Agent"
Curriculum Learning (関東CV勉強会)
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
近年のHierarchical Vision Transformer
Ad

Similar to 【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models (20)

PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
PDF
AI理論とビジネス 中井眞人氏 20171122
PDF
Team ai 3
PDF
大規模言語モデルとChatGPT
PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
PDF
【ECCV 2018】Interpretable Intuitive Physics Model
PDF
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
PPTX
JDLA_GAI Test2023.pptx
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PDF
第4次産業革命 AIでビジネスの現場が変わる
PPTX
local launch small language model of AI.
PDF
AIについて学んだこと ~ 生成AIとは? ~
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PPTX
『AI をどう見てきたか、どう向き合っていくか』 ― AI は今後の可能性の幅がとてつもなく広い ― Ver.1.2
PDF
ゼロから学ぶAI
PDF
AIがAIを生み出す?
PDF
広告文生成タスクの規定とベンチマーク構築
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PPTX
Small Language Model Local Launch on AI Tour Tokyo
【メタサーベイ】基盤モデル / Foundation Models
AI理論とビジネス 中井眞人氏 20171122
Team ai 3
大規模言語モデルとChatGPT
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
【ECCV 2018】Interpretable Intuitive Physics Model
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
JDLA_GAI Test2023.pptx
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
第4次産業革命 AIでビジネスの現場が変わる
local launch small language model of AI.
AIについて学んだこと ~ 生成AIとは? ~
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
『AI をどう見てきたか、どう向き合っていくか』 ― AI は今後の可能性の幅がとてつもなく広い ― Ver.1.2
ゼロから学ぶAI
AIがAIを生み出す?
広告文生成タスクの規定とベンチマーク構築
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
Small Language Model Local Launch on AI Tour Tokyo
Ad

【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models

  • 1. From Transformer to Foundation Models Transformerから基盤モデルまでの流れ cvpaper.challenge 1 http://xpaperchallenge.org/cv
  • 2. 基盤モデル | Foundation models 2 Foundation models @On the Opportunities and Risks of Foundation Models ̶ any model that is trained on broad data at scale and can be adapted (e.g., fine-tuned) to a wide range of downstream tasks... 広範なデータにより学習され(追加学習等により)広い範囲の下流タスクに適用可能なモデル 基盤モデル Photo from Stanford HAI
  • 3. Foundation modelsが⽬指す先とは? 3 AGI: Artificial General Intelligence*(汎⽤⼈⼯知能) ̶ 汎⽤的にタスクを解く⼈⼯知能に対する挑戦 Robotics Vision Language Audio Foundation Model Philosophy Interaction ・・・まだまだ広がりを見せようとしている *: AGIは人工知能の究極の目標のひとつと言われます が,Foundation Modelsの目的は種々あります
  • 4. 2022年現在,基盤モデルの衝撃 4 CVとしては“Florence”と“DALL•E2”が主⼒︕ https://openai.com/dall-e-2/ https://arxiv.org/pdf/2111.11432.pdf 画像・動画・⾔語と広範なタスクを同時処理 ● 画像/動画と⾔語を別々に学習して統合 ● 9億もの画像・⾔語ペアにより学習して基盤モデル構築 ● 実に44タスク(データセット)を⾼度に認識、うち多くの タスクにて最⾼⽔準の精度まで到達 ⾔語から⾼精細な画像を⽣成 ● CLIP: 画像・⾔語空間の対応関係を⾼度に学習 ● Diffusion Models: ノイズ復元により⾼解像な画像描画 ● WEB上から収集した数億の画像・⾔語ペアにより学習して Text-to-Imageのモデルを構築 ● この結果,AIは創造性を持ったと総評されるに⾄る 次ページよりTransformer〜Foudation Models(FMs)に⾄るまでを解説↓
  • 5. From Transformer to FMs(1/N) 5 ⾃然⾔語処理 (NLP)分野でTransformerが提案 ● Transformer ● Self-attention (⾃⼰注視)機構により系 列データを⼀括処理 ● “Attention Is All You Need”とタイトル を名付けるくらいには衝撃的だった ● 学習時間短縮・性能向上を同時に実現 【Why Transformer?】 Transformerの提案論⽂ “Attention Is All You Need”(NIPS 2017)にて,機械翻訳タスク(Neural Machine Translation; NMT)を⾼度に解いたモデル だからだと思っているのですが諸説あり︖ Transformerについてはこちらも参照 https://www.slideshare.net/cvpaperchallenge/transformer-247407256
  • 6. From Transformer to FMs(1/N) 6 NLP分野にてTransformerが拡がる ● BERT(Bi-directional Encoder Representations from Transformers) ● 翻訳・予測などNLPのタスクを幅広く解くことができるモデル ● ⽂章の「意味を理解」することができるようになったと話題 ● なぜBERTが躍進したか︖ ● ⾃⼰教師学習によりラベルなし⽂章を学習に適⽤可能 ● 双⽅向モデルにつき,単語の前後から⽂脈を把握 https://arxiv.org/abs/1810.04805 BERTでは多くのタスクを単⼀モデルで解くことが できるが,その学習は「⽂章のマスクと復元」の ⾃⼰教師あり学習により実施される Attention is All You Need.(元データ) ↓ 意図的に⽋損作成 Attention is All ___ Need.(復元前) ↓ BERTにより推定 Attention is All You Need.(復元後)
  • 7. GPT-3論⽂はNeurIPS 2020にて Best Paper Awardを獲得 From Transformer to FMs(1/N) 7 ⼈間レベルの⽂章⽣成を可能にした ● GPT(Generative Pre-trained Transformer) ● 与えられた⽂章の先を予測して⽂章⽣成 ● 拡張される度にパラメータ数 / 学習テキストサイズが⼀気に増加 ○ GPT-1: 1.2億パラメータ ○ GPT-2: 15億パラメータ, 40GBテキスト ○ GPT-3: 1750億パラメータ, 570GBテキスト ○ 想像を絶するパラメータ数の増加により⼤幅な性能改善が⾒られた ● 「シンギュラリティが来た」と⾔われるくらいの⽂章⽣成能⼒を獲得 https://arxiv.org/pdf/2005.14165.pdf https://neuripsconf.medium.com/announcing-the-neurips-2020-award-recipients-73e4d3101537
  • 8. Transformerは尚もNLP分野にて進展,Audio/Robotics分野にも展開 From Transformer to FMs(1/N) 8 その後もTransformerの勢いは⽌まらない Attentionこそ全て︕ ⽂章の先を予測︕ (その後⼤規模化により GPT-2/3に改良) ⽂章の⽂脈を双⽅向 から理解︕マスク・ 復元により⾃⼰教師 学習 画像と⾔語を処理 畳み込みとの融合により 画像認識(検出)を実現 純粋にTransformer構造で画像認識 その後,⼊⼒の⼯夫で動画認識 Natural Language Processing Natural Language Processing Vision & Language Computer Vision
  • 9. From Transformer to FMs(1/N) 9 Vision Transformer(ViT) ● 純Transformer構造により画像認識 ● 画像パッチを単語と⾒なして処理 ● Encoderのみ使⽤ / MLPを通して出⼒ ● ViTの後にも亜種が登場 ● CNN + Transformer: CvT, ConViT(擬似畳込み), CMT, CoAtNet ● MLP: MLP-Mixer, gMLP ● ViT: DeiT, Swin Transformer ViT [Dosovitskiy+, ICLR21] 【Vision Transformer】 【Swin Transformer V1/V2】 Swin Transformer V1 [Liu+, ICCV21] Swin Transformer V2 [Liu+, CVPR22]
  • 10. From Transformer to FMs(1/N) 10 ViTでも自己教師あり学習できることを実証 ● ViTでは教師あり学習 @ ImageNet-1k/22k, JFT-300MGoogleが誇る3億のラベル付画像データ ● 最初はContrastive Learning (対照学習)が提案・使⽤ ● SimCLR / MoCo / DINOいずれもViTを学習可能 SimCLR [Chen+, ICML20] DINO [Caron+, ICCV21] ⾃⼰教師あり学習ではContrastive Learningが主流の1つ(だった) Transformerへ適⽤する研究も多数 MoCo [He+, CVPR20]
  • 11. From Transformer to FMs(1/N) 11 ViTにおける自己教師あり学習の真打ち!? ● “ViTでBERTする” Masked AutoEncoder (MAE) ● 画像・⾔語・⾳声の⾃⼰教師あり学習 Data2vec MAE [He+, CVPR22] Data2vec [Baevski+, arXiv22] どちらも「マスクして復元」という⽅法論 ● MAEは画像における⾃⼰教師あり学習 ● Data2vecは3つのモダリティ(但しFTは個別) ● 今後,基盤モデルのための⾃⼰教師あり学習が登場す る可能性は⼤いにある
  • 12. From Transformer to FMs(1/N) 12 CLIPは画像と⾔語のモダリティをより近づけた CLIPには強いタスクと弱いタスクが混在 ↓ 苦⼿な領域が存在するので 拡張が求められていた ↓ Florence 3つの追加学習軸
  • 13. From Transformer to FMs(1/N) 13 Transformer → FMs 3つのポイント ● 複数モダリティ・単⼀モデル ● 画像・⾔語・⾳声を⼀つのTransformerモデルで扱える ● 同時に扱えるモダリティは増加傾向 ● モデル・データのサイズ増加 ● データ︓数億〜数⼗億規模(e.g., DALL-E, Scaling ViT) ● モデル︓千億パラメータ規模 (e.g., GPT-3, LaMDA) ● ラベルなしデータで事前学習 ● ⾃⼰教師あり学習の台頭 ● マルチモーダルの教師なし学習