SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Visual ChatGPT: Talking, Drawing and Editing
with Visual Foundation Models
3/10 今井翔太 (松尾研究室)
@ImAI_Eruel
書誌情報
 タイトル:Visual ChatGPT: Talking, Drawing and Editing with Visual
Foundation Models
 出典:https://arxiv.org/abs/2303.04671
 著者:Microsoft Research Asiaの研究者ら
 日本時間で昨日(正確には3/8)発表された論文
Shota Imai | The University of Tokyo
2
今回の発表について
 ChatGPTのような大規模モデルを一から学習した研究ではない
 研究ではなく,既存のChatGPTや基盤モデルを組み合わせて有益なシステムをつくる,
エンジニアリングのお話に近い
 そもそもChatGPTを使っていない(使っているのはtext-davinci-003)ほか,論文の内容
もかなりざっくりで,ChatGPTの流行に乗っかった商品紹介みがある
 既存の学習済みVisual Foundation ModelとChatGPTを組み合わせたシステムであり,
我々にも真似できる手法という点では重要なアイディア
 (自分で読むのを選んでおいてアレですが)マイクロソフトが「ChatGPT」の名前を借
りて出した割には,ちょっと荒っぽさがある内容
Shota Imai | The University of Tokyo
3
Visual 〇〇というネーミン
グがマイクロソフト感あり
(Visual Stadio,Vscode...)
Visual ChatGPTの概要
 テキストと画像を入力とし,入力画像に対する操作や質問を対話をしながら実行できる
システム
- この画像のソファを机に置き換えてください,色を変えてください,背景を変えてください,
入力した画像を参考に〇〇な画像を出力してください等
 言語入力を受け取って操作や応答を出力する言語モデル,画像に対する操作を実行する
Visual Foundation Model,画像などの言語でないものを言語モデルへの指示に変換する
Prompt Managerからなる
Shota Imai | The University of Tokyo
4
Visual ChatGPTのデモ
Shota Imai | The University of Tokyo
5
予備知識:ChatGPT
 もはや説明不要,去年後半に発表された超性能の対話AI.世界で一番注目されている技
術
 今までの言語モデルと比較して明らかに性能が向上しており,日本語にも対応.ほとん
どの質問に対する自然な回答,コピペで動く高度なプログラミングコードの生成,翻訳,
文章構成,文章要約,文章校正が可能
 ChatGPTの技術的詳細は以下の資料で解説しているので,興味があれば
ChatGPT 人間のフィードバックから強化学習した対話AI
https://www.slideshare.net/ShotaImai3/chatgpt-254863623
Shota Imai | The University of Tokyo
6
Visual ChatGPT / システム詳細
 𝑄𝑖:ユーザーからの一回の入力.User Query
 𝐴𝑖: Q_iに対するGPTの応答
 (Q_1, A_1), (Q_2, A_2)...の対話で,ユーザーは所望の画像,あるいは回答を得るようプ
ロンプトを入力し,各対話でGPTがQに対する適切な操作をおこなった画像や言語の回答Aを
返す
 ユーザーからの言語入力,画像入力,会話の履歴はPrompt Managerに送られて全て言語指示
に変換され,ChatGPTへ入力,VFMによる操作,j回の推論から最終的な回答を生成
𝐴𝑗
:j回目の中間回答
𝑀:Prompt Manager
F: Visual Foundation Model
P: System Principles
R: 推論の履歴
H:対話の履歴
Shota Imai | The University of Tokyo
7
大雑把な処理の流れ
1. ユーザーが入力Qを画像と一緒に入力
2. Visual ChatGPTのPrompt ManagerがQの言語部分と,事前に準備されているSystem
PrincipleやVFMのドキュメントを見て,ChatGPTに入力するプロンプトを作成
3. プロンプトをChatGPTに入力し,言語出力と,VFMを使用するかどうかの決定,VFM
に入力する場合にはVFMへのプロンプトや,入力形式を決定
4. VFMを使う必要がなければ,ChatGPTの回答をユーザーに返す.使う必要があれば
VFMを呼び出し,ユーザーから入力された画像と,ChatGPTの出力プロンプトを処理
5. VFMの処理結果を見て,さらに処理を行うか決定.処理する場合には現在の出力を参
考に,3から繰り返す
Shota Imai | The University of Tokyo
8
Visual Foundation Model(VFN)
 pix2pixや,text2imageなど,現在よく使われている学習済みの画像関連の基盤モデルの
集合𝐹 = {𝑓1, 𝑓2, … , 𝑓𝑁}
 Prompt Managerの出力から,現在のユーザーのQに対する回答を生成するのに最も適し
たVFMを選択し,画像への操作を実行
Shota Imai | The University of Tokyo
9
Prompt Manager
 Visual ChatGPTの核
 ChatGPTは画像を入力とできないため,画像など
をひとまとめにして言語に変換する機構
 論文中に詳しく書かれていないが,単一のニューラ
ルネットワークのモデルではなく,いくつかのシス
テムによる処理をまとめてPrompt Managerと称し
ている
Shota Imai | The University of Tokyo
10
Prompt Manager / System Principleの処理
 ChatGPTに対し,現在必要な操作の基本的方針を出力
 どのVFMを使うか,ファイル名の扱い,推論に使用するフォーマットなどの指示
Shota Imai | The University of Tokyo
11
Prompt Manager / VFMの処理
 ChatGPTに対し,VFMをどのように扱うか,なにをVFMの入出力とするか,などの方針
を与える
Shota Imai | The University of Tokyo
12
Prompt Manager / 中間出力の処理
 Visual ChatGPTがVFMで出力した結果から,さらなる操作を行うかどうかを決定
 ユーザーの処理が曖昧な場合は,この時点でユーザーに対してさらなる操作の指示を聞
く
Shota Imai | The University of Tokyo
13
実験
 Visual ChatGPTの仕様
- 言語モデル:text-davinci-003(GPT-3.5)
- LangChain
- Visual Foundation Model: HuggingFace Transformers,Maskformer, ControlNetなど22個
- 計算リソース:V100 GPU 4個
- 会話履歴の最大トークン数:2000
 System PrincipleのPrompt Managing, VFMのPrompt Managingなどのケーススタディ
- 色々載っているが,要するにVisual ChatGPTの処理の失敗例と成功例を並べたもの
Shota Imai | The University of Tokyo
14
実験結果
Shota Imai | The University of Tokyo
15
Visual ChatGPTの限界
 言語モデルの性能に左右される
 プロンプトエンジニアリングへの依存
 リアルタイム処理が難しい
 トークン制限
Shota Imai | The University of Tokyo
16
所感
 論文自体はざっくりで,研究・・・?という内容だが,実現しているシステム自体は有
用で面白い
 そもそも大規模言語モデル自体の本格的な研究が困難なフェーズで,我々ユーザーがど
のように面白いシステムを作っていくかを考える上では参考にすべき
Shota Imai | The University of Tokyo
17

More Related Content

PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
PPTX
画像処理AIを用いた異常検知
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
[DL輪読会]Objects as Points
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【メタサーベイ】基盤モデル / Foundation Models
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
画像処理AIを用いた異常検知
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]Objects as Points
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

What's hot (20)

PDF
【メタサーベイ】Neural Fields
PDF
グラフニューラルネットワークとグラフ組合せ問題
PDF
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PDF
推薦アルゴリズムの今までとこれから
PDF
グラフニューラルネットワーク入門
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
画像生成・生成モデル メタサーベイ
PDF
【メタサーベイ】Video Transformer
PDF
研究効率化Tips Ver.2
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PDF
動作認識の最前線:手法,タスク,データセット
PDF
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
PDF
深層学習によるHuman Pose Estimationの基礎
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
近年のHierarchical Vision Transformer
PDF
一般向けのDeep Learning
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【メタサーベイ】Neural Fields
グラフニューラルネットワークとグラフ組合せ問題
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
推薦アルゴリズムの今までとこれから
グラフニューラルネットワーク入門
【メタサーベイ】Vision and Language のトップ研究室/研究者
画像生成・生成モデル メタサーベイ
【メタサーベイ】Video Transformer
研究効率化Tips Ver.2
モデルアーキテクチャ観点からのDeep Neural Network高速化
動作認識の最前線:手法,タスク,データセット
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
深層学習によるHuman Pose Estimationの基礎
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
【チュートリアル】コンピュータビジョンによる動画認識
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
近年のHierarchical Vision Transformer
一般向けのDeep Learning
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Ad

Similar to 【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models (20)

PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
PDF
ChatGPT を使ってみた
PDF
Dl hacks paperreading_20150527
PPTX
no12.pptx
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PPTX
ChatGPT Impact - その社会的/ビジネス価値を考える -
PDF
DeNAにおける機械学習・深層学習活用
PDF
先端技術とメディア表現 第4回レポートまとめ
PPTX
Bridging between Vision and Language
PDF
人工知能はどんな夢を見るか?
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PDF
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
PDF
先端技術とメディア表現 第3回レポートまとめ
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
PPTX
the 15th gathering
PDF
[2024年4月] 業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会)
PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
ChatGPT 人間のフィードバックから強化学習した対話AI
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
ChatGPT を使ってみた
Dl hacks paperreading_20150527
no12.pptx
子どもの言語獲得のモデル化とNN Language ModelsNN
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
ChatGPT Impact - その社会的/ビジネス価値を考える -
DeNAにおける機械学習・深層学習活用
先端技術とメディア表現 第4回レポートまとめ
Bridging between Vision and Language
人工知能はどんな夢を見るか?
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
先端技術とメディア表現 第3回レポートまとめ
Deep Learning による視覚×言語融合の最前線
GANsの最新動向: 応用領域でのGANs (CVPR 2018 完全読破チャレンジ報告会)
the 15th gathering
[2024年4月] 業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会)
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models