SlideShare a Scribd company logo
CLIFF: Continual Latent Diffusion
for Open-Vocabulary Object
Detection
Wuyang Li, Xinyu Liu, Jiayi Ma, Yixuan Yuan. ECCV2024
細谷優(名工大)
2024/11/05
Open-Vocabulary
◼Open-Vocabulary
• データセットで限定された語彙(クローズド)を超えた汎化を目指す
◼Zero-shotとOpen-Vocabulary
• Zero-shot
• Base class(seen)とNovel class(unseen)がある
• 未知クラスが固定,用意されている
• Open-Vocabulary
• 未知クラスはプロンプトで入力
[We+, arXiv2023]
拡散モデル(Diffusion Model)
◼DDPM(Denoising Diffusion Probabilistic Model)
• 学習では元画像に少しずつノイズを加える(拡散過程)
• 学習パラメータを使って各時刻でノイズを加える過程を学習
• 逆拡散過程によってノイズから画像を生成
𝑅𝑒𝑣𝐷𝑖𝑓(∙)の定義(逆拡散過程,生成過程)
全体でノイズ除去を行っている
𝑥𝑡: 𝑡 = 𝑇がノイズ,𝑡 = 𝑇 − 𝐿 + 1が求めたい生成画像
𝑐: 拡散条件(生成したいテキストのembeddingやクラスなど)
𝜖𝜃(∙):学習済みのパラメータ(拡散過程で得られる部分)
論文概要
◼CLIFF(Continual Latent Diffusion)を提案
• Open-Vocabulary Object Detectionモデル
• 以下のモジュールから構成される
• VLS(Variational Latent Sampler)
• 確率的モデリングを可能にする
• CDM(Continual Diffusion Module)
• 分布伝達を行う
CLIP[Radford+, ICML2021]の埋め込みを使う従来手法
- 画像とテキストの分布のずれが有る
提案手法
手法の全体図
◼CLIFF(Continual Latent Diffusion)
• 以下に分けて見ていく
• VLS(Variational Latent Sampler)
• CDM(Continual Diffusion Module)
VLS(Variational Latent Sampler)
◼Diffusion modelに入力する潜在(Latent)特徴量を取得
RPN(Region Proposal Network)
- 物体の領域を予測
- Faster-RCNN [Ren+, NeurIPS2015]
など
Object embedding 𝑥𝑜𝑏𝑗を取得 ランダムノイズ空間 𝑝𝜙 𝑥𝑇
ではなく,VLSを使って
𝑝𝜙 𝑥𝑇 𝑥𝑜𝑏𝑗 が欲しい
Detection Dataset(object labels)
Auxiliary Dataset(image labels)
VLS(Variational Latent Sampler)
◼Diffusion modelに入力する潜在(Latent)特徴量を取得
• 欲しい分布: 𝒑𝝓 𝒙𝑻 𝒙𝒐𝒃𝒋
• VAEに倣って定式化
平均,標準偏差を求める
分布の最適化に使うKL(Kullback-Leibler)目的関数
- オブジェクトのクラスバイアスを排除し,DDPM制約が満たされる
CDM(Continual Diffusion Module)
◼2つの逆拡散過程によってembeddingを取得
• Object-to-Image
• Object-to-Text
CDM(Continual Diffusion Module)内部
◼U-Net [Ronneberger+, MICCAI2015]のブロック設計を踏襲
• Time embeddingの融合
• Residual connection
• Condition
Swish: 活性化関数
𝑓 𝑥 = 𝑥 ∗ 𝜎 𝑥
𝜎 𝑥 =
1
1 + 𝑒−𝑥
Object-to-Image Diffusion
◼ノイズから画像埋め込みを生成
• 最初のRPNで得た𝑥𝑜𝑏𝑗を条件に
𝑋𝑇: ステップ毎に更新,初期値はVLSの出力
𝑥𝑖𝑚𝑔の取得(逆拡散過程)
𝑥𝑜𝑏𝑗をCLIP Image Encoderへ送り,
ターゲットの(生成したい)embeddingに
Object-to-Text Diffusion
◼ノイズからテキストを生成
• 条件としてobject-to-imageのdiffusionで得た特徴量を使う
𝑥𝑡𝑥𝑡の取得(逆拡散過程)
生成と識別で別の損失を利用
学習と推論
Ren+, NeurIPS2015
◼学習
• RPNのの損失関数を追加し以下の関数を最小化
• Faster-RCNN[Ren+, NeurIPS2015]
◼推論
• 領域𝒙𝒐𝒃𝒋を取得
• VLS, CDMを通してテキスト埋め込み生成
• 以下の計算でクラス予測
𝑥𝑡𝑥𝑡:生成したテキスト埋め込み
ො
𝑥𝑡𝑥𝑡:CLIP Text Encoderにクラスを入れて得たテキスト埋め込み
実験設定
◼データセット毎の設定
• COCO setting
• 学習:COCO-2017,補助データにCOCO caption dataset
• RPN:Faster-RCNN
• LVIS setting
• 学習:LVIS v1.0 補助データにImageNet-21K
• RPN:Mask-RCNN,CenterNet v2
• LVIS, Pascal VOC setting(Cross-dataset evaluationでのみ使用)
• COCO事前学習済みのモデルを評価
実験結果
◼COCO 𝑚𝐴𝑃𝑛は新規クラスのみ𝑚𝐴𝑃𝑏は学習したクラスのみ
実験結果
◼LVIS
Ablation study
モデル構造を変えて実験
逆拡散の回数を変えて実験 Random noiseとobject-centric noiseで比較
Ablation study
COCO事前学習済みのモデルで
Cross-dataset evaluation
テキスト生成のconditionを変えて実験
定性評価
Baseline: OCD [Bangalath+, NeurIPS2022]
まとめ
◼CLIFFを提案
• 領域提案モデルの出力からノイズを作成
• ノイズからDiffusion Modelにより画像特徴量,テキスト特徴量を生成
◼実験
• 従来手法と比較,豊富なablation studyでアーキテクチャの有効性を示す

More Related Content

PDF
【2016.02】cvpaper.challenge2016
PDF
拡散する画像生成.pdf
PDF
ECCV 2016 まとめ
PDF
ConditionalPointDiffusion.pdf
PDF
Up to GLOW
PDF
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
PDF
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
PPTX
Eccv2018 report day4
【2016.02】cvpaper.challenge2016
拡散する画像生成.pdf
ECCV 2016 まとめ
ConditionalPointDiffusion.pdf
Up to GLOW
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
Eccv2018 report day4

Similar to 論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection (20)

PDF
階層ディリクレ過程事前分布モデルによる画像領域分割
PDF
関西CVPRML勉強会 2011.9.23
PDF
Opencv object detection_takmin
PDF
LDA入門
PDF
大規模画像認識とその周辺
PDF
関西CVPRML 2011.8.27
PDF
最新事例紹介資料 異常検知(2018.08.24)
PPTX
Long-Tailed Classificationの最新動向について
PDF
NLP若手の回 ACL2012参加報告
PDF
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
PDF
Objectnessとその周辺技術
PDF
ECCV2020 オーラル論文完全読破 (2/2)
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PDF
【2016.10】cvpaper.challenge2016
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PPTX
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
PDF
畳み込みネットワークによる高次元信号復元と異分野融合への展開
PDF
【2015.07】(2/2)cvpaper.challenge@CVPR2015
PPTX
2021 09 29_dl_hirata
PDF
ICCV2011 report
階層ディリクレ過程事前分布モデルによる画像領域分割
関西CVPRML勉強会 2011.9.23
Opencv object detection_takmin
LDA入門
大規模画像認識とその周辺
関西CVPRML 2011.8.27
最新事例紹介資料 異常検知(2018.08.24)
Long-Tailed Classificationの最新動向について
NLP若手の回 ACL2012参加報告
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
Objectnessとその周辺技術
ECCV2020 オーラル論文完全読破 (2/2)
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
【2016.10】cvpaper.challenge2016
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
畳み込みネットワークによる高次元信号復元と異分野融合への展開
【2015.07】(2/2)cvpaper.challenge@CVPR2015
2021 09 29_dl_hirata
ICCV2011 report
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Ad

論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection