論文紹介：CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection

CLIFF: Continual Latent Diffusion
for Open-Vocabulary Object
Detection
Wuyang Li, Xinyu Liu, Jiayi Ma, Yixuan Yuan. ECCV2024
細谷優（名工大）
2024/11/05

Open-Vocabulary
◼Open-Vocabulary
• データセットで限定された語彙（クローズド）を超えた汎化を目指す
◼Zero-shotとOpen-Vocabulary
• Zero-shot
• Base class（seen）とNovel class（unseen）がある
• 未知クラスが固定，用意されている
• Open-Vocabulary
• 未知クラスはプロンプトで入力
[We+, arXiv2023]

拡散モデル（Diffusion Model）
◼DDPM（Denoising Diffusion Probabilistic Model）
• 学習では元画像に少しずつノイズを加える（拡散過程）
• 学習パラメータを使って各時刻でノイズを加える過程を学習
• 逆拡散過程によってノイズから画像を生成
𝑅𝑒𝑣𝐷𝑖𝑓(∙)の定義（逆拡散過程，生成過程）
全体でノイズ除去を行っている
𝑥𝑡: 𝑡 = 𝑇がノイズ，𝑡 = 𝑇 − 𝐿 + 1が求めたい生成画像
𝑐: 拡散条件（生成したいテキストのembeddingやクラスなど）
𝜖𝜃(∙)：学習済みのパラメータ（拡散過程で得られる部分）

論文概要
◼CLIFF（Continual Latent Diffusion）を提案
• Open-Vocabulary Object Detectionモデル
• 以下のモジュールから構成される
• VLS（Variational Latent Sampler）
• 確率的モデリングを可能にする
• CDM（Continual Diffusion Module）
• 分布伝達を行う
CLIP[Radford+, ICML2021]の埋め込みを使う従来手法
- 画像とテキストの分布のずれが有る
提案手法

手法の全体図
◼CLIFF（Continual Latent Diffusion）
• 以下に分けて見ていく
• VLS（Variational Latent Sampler）
• CDM（Continual Diffusion Module）

VLS（Variational Latent Sampler）
◼Diffusion modelに入力する潜在（Latent）特徴量を取得
RPN（Region Proposal Network）
- 物体の領域を予測
- Faster-RCNN [Ren+, NeurIPS2015]
など
Object embedding 𝑥𝑜𝑏𝑗を取得ランダムノイズ空間 𝑝𝜙 𝑥𝑇
ではなく，VLSを使って
𝑝𝜙 𝑥𝑇 𝑥𝑜𝑏𝑗 が欲しい
Detection Dataset（object labels）
Auxiliary Dataset（image labels）

VLS（Variational Latent Sampler）
◼Diffusion modelに入力する潜在（Latent）特徴量を取得
• 欲しい分布： 𝒑𝝓 𝒙𝑻 𝒙𝒐𝒃𝒋
• VAEに倣って定式化
平均，標準偏差を求める
分布の最適化に使うKL（Kullback-Leibler）目的関数
- オブジェクトのクラスバイアスを排除し，DDPM制約が満たされる

CDM（Continual Diffusion Module）
◼2つの逆拡散過程によってembeddingを取得
• Object-to-Image
• Object-to-Text

CDM（Continual Diffusion Module）内部
◼U-Net [Ronneberger+, MICCAI2015]のブロック設計を踏襲
• Time embeddingの融合
• Residual connection
• Condition
Swish: 活性化関数
𝑓 𝑥 = 𝑥 ∗ 𝜎 𝑥
𝜎 𝑥 =
1
1 + 𝑒−𝑥

Object-to-Image Diffusion
◼ノイズから画像埋め込みを生成
• 最初のRPNで得た𝑥𝑜𝑏𝑗を条件に
𝑋𝑇: ステップ毎に更新，初期値はVLSの出力
𝑥𝑖𝑚𝑔の取得（逆拡散過程）
𝑥𝑜𝑏𝑗をCLIP Image Encoderへ送り，
ターゲットの（生成したい）embeddingに

Object-to-Text Diffusion
◼ノイズからテキストを生成
• 条件としてobject-to-imageのdiffusionで得た特徴量を使う
𝑥𝑡𝑥𝑡の取得（逆拡散過程）
生成と識別で別の損失を利用

学習と推論
Ren+, NeurIPS2015
◼学習
• RPNのの損失関数を追加し以下の関数を最小化
• Faster-RCNN[Ren+, NeurIPS2015]
◼推論
• 領域𝒙𝒐𝒃𝒋を取得
• VLS, CDMを通してテキスト埋め込み生成
• 以下の計算でクラス予測
𝑥𝑡𝑥𝑡：生成したテキスト埋め込み
ො
𝑥𝑡𝑥𝑡：CLIP Text Encoderにクラスを入れて得たテキスト埋め込み

実験設定
◼データセット毎の設定
• COCO setting
• 学習：COCO-2017，補助データにCOCO caption dataset
• RPN：Faster-RCNN
• LVIS setting
• 学習：LVIS v1.0 補助データにImageNet-21K
• RPN：Mask-RCNN，CenterNet v2
• LVIS, Pascal VOC setting（Cross-dataset evaluationでのみ使用）
• COCO事前学習済みのモデルを評価

実験結果
◼COCO 𝑚𝐴𝑃𝑛は新規クラスのみ𝑚𝐴𝑃𝑏は学習したクラスのみ

Ablation study
モデル構造を変えて実験
逆拡散の回数を変えて実験 Random noiseとobject-centric noiseで比較

Ablation study
COCO事前学習済みのモデルで
Cross-dataset evaluation
テキスト生成のconditionを変えて実験

定性評価
Baseline: OCD [Bangalath+, NeurIPS2022]

まとめ
◼CLIFFを提案
• 領域提案モデルの出力からノイズを作成
• ノイズからDiffusion Modelにより画像特徴量，テキスト特徴量を生成
◼実験
• 従来手法と比較，豊富なablation studyでアーキテクチャの有効性を示す

論文紹介：CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection

More Related Content

Similar to 論文紹介：CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection (20)

More from Toru Tamaki (20)

論文紹介：CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection