SlideShare a Scribd company logo
Multi-Class Video Co-
Segmentation with a Generative
Multi-Video Model
Wei-Chan, Chiu Mario Fritz, CVPR2013
神谷広大(名工大)
2024/10/08
背景
◼Video Segmentation
• 動画中の時空間的な動きパターンの解析
• 課題
• 1つの動画だけでは予測に不十分
• 動画を横断した推論が必要
• オブジェクトクラスと一致する
Segmentationを予測
◼Video Co-Segmentation
• 複数の動画からSegmentationを予測
• 課題
• 前景 / 背景の2値Segmentaion
• 同じオブジェクトの複数の動画のみを考慮
Video Object Discovery and Segmentation
背景
◼Video Segmentation
• 動画中の時空間的な動きパターンの解析
• 課題
• 1つの動画だけでは予測に不十分
• 動画を横断した推論が必要
• オブジェクトクラスと一致する
Segmentationを予測
◼Video Co-Segmentation
• 複数の動画からセグメンテーションを予測
• 課題
• 全景 / 背景の2値セグメンテーション
• 同じオブジェクトの複数の動画のみを考慮
Video Object Discovery and Segmentation
オンラインリソースの
課題とはミスマッチ
オブジェクトクラスの数
ビデオ内のインスタンス数
が未知なため
現実では
関連研究
◼ 画像/オブジェクトのCo-Segmentation [Vicente+, CVPR2011]
• オブジェクトが両方写っている画像ペアに基づいたセグメンテーション
◼Video Co-Segmentation
• 関連研究[Rubio+, ACCV2012]では複数セグメント問題は排除
◼ベイズ型ノンパラメータ学習[Sivic+, ICCV2005]
• dependent Dirichlet Process (ddCRP) [Ghosh+, NIPS2011]
Chinese Restaurant Process (CRP)
◼クラス数が事前に決まっていないクラスタリング
https://stats.stackexchange.com/questions/552147/importance-of-the-chinese-restaurant-process-in-statistics
目的
◼ 複数クラスのVideo Co-Segmentation手法の提案
• セグメントをオブジェクトに対応
• 同じオブジェクトクラスのセグメントをリンク
• ビデオ内だけでなくビデオ間でもリンク
◼未知のクラスとオブジェクト数への対応
• ddCRPを用い動画のSegmentation事前分布を定義
ddCRPの基本的な考え方とその仕組み
◼ddCRPは時空間的特徴を考慮する(CRPはただの確率)
• 顧客(ピクセル)は他の顧客との距離に基づきテーブル(オブジェクト)を決定
→距離が近いピクセルほど同じテーブルに
◼計算式
• と が同じテーブルに座る確率は に依存
• 近い顧客ほど同じテーブルに座る確率が高い
i, j間の距離
確率
提案手法
◼マルチクラスVideo Co-Segmentationモデル
• 複数のビデオシーケンスから共通する物体を自動的に見つけ出す
• それらをセグメント化
• それぞれのビデオ内で適切にSegmentaionできる手法を提案
• ビデオ間でクラスが異なっていても可能
提案手法:動画の表現方法
◼ピクセルが「外観」「位置」「動き」の構造を持つ
• 動画内の異なるオブジェクトの特徴に基づいて識別可能に
動画
フレーム
(ピクセルの集合 )
ピクセル
外観特徴量
時空間的な位置
モーションベクトル
ddCRP事前処理による共同学習
◼ddCRPを用いたVideo Segmentation
• ピクセル(顧客)オブジェクトインスタンス(テーブル)
◼ピクセルの割り当て確率を定義
• :ウィンドウ関数 で確率を決定
• :指数減衰 で確率を決定
距離
減衰関数
階層的生成モデル
• ビデオ内の各ピクセルについて割り当て
• ddCRP:オブジェクトインスタンス
• CRP:オブジェクトクラス
• 例:2台の車がある場合
1. ddCRPによりそれぞれのオブジェクト
インスタンスに割り当て
2. CRPにより「車」クラスに割り当て
◼動画をリンクさせる確率的生成モデルを定式化
• 現在の課題
動画は複数のクラスから構成 各動画に任意数のインスタンスが存在
各インスタンスは異なる場所に存在 時間と共に移動する
◼グローバルクラスとローカルインスタンスの階層構造
実験設定
◼タスク
• Video Co-Segmentation
• 各オブジェクトクラスに対し、ビデオフレーム内のオブジェクトインスタン
スに一致するセグメントのセットを見つける
◼比較手法
• Video Co-Segmentation(提案手法)
• Video Segmentation
• Image Co-Segmentation
◼評価指標
• IoU
データセット
◼MOViCS(Multi-Object Video Co-Segmentation)データセット
• 制約の少ないシナリオを再現
• YouTubeからダウンロードした現実のビデオシーケンス
• シーン内に複数の物体が存在
• 4つの異なるビデオセットで構成
• 計11動画,514フレーム
各ビデオシーケンスに様々な条件
・照明条件
・モーションブラー
・複数オブジェクトの高速移動
・背景と類似した外観
実験結果
◼各ビデオセットでの性能比較
• MOViCSデータセットにおいて以下のIoUを比較
• Video Co-Segmentation (VCS)
• Image Co-Segmentation (ICS)
• Video Segmentation(VS)
• VCSは高い精度を示す
• 特に以下で顕著な改善
• chicken, turtle
• zebra, lion
実験結果
◼定性的比較
まとめ
◼複数クラスのVideo Co-Segmentation手法の提案
• 非パラメトリックアプローチ
• 複数のオブジェクトクラスに対応
• 複数ビデオ間でのセグメントのリンクを実現
◼未知のクラス数や複数オブジェクトに対応
• 実世界のビデオデータセット「MOViCS」を提案
◼今後の課題
• 照明やモーションブラーなど,さらなる現実的状況への対応
予備資料
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング
Chinese Restaurant Process (CRP)
◼クラスタ数が事前に決まっていないクラスタリング

More Related Content

PPTX
【DL輪読会】Generating Long Videos of Dynamic Scenes
PDF
touya m
PDF
論文紹介:Video Panoptic Segmentation
PDF
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
PPTX
CVPR2017 参加報告 速報版 本会議 1日目
PDF
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
PPTX
CVPR2018 参加報告(速報版)2日目
PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
【DL輪読会】Generating Long Videos of Dynamic Scenes
touya m
論文紹介:Video Panoptic Segmentation
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
CVPR2017 参加報告 速報版 本会議 1日目
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
CVPR2018 参加報告(速報版)2日目
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting

More from Toru Tamaki (20)

PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Ad

論文紹介:Multi-class Video Co-segmentation with a Generative Multi-video Model