SlideShare a Scribd company logo
Segment Anything​
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura
Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr
Dollár, Ross Girshick, ICCV2023
SAM2: Segment Anything in Images and Videos
Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali,
Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric
Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross
Girshick, Piotr Dollár, Christoph Feichtenhofer, arXiv 2024
油谷陽樹(名工大 玉木・丁研)
2025/06/26
Segment Anything​
概要
◼Segment Anything
• あらゆる画像に対してプロンプトを用いてセグメンテーションが可能な基盤モ
デルを構築するプロジェクト
タスク設定
◼プロンプトの種類
• 画像内の何をセグメンテーションす
るかの情報
▪ex) 座標, Bbox, マスク, テキスト
◼プロンプトをもとに妥当なセグ
メンテーションマスクを出力
モデル構造
◼処理の流れ
1. 画像を画像エンコーダを用いて埋め込む
2. プロンプトエンコーダでプロンプトの種類ごとに別の手法で埋め込む
3. マスクデコーダを用いて最大3つのマスクと信頼度スコアを生成する
4. 最もスコアの高いマスクを出力する
モデル構造
◼画像エンコーダ
• MAE [He+, CVPR2022]で事前学
習されたViT [Dosovitskiy+,
ICLR2021]
◼マスクデコーダ
• 画像埋め込みとプロンプト埋め
込みをTransformerベースで統合
◼プロンプトエンコーダ
• 点, Bbox
• 位置埋め込み
• マスク
• 畳み込みネットワークで埋め込み
• テキスト
• CLIP [Radford+, ICML2021]を用
いて埋め込む
モデル構造
◼2層構成のTransformerベースデコーダ
• 入力:画像埋め込みとプロンプトトークン
• 双方向のcross-attentionを使って画像とプロンプトを相互に強調
データセット
◼Segment Anything 1B (SA-1B)
• 1100万枚の高解像度画像
• 11億以上のマスク
◼既存データセットと比較した利点
• 1画像あたりのマスク数が圧倒的に多い
• 小さな物体にもマスクがついている
• 形状の多様性は既存データセットと遜色
ない
実験
◼ ゼロショット単一点マスク評価
• 1つの点をプロンプトとして与える
• 1つのセグメンテーションマスクを出力
する
◼ データセット
• 23種類の多様なセグメンテーションベ
ンチマーク
◼ 評価方法
1. RITM [Sofiiuk+, ICDM2022]とのmIoU
比較
2. 人間による主観評価(1~10)
実験
◼RITMとの比較
• 23データセット中16データセットで性能が向上
• 上位3マスクを使えば全てのデータセットで性能が向上
実験
◼人間による主観評価
◼プロンプトの数を増やした場合
• SimpleClick [Wang+, arXiv2022]
• FocalClick [Chen+, CVPR2023]
◼プロンプトをランダムにした場合
実験
◼テキストに対するマスク評価
• テキストでセグメンテーション対象を指示
• 「a wheel」「beaver tooth grille」など
◼SAMの訓練時
• プロンプトにはCLIPの画像エンコーダで得たベクトルを使用
◼テスト時
• CLIPのテキストエンコーダで得たベクトルをそのまま SAM に入力
実験
◼定性的評価
• “a wheel”, “beaver tooth grille”
に関しては成功
• 構造が複雑な“whiper”では失敗
• 失敗した場合もプロンプトを
追加することで改善可能
まとめ
◼ プロンプト可能なセグメンテーションモデル SAM の提案
• 点, ボックス, マスク, テキストに対応する柔軟な入力プロンプト
• ゼロショットで多様な画像・タスクに高精度なセグメンテーションを実現
◼大規模データセット SA-1B の構築
• 11億マスクを含む世界最大級のセグメンテーションデータセット
• ほぼ全てを自動生成しつつ, 人手レベルのマスク品質を維持
SAM2: Segment Anything in
Images and Videos
概要
◼Segment Anything Model 2 (SAM2)
• SAMを動画にも適用できるように一般化したもの
タスク設定
◼Promptable Visual Segmentation (PVS)
• 画像セグメンテーションを動画に拡張したタ
スク
• 任意のフレームでのプロンプトからセグ
メントを定義し, 動画全体にそのマスクを
伝播・修正
• 必要に応じて追加フレームで補正プロン
プトを与え, インタラクティブに修正可能
モデル構造
◼ 処理の流れ
1. 各フレームを画像エンコーダで埋め込み, 特徴マップを得る
2. プロンプトをエンコーダで埋め込む
3. メモリアテンションで現在フレームの特徴に過去フレームの記憶を条件付ける
4. マスクデコーダで最大3つのマスクとスコア(IoU・オクルージョン)を生成する
5. 最もスコアの高いマスクを選択し、結果として出力する
6. 出力結果をメモリエンコーダに通して次フレームのための記憶として保存する
モデル構造
◼画像エンコーダ
• MAEで事前学習されたHiera
[Ryali+, ICML2023]
◼プロンプトエンコーダ
• SAMと同様
◼メモリアテンション
• Transformerベースのアテンション機構
• Self-Attebtion:現在フレームの自己注意
• Cross-Attention: メモリバンクの情報を
追加
モデル構造
◼マスクデコーダ
• 基本はSAMと同様の双方向
Transformer
• オクルージョンヘッドを導入して現在
フレームに対象が存在するかを判断
◼メモリエンコーダ
• Hieraエンコーダが生成したイメージ埋め込みを再利用
• 予測されたマスク情報と融合させたメモリ特徴を生成
データセット
◼Segment Anything-Video (SA-V)
• 5万本以上の動画から構成
• 総フレーム数 約420万
• 平均13.8秒/動画
• 合計約642万個のマスクレット
• マスク数は 3550万枚以上
• 1000万以上は手動
◼既存データセットと比較した利点
• 1動画あたりのマスク数が圧倒的に多い
• 小さな物体や部品レベルのマスクも豊富
• 消失と再出現、遮蔽など複雑な動きに対応
実験
◼PVSタスク
• 任意の動画で,ユーザーからのクリッ
クなどの簡易なプロンプトを使って,
対象オブジェクトを動画全体にセグ
メントできるか
◼比較手法
• SAM + Xmem [Cheng & Schwing,
ECCV2022]
• マスク伝播
• SAM + Cutie [Cheng et al.,
CVPR2023]
• ポイントベースVOS
◼評価方法
• オフライン処理とオンライン処理両
方で評価
• J & Fメトリック
• マスクの重なり(J)とマスクの境界
(F)を評価
実験
◼3手法の比較
• どのプロンプト数でも他手法より高スコア
• 特に3フレーム程度のプロンプトで他手法の5~6フレーム分と同等精度
実験
◼半教師ありVOSタスク
• 最初のフレームのみプロンプトを与
え, あとは自動でセグメント
◼比較手法
• SAM + Xmem
• SAM + Cutie
◼評価方法
• J & Fメトリック
• マスクの重なり(J)とマスクの境界
(F)を評価
• JとFの平均
◼17動画のベンチマークで比較
• DAVIS, MOSE, YouTube-VOS など
実験
◼3手法の比較
◼全データセットでの結果の平均
• どのプロンプトでもSAM2が最高精度
実験
◼半教師ありVOSタスク
◼比較手法
• SAM + XMem(マスク伝播)
• SAM + Cutie(ポイントベース
VOS)
• Cutie-base / Cutie-base+
• ISVOS [Wang et al., CVPR2022],
DEVA [Cheng et al., ICCV2023],
JointFormer [Zhang et al.,
arXiv2023] などの既存SOTAモデル
◼評価方法
• J & Fメトリック
• Geometry-awareメトリック
• YouTube-VOSの正式評価指標
◼データセット
• MOSE, DAVIS 2017, LVOS, SA-V,
YTVOS 2019
実験
◼SOTAとの比較
• SAM2(Hiera-L)は全てのデータセットでSOTA精度
まとめ
◼時間軸に対応したセグメンテーションモデル SAM 2 の提案
• 点, ボックス, マスクなどのプロンプトをもとに, 画像・動画の両方で高精度な
セグメンテーションを実現
• 過去のフレームを記憶するストリーミングアーキテクチャにより, 一貫性のある
マスク伝播をゼロショットで達成
◼動画向け大規模データセット SA-V の構築
• 5万本以上の動画からなる, 3550万個のマスクの動画セグメンテーションデータ
セット
• 自動マスク生成を活用しつつ, 19万枚の人手アノテーションで品質保証
• 小物体, 部分的可視, 再出現などの難しい事例にも対応

More Related Content

PDF
論文紹介:Video Panoptic Segmentation
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PDF
Mnm 20181129
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PDF
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
PDF
【CVPR 2019】StoryGAN: A Sequential Conditional GAN for Story Visualization
PDF
㉒初期プロジェクトを改造!
論文紹介:Video Panoptic Segmentation
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Mnm 20181129
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
動画認識における代表的なモデル・データセット(メタサーベイ)
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
【CVPR 2019】StoryGAN: A Sequential Conditional GAN for Story Visualization
㉒初期プロジェクトを改造!

Similar to 論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos (9)

PPTX
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
PPTX
【DL輪読会】Generating Long Videos of Dynamic Scenes
PDF
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
PPTX
SSII2014 チュートリアル資料
PDF
動画認識サーベイv1(メタサーベイ )
PDF
論文紹介:Semantic segmentation using Vision Transformers: A survey
PDF
Cocos2dを使ったi phoneゲーム開発手法
PDF
【Gensparkで作成】画像生成AIの基盤モデルから実際のツールまで歴史を紐解いてみた
PPTX
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
【DL輪読会】Generating Long Videos of Dynamic Scenes
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
SSII2014 チュートリアル資料
動画認識サーベイv1(メタサーベイ )
論文紹介:Semantic segmentation using Vision Transformers: A survey
Cocos2dを使ったi phoneゲーム開発手法
【Gensparkで作成】画像生成AIの基盤モデルから実際のツールまで歴史を紐解いてみた
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
PDF
論文紹介:Multi-class Video Co-segmentation with a Generative Multi-video Model
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:Multi-class Video Co-segmentation with a Generative Multi-video Model
Ad

論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos