SlideShare a Scribd company logo
Cut And Learn for Unsupervised Object
Detection and Instance Segmentation
2023
이미지 처리팀
김병현 안종식 이주영 이해원 이희재
CONTENTS
Introduction
01
Related Works
02
Methods
03
Experiments
04
Conclusion
05
Introduction
01
01. Introduction
1. Unsupervised Object Detection & Instance Segmentation
Supervised Learning
[ Train Data ] [ Annotations ]
[ Inference 결과 ]
Semi Supervised Learning
[ Train Data ] [ A Little Annotations ]
[ Inference 결과 ]
01. Introduction
1. Unsupervised Object Detection & Instance Segmentation
Unsupervised Learning
[ Train Data ] [ With Out Any Annotations ]
[ Inference 결과 ]
01. Introduction
1. Unsupervised Object Detection & Instance Segmentation
Self Supervised Learning
[ Train Data ] [ With Out Any Annotations ]
[ Inference 결과 ]
Deep Learning Network
Head
(Task Prediction)
Backbone
(Feature Extractor)
Train Without
Annotations
Train With
Annotations
01. Introduction
2. Class Agnostic Detection
Class Agnostic Detection
Class Aware Detection
과일
• w/ Supervision : 몇 개의 Class로 분류해야 하는지 알고 있음 (관심 객체가 무엇인지 알고 있음)
• w/o Supervision : 몇 개의 Class로 분류해야 하는지 알 수 없음 (관심 객체가 무엇인지 인지 불가)
객체 1
객체 2
객체 4 …
객체 3
[ Class Aware ] [ Class Agnostic ]
01. Introduction
3. CutLER (Cut-and-LEaRn)
Contribution of CutLER
1
2
3
4
Previous Works
01. Introduction
3. CutLER (Cut-and-LEaRn)
Detect Multiple Objects
1
DINO : 한 개의 Object만 검출 가능
• 이미지 내 한 개의 Object 만 검출 가능 (제한적인 데이터셋에서 적용가능)
• 여러 Object가 있어도 Semantic Mask만 검출 가능 (Instance 단위로 분리 X)
• Self Supervised Learning을 통한 Feature Extractor 학습 방법이므로 실제 Target Task를 수행하는 방법이 아님
01. Introduction
3. CutLER (Cut-and-LEaRn)
Zero-shot Detector
2
[ Pre Train Data ]
(Large Scale Dataset)
[ Pretrained Model ]
[ Target Dataset ]
(Train Set )
[ Fine Tuned Model ]
[ Target Dataset ]
(Test Set )
[ Evaluate Model ]
Accuracy
F1-Score
mAP
mAR
IOU
Evaluate Metric
01. Introduction
3. CutLER (Cut-and-LEaRn)
Compatible with various detection architectures
3
Pipeline
1
2
3
2 기존 Loss에 Indicator Function 추가
• 어떠한 Detector도 Loss Term 수정을 통해 CutLER 적용 가능
3
1
전 / 후처리로 생각할 수 있어 다양한 Detector에 적용 가능
2 다양한 구조 적용 예시 Ablation Section에서 확인 가능
01. Introduction
3. CutLER (Cut-and-LEaRn)
Pretrained Model for Supervised Detection
4
Pretrained Model을 생성하기 위한 과정으로 활용 가능
• TokenCut의 경우, 엄밀히 말해 Deep Learning 기반의 Model이 아닌 Graph Cut의 알고리즘 중 한 종류이므로
Pretrain Model로서 활용 불가
Related Works
02
02. Related Works
1. DINO (Emerging Properties in Self-Supervised Vision Transformers)
Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut
• 이미지처리팀 현청천, https://www.youtube.com/watch?v=JCEK5nD4MKM
[ ViT Model ] [ DINO (Self- Supervised Learning Method ]
02. Related Works
2. TokenCut (Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut)
Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut
• 이미지처리팀 현청천, https://www.youtube.com/watch?v=JCEK5nD4MKM
02. Related Works
3. FreeSOLO for unsupervised instance segmentation
Instance Segmentation Network인 SOLOv2에 Unsupervised Learning Method 적용
• SOLO 구조를 이용하여 Network Dependency가 존재 (다양한 Detector에 적용불가)
Q & A
Methods
03
03. Methods
1. MaskCut for Discovering Multiple Objects
1
2
3
3
1 MaskCut for Discovering Multiple Objects
Multi-Round Self-Training
2 DropLoss for Exploring Image Regions
03. Methods
1. MaskCut for Discovering Multiple Objects
1
Self-Supervised ViT Model
(Trained By. DINO)
x N
MaskCut
N x N Patch Input Images ViT Feature Vector
03. Methods
1. MaskCut for Discovering Multiple Objects
1
NormalizedCut & TokenCut
: Graph Node
: Graph Edge
• Graph Edge 𝑖 는 다른 Graph Edge 𝑗와 가중치 𝜔𝑖𝑗로 연결되어 있다.
> 이를 표현한 행렬 : Adjacency Matrix (or Affinity Matrix), 인접 행렬
𝑊 =
𝜔00 ⋯ 𝜔09
⋮ ⋱ ⋮
𝜔90 ⋯ 𝜔99
• 3 x 3의 Patch 존재하므로, 9 x 9의 Adjacency Matrix 생성
• 𝜔𝑖𝑗 =
𝐾𝑖𝐾𝑗
||𝐾𝑖||2||𝐾𝑗||2
( Cosine Similarity )
• 적절하게 두개의 Cluster A,B를 찾는 문제 (Normalized Cut)
𝐴𝑟𝑔𝑚𝑖𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑𝐶𝑢𝑡 𝐴 = 𝐴𝑟𝑔𝑚𝑖𝑛(𝐶𝑢𝑡(𝐴, 𝐵) ∙ (
1
𝑉𝑜𝑙 𝐴
+
1
𝑉𝑜𝑙 𝐵
))
𝐶𝑢𝑡 𝐴, 𝐵 = σ𝑖⊆𝐴,𝑗⊆𝐵 𝜔𝑖𝑗 : : Cluster A와 B사이 Node들의 가중치 합
Cluster A Cluster B
𝑉𝑜𝑙 𝐴 : Cluster A 내부 Node끼리의 가중치 합
> 각기 다른 Cluster들끼리의 가중치 합을 최소로 만든다 !
> 각기 Cluster 내부의 가중치로 Normalization하여 군집내 유사도를 최대화 한다 !
NP – HARD
(Nondeterministic polynomial)
• Weight Threshold 𝜏𝑛𝑐𝑢𝑡적용, 1 또는 1𝑒−5로 Thresholding
03. Methods
1. MaskCut for Discovering Multiple Objects
1
NormalizedCut & TokenCut
: Graph Node
: Graph Edge
• Generalized Eigenvalue System으로 근사하여 최적의 Cluster를 계산
> Laplacian Matrix를 이용 : Adjacency Matrix와 Degree Matrix를 이용하여 Laplacian Matrix 생성
𝐷 =
𝑑1 ⋯ 0
⋮ ⋱ ⋮
0 ⋯ 𝑑9
• 대각 성분을 제외한 나머지 값 = 0 : Diagonal Matrix
• Symmetric Matrix
• 𝑑𝑖 = σ𝑗=1
𝑛
𝜔𝑖𝑗
• 2nd Smallest Eigenvector 를 찾는 것이 𝐴𝑟𝑔𝑚𝑖𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑𝐶𝑢𝑡 𝐴 와 동일함1)
Cluster A Cluster B
𝐷 − 𝑊 𝑥 = 𝜆𝐷𝑥 ( 𝑥 ∶ 𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟, 𝜆 ∶ 𝐸𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒)
1) https://gjkoplik.github.io/spectral_clustering/#proofs_with_2_clusters
• 1st Smallest Eigenvector는 𝑥의 Components가 모두 1인 Vector, 𝜆 = 0 인 상황이므로 2nd Smallest Eigenvector를 계산
03. Methods
1. MaskCut for Discovering Multiple Objects
1
MaskCut
• 계산된 Cluster A, B의 Eigenvector에서, Absolute Value가 최대인 곳을 포함하는 Cluster를 Foreground로 채택
• Post Processing으로 DenseCRF (Conditional Random Field) 적용
• t 단계에서 획득된 Foreground Mask를 제외한 Background Mask를 통해 Adjacency Matrix를 Masking하고 반복
03. Methods
1. MaskCut for Discovering Multiple Objects
1
MaskCut
• Ablation을 통해 반복횟수 3이 제일 적절하다고 판단
• 실제 객체 갯수가 반복 횟수 3보다 적다면 ?
> Weight Threshold 𝜏𝑛𝑐𝑢𝑡에 의해 Mask 검출 X
03. Methods
2. DropLoss for Exploring Image Regions
2
MaskCut
• 실제 객체 갯수가 반복 횟수 3보다 많다면 ?
> 검출이 안되는 객체 발생 !
DropLoss
• 기존 Loss를 그대로 사용할 경우, MaskCut이 찾지 못한 객체들을 찾지 못하도록 Detector가 학습됨
• MaskCut은 Coarse Mask이기 때문에 이러한 Coarse Mask와 겹치는 부분만 Loss를 계산하여 Detector가 새로운 객체를 찾아낼 수 있도록 함
• 𝜏𝑛𝑐𝑢𝑡 = 0.01
03. Methods
3. Multi-Round Self-Training
3
Self-Training
• 첫 단계 MaskCut으로 생성한 Coarse Mask 사용하여 학습 후에는, 이전 단계 Detector에서 검출한 Mask로 학습 반복 진행
Q & A
Experiments
04
04. Experiments
1. Results
Unsupervised Zero-shot Evaluation
• Imagenet에서 학습한 Model을 각기 Dataset에 적용하였을 때 (w/o Finetuning) 기존 방법론 대비 성능 2배~4배 향상 확인
• 이 때, FreeSOLO는 Resnet101 Backbone인데 반해, CutLER은 Resnet50
• Non zero-shot Methods와 비교하여도 성능 향상 확인 가능
04. Experiments
1. Results
Label-Efficient and Fully-Supervised Learning
• Pretrain Model로서 성능 확인을 위해서 Fully Annotated Dataset을 Subset으로 나누어 학습 및 평가 진행
• MoCo-v2 : Self-Supervised를 통한 Pretrain Model 생성 방법
• Self-Supervised 방법론을 사용한 방법보다 성능 우수
04. Experiments
2. Ablation
각 Component 별 성능 향상
• Pretrain Model로서 성능 확인을 위해서 Fully Annotated Dataset을 Subset으로 나누어 학습 및 평가 진행
Coarse Mask 생성방식에 따른 결과
04. Experiments
2. Ablation
Hyper Parameters
Self-Train 횟수에 따른 성능
Conclusion
05
05. Conclusion
Unsupervised Learning 방법론 또한 General한 Dataset에서 활용되기 시작하였다.
• 한정적인 상황, 하나의 객체 위주 등 제약사항이 많았지만 일반적인 데이터셋에서도 사용할 수 있게 발전하기 시작
[Oxford 102 Flowers] [MNIST]
Class-Agnostic이라는 한계는 존재
• One Class Object Detection & Instance Segmentation
• 발전의 원인 : DINO와 같은 Transformer 기반의 Self-Supervised 기법이 촉매제가 되었을 것
Q & A
Thank you for your attention

More Related Content

PDF
오토인코더의 모든 것
PPTX
Fast Multi-frame Stereo Scene Flow with Motion Segmentation (CVPR 2017)
PPTX
Masked Autoencoders Are Scalable Vision Learners.pptx
PDF
PDF
Kaggleのテクニック
PDF
[5분 논문요약] Structured Knowledge Distillation for Semantic Segmentation
PDF
Introduction to XGBoost
PPTX
AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)
오토인코더의 모든 것
Fast Multi-frame Stereo Scene Flow with Motion Segmentation (CVPR 2017)
Masked Autoencoders Are Scalable Vision Learners.pptx
Kaggleのテクニック
[5분 논문요약] Structured Knowledge Distillation for Semantic Segmentation
Introduction to XGBoost
AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)

What's hot (20)

PDF
딥러닝 기반 자연어 언어모델 BERT
PPTX
Review SRGAN
PDF
Explicit Density Models
PDF
20180925 CV勉強会 SfM解説
PDF
Generative adversarial networks
PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
KEY
アンサンブル学習
PDF
Panoptic Segmentation
PPTX
Image segmentation
PDF
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide ...
PDF
Introduction to Generative Adversarial Networks (GANs)
PDF
Feature Engineering - Getting most out of data for predictive models
PPTX
Generative Adversarial Networks (GAN)
PPTX
Go-ICP: グローバル最適(Globally optimal) なICPの解説
PDF
Hyperoptとその周辺について
PPTX
Disentangled Representation Learning of Deep Generative Models
PPTX
StarGAN
PDF
Kaggle Avito Demand Prediction Challenge 9th Place Solution
PDF
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
PDF
Autoencoder
딥러닝 기반 자연어 언어모델 BERT
Review SRGAN
Explicit Density Models
20180925 CV勉強会 SfM解説
Generative adversarial networks
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
アンサンブル学習
Panoptic Segmentation
Image segmentation
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide ...
Introduction to Generative Adversarial Networks (GANs)
Feature Engineering - Getting most out of data for predictive models
Generative Adversarial Networks (GAN)
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Hyperoptとその周辺について
Disentangled Representation Learning of Deep Generative Models
StarGAN
Kaggle Avito Demand Prediction Challenge 9th Place Solution
論文紹介:Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
Autoencoder
Ad

Similar to [2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentation (20)

PDF
Summary in recent advances in deep learning for object detection
PDF
Summary in recent advances in deep learning for object detection
PDF
"From image level to pixel-level labeling with convolutional networks" Paper ...
PDF
Deep Object Detectors #1 (~2016.6)
PDF
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
PPTX
Image net classification with deep convolutional neural networks
PPTX
Dense sparse-dense training for dnn and Other Models
PPTX
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
PDF
FCN to DeepLab.v3+
PDF
Supervised Constrastive Learning
PPTX
Survey on Monocular Depth Estimation
PPTX
호서대학교 - 다양한 오픈소스 활용법 (Colab을 이용하여)
PDF
[UNET]Segmentation model, a representative UNet, and a slide for understanding
PDF
네트워크 경량화 이모저모 @ 2020 DLD
PDF
PDF
"simple does it weakly supervised instance and semantic segmentation" Paper r...
PDF
Learning Less is More - 6D Camera Localization via 3D Surface Regression
PPTX
Convolutional neural networks
PPTX
Segment Anything
PDF
History of Vision AI
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
"From image level to pixel-level labeling with convolutional networks" Paper ...
Deep Object Detectors #1 (~2016.6)
FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stoch...
Image net classification with deep convolutional neural networks
Dense sparse-dense training for dnn and Other Models
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
FCN to DeepLab.v3+
Supervised Constrastive Learning
Survey on Monocular Depth Estimation
호서대학교 - 다양한 오픈소스 활용법 (Colab을 이용하여)
[UNET]Segmentation model, a representative UNet, and a slide for understanding
네트워크 경량화 이모저모 @ 2020 DLD
"simple does it weakly supervised instance and semantic segmentation" Paper r...
Learning Less is More - 6D Camera Localization via 3D Surface Regression
Convolutional neural networks
Segment Anything
History of Vision AI
Ad

More from taeseon ryu (20)

PDF
VoxelNet
PDF
OpineSum Entailment-based self-training for abstractive opinion summarization...
PPTX
3D Gaussian Splatting
PDF
JetsonTX2 Python
PPTX
Hyperbolic Image Embedding.pptx
PDF
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
PDF
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
PDF
YOLO V6
PDF
Dataset Distillation by Matching Training Trajectories
PDF
RL_UpsideDown
PDF
Packed Levitated Marker for Entity and Relation Extraction
PPTX
MOReL: Model-Based Offline Reinforcement Learning
PDF
Scaling Instruction-Finetuned Language Models
PDF
Visual prompt tuning
PDF
PDF
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
PDF
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
PDF
The Forward-Forward Algorithm
PPTX
Towards Robust and Reproducible Active Learning using Neural Networks
PDF
BRIO: Bringing Order to Abstractive Summarization
VoxelNet
OpineSum Entailment-based self-training for abstractive opinion summarization...
3D Gaussian Splatting
JetsonTX2 Python
Hyperbolic Image Embedding.pptx
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
YOLO V6
Dataset Distillation by Matching Training Trajectories
RL_UpsideDown
Packed Levitated Marker for Entity and Relation Extraction
MOReL: Model-Based Offline Reinforcement Learning
Scaling Instruction-Finetuned Language Models
Visual prompt tuning
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
The Forward-Forward Algorithm
Towards Robust and Reproducible Active Learning using Neural Networks
BRIO: Bringing Order to Abstractive Summarization

[2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentation

  • 1. Cut And Learn for Unsupervised Object Detection and Instance Segmentation 2023 이미지 처리팀 김병현 안종식 이주영 이해원 이희재
  • 4. 01. Introduction 1. Unsupervised Object Detection & Instance Segmentation Supervised Learning [ Train Data ] [ Annotations ] [ Inference 결과 ] Semi Supervised Learning [ Train Data ] [ A Little Annotations ] [ Inference 결과 ]
  • 5. 01. Introduction 1. Unsupervised Object Detection & Instance Segmentation Unsupervised Learning [ Train Data ] [ With Out Any Annotations ] [ Inference 결과 ]
  • 6. 01. Introduction 1. Unsupervised Object Detection & Instance Segmentation Self Supervised Learning [ Train Data ] [ With Out Any Annotations ] [ Inference 결과 ] Deep Learning Network Head (Task Prediction) Backbone (Feature Extractor) Train Without Annotations Train With Annotations
  • 7. 01. Introduction 2. Class Agnostic Detection Class Agnostic Detection Class Aware Detection 과일 • w/ Supervision : 몇 개의 Class로 분류해야 하는지 알고 있음 (관심 객체가 무엇인지 알고 있음) • w/o Supervision : 몇 개의 Class로 분류해야 하는지 알 수 없음 (관심 객체가 무엇인지 인지 불가) 객체 1 객체 2 객체 4 … 객체 3 [ Class Aware ] [ Class Agnostic ]
  • 8. 01. Introduction 3. CutLER (Cut-and-LEaRn) Contribution of CutLER 1 2 3 4 Previous Works
  • 9. 01. Introduction 3. CutLER (Cut-and-LEaRn) Detect Multiple Objects 1 DINO : 한 개의 Object만 검출 가능 • 이미지 내 한 개의 Object 만 검출 가능 (제한적인 데이터셋에서 적용가능) • 여러 Object가 있어도 Semantic Mask만 검출 가능 (Instance 단위로 분리 X) • Self Supervised Learning을 통한 Feature Extractor 학습 방법이므로 실제 Target Task를 수행하는 방법이 아님
  • 10. 01. Introduction 3. CutLER (Cut-and-LEaRn) Zero-shot Detector 2 [ Pre Train Data ] (Large Scale Dataset) [ Pretrained Model ] [ Target Dataset ] (Train Set ) [ Fine Tuned Model ] [ Target Dataset ] (Test Set ) [ Evaluate Model ] Accuracy F1-Score mAP mAR IOU Evaluate Metric
  • 11. 01. Introduction 3. CutLER (Cut-and-LEaRn) Compatible with various detection architectures 3 Pipeline 1 2 3 2 기존 Loss에 Indicator Function 추가 • 어떠한 Detector도 Loss Term 수정을 통해 CutLER 적용 가능 3 1 전 / 후처리로 생각할 수 있어 다양한 Detector에 적용 가능 2 다양한 구조 적용 예시 Ablation Section에서 확인 가능
  • 12. 01. Introduction 3. CutLER (Cut-and-LEaRn) Pretrained Model for Supervised Detection 4 Pretrained Model을 생성하기 위한 과정으로 활용 가능 • TokenCut의 경우, 엄밀히 말해 Deep Learning 기반의 Model이 아닌 Graph Cut의 알고리즘 중 한 종류이므로 Pretrain Model로서 활용 불가
  • 14. 02. Related Works 1. DINO (Emerging Properties in Self-Supervised Vision Transformers) Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut • 이미지처리팀 현청천, https://www.youtube.com/watch?v=JCEK5nD4MKM [ ViT Model ] [ DINO (Self- Supervised Learning Method ]
  • 15. 02. Related Works 2. TokenCut (Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut) Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut • 이미지처리팀 현청천, https://www.youtube.com/watch?v=JCEK5nD4MKM
  • 16. 02. Related Works 3. FreeSOLO for unsupervised instance segmentation Instance Segmentation Network인 SOLOv2에 Unsupervised Learning Method 적용 • SOLO 구조를 이용하여 Network Dependency가 존재 (다양한 Detector에 적용불가)
  • 17. Q & A
  • 19. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 2 3 3 1 MaskCut for Discovering Multiple Objects Multi-Round Self-Training 2 DropLoss for Exploring Image Regions
  • 20. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 Self-Supervised ViT Model (Trained By. DINO) x N MaskCut N x N Patch Input Images ViT Feature Vector
  • 21. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 NormalizedCut & TokenCut : Graph Node : Graph Edge • Graph Edge 𝑖 는 다른 Graph Edge 𝑗와 가중치 𝜔𝑖𝑗로 연결되어 있다. > 이를 표현한 행렬 : Adjacency Matrix (or Affinity Matrix), 인접 행렬 𝑊 = 𝜔00 ⋯ 𝜔09 ⋮ ⋱ ⋮ 𝜔90 ⋯ 𝜔99 • 3 x 3의 Patch 존재하므로, 9 x 9의 Adjacency Matrix 생성 • 𝜔𝑖𝑗 = 𝐾𝑖𝐾𝑗 ||𝐾𝑖||2||𝐾𝑗||2 ( Cosine Similarity ) • 적절하게 두개의 Cluster A,B를 찾는 문제 (Normalized Cut) 𝐴𝑟𝑔𝑚𝑖𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑𝐶𝑢𝑡 𝐴 = 𝐴𝑟𝑔𝑚𝑖𝑛(𝐶𝑢𝑡(𝐴, 𝐵) ∙ ( 1 𝑉𝑜𝑙 𝐴 + 1 𝑉𝑜𝑙 𝐵 )) 𝐶𝑢𝑡 𝐴, 𝐵 = σ𝑖⊆𝐴,𝑗⊆𝐵 𝜔𝑖𝑗 : : Cluster A와 B사이 Node들의 가중치 합 Cluster A Cluster B 𝑉𝑜𝑙 𝐴 : Cluster A 내부 Node끼리의 가중치 합 > 각기 다른 Cluster들끼리의 가중치 합을 최소로 만든다 ! > 각기 Cluster 내부의 가중치로 Normalization하여 군집내 유사도를 최대화 한다 ! NP – HARD (Nondeterministic polynomial) • Weight Threshold 𝜏𝑛𝑐𝑢𝑡적용, 1 또는 1𝑒−5로 Thresholding
  • 22. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 NormalizedCut & TokenCut : Graph Node : Graph Edge • Generalized Eigenvalue System으로 근사하여 최적의 Cluster를 계산 > Laplacian Matrix를 이용 : Adjacency Matrix와 Degree Matrix를 이용하여 Laplacian Matrix 생성 𝐷 = 𝑑1 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 𝑑9 • 대각 성분을 제외한 나머지 값 = 0 : Diagonal Matrix • Symmetric Matrix • 𝑑𝑖 = σ𝑗=1 𝑛 𝜔𝑖𝑗 • 2nd Smallest Eigenvector 를 찾는 것이 𝐴𝑟𝑔𝑚𝑖𝑛 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑𝐶𝑢𝑡 𝐴 와 동일함1) Cluster A Cluster B 𝐷 − 𝑊 𝑥 = 𝜆𝐷𝑥 ( 𝑥 ∶ 𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟, 𝜆 ∶ 𝐸𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒) 1) https://gjkoplik.github.io/spectral_clustering/#proofs_with_2_clusters • 1st Smallest Eigenvector는 𝑥의 Components가 모두 1인 Vector, 𝜆 = 0 인 상황이므로 2nd Smallest Eigenvector를 계산
  • 23. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 MaskCut • 계산된 Cluster A, B의 Eigenvector에서, Absolute Value가 최대인 곳을 포함하는 Cluster를 Foreground로 채택 • Post Processing으로 DenseCRF (Conditional Random Field) 적용 • t 단계에서 획득된 Foreground Mask를 제외한 Background Mask를 통해 Adjacency Matrix를 Masking하고 반복
  • 24. 03. Methods 1. MaskCut for Discovering Multiple Objects 1 MaskCut • Ablation을 통해 반복횟수 3이 제일 적절하다고 판단 • 실제 객체 갯수가 반복 횟수 3보다 적다면 ? > Weight Threshold 𝜏𝑛𝑐𝑢𝑡에 의해 Mask 검출 X
  • 25. 03. Methods 2. DropLoss for Exploring Image Regions 2 MaskCut • 실제 객체 갯수가 반복 횟수 3보다 많다면 ? > 검출이 안되는 객체 발생 ! DropLoss • 기존 Loss를 그대로 사용할 경우, MaskCut이 찾지 못한 객체들을 찾지 못하도록 Detector가 학습됨 • MaskCut은 Coarse Mask이기 때문에 이러한 Coarse Mask와 겹치는 부분만 Loss를 계산하여 Detector가 새로운 객체를 찾아낼 수 있도록 함 • 𝜏𝑛𝑐𝑢𝑡 = 0.01
  • 26. 03. Methods 3. Multi-Round Self-Training 3 Self-Training • 첫 단계 MaskCut으로 생성한 Coarse Mask 사용하여 학습 후에는, 이전 단계 Detector에서 검출한 Mask로 학습 반복 진행
  • 27. Q & A
  • 29. 04. Experiments 1. Results Unsupervised Zero-shot Evaluation • Imagenet에서 학습한 Model을 각기 Dataset에 적용하였을 때 (w/o Finetuning) 기존 방법론 대비 성능 2배~4배 향상 확인 • 이 때, FreeSOLO는 Resnet101 Backbone인데 반해, CutLER은 Resnet50 • Non zero-shot Methods와 비교하여도 성능 향상 확인 가능
  • 30. 04. Experiments 1. Results Label-Efficient and Fully-Supervised Learning • Pretrain Model로서 성능 확인을 위해서 Fully Annotated Dataset을 Subset으로 나누어 학습 및 평가 진행 • MoCo-v2 : Self-Supervised를 통한 Pretrain Model 생성 방법 • Self-Supervised 방법론을 사용한 방법보다 성능 우수
  • 31. 04. Experiments 2. Ablation 각 Component 별 성능 향상 • Pretrain Model로서 성능 확인을 위해서 Fully Annotated Dataset을 Subset으로 나누어 학습 및 평가 진행 Coarse Mask 생성방식에 따른 결과
  • 32. 04. Experiments 2. Ablation Hyper Parameters Self-Train 횟수에 따른 성능
  • 34. 05. Conclusion Unsupervised Learning 방법론 또한 General한 Dataset에서 활용되기 시작하였다. • 한정적인 상황, 하나의 객체 위주 등 제약사항이 많았지만 일반적인 데이터셋에서도 사용할 수 있게 발전하기 시작 [Oxford 102 Flowers] [MNIST] Class-Agnostic이라는 한계는 존재 • One Class Object Detection & Instance Segmentation • 발전의 원인 : DINO와 같은 Transformer 기반의 Self-Supervised 기법이 촉매제가 되었을 것
  • 35. Q & A
  • 36. Thank you for your attention