SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Replacing Labeled Real-Image Datasets With Auto-
Generated Contours
Shunsuke Chiba(the university of Tokyo B3)
書誌情報
著者:Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima,
Sora Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue,
Rio Yokota,Tsinghua University
2
タ イ ト ル : Replacing Labeled Real-Image Datasets With Auto-Generated
Contours
カンファレンス:CVPR 2022
※本資料で使用されている図や画像は特に言及がない限り、本論文または公式サイトからの引用です。
概要:数式から生成された画像を用いた、VisionTransformer(ViT)の事前学習
→実画像を用いて事前学習させた時と同等かそれ以上の精度を達成した
背景知識
Vision Transformer
2020年にGoogleが発表した画像認識モデル。BERTやGPT-3に用いられるTransformerを画像
タスクに応用したもの。大規模なデータセットによる事前学習を行った後と個別データセッ
トによるfinetuningによってダウンストリームタスクを解く
3
出典: https://arxiv.org/abs/2010.11929
背景知識
フラクタル図形
フラクタルとは、一部が全体と自己相似な構造を持っている図形を指し、自然界にも多く存
在する。フラクタル幾何という分野の知識を使うと、数式からフラクタル図形を生成するこ
とも可能。
4
出典: https://arxiv.org/abs/2010.11929
https://www2.hamajima.co.jp/~mathenet/wi
ki/index.php?%A5%D5%A5%E9%A5%AF%A
5%BF%A5%EB%A3%B3%B3%D8%B4%FC%
A1%CA%A5%AF%A5%E9%A5%A4%A5%DE
%A5%C3%A5%AF%A5%B9%A1%CB
背景
従来の画像認識モデルの課題
・膨大な画像収集を要する(ViTの原論文では3
億枚以上の教師データを使って学習)
・人手で教師ラベルを生成するため膨大な作業
コストが生じる
・実画像の利用によるプライバシーの侵害の可
能性
・不適切なラベルの付与による差別的な出力の
可能性
5
先行研究
formula-driven supervised learning(FDSL)
Pre-training without Natural Images(2020)では、数式から生成されたフラクタル図形のデー
タセットFractalDBを使ってCNNを学習させたところ、実画像に近い精度が観測された
6
出典: https://openaccess.thecvf.com/content/ACCV2020/papers/Kataoka_Pre-
training_without_Natural_Images_ACCV_2020_paper.pdf
仮説1
FDSLにおける輪郭の重要性
予備調査にてFractalDBをViTで学習させたところ、図形の輪郭にattentionがフォーカスされ
ていることを発見した
提案手法
FractalDBの派生として、オブジェクトの輪郭
を描画することに特化した生成手法、RCDBを
提案
RCDBではNとnの二つのパラメータの組を1つ
のクラスと見做し、一定のノイズを加えて1ク
ラスあたり1000枚の画像を生成している
→人のアノテーション無しに、ラベル(クラ
ス)つき画像データを生成できる
Radial Contour Database (RCDB)
提案手法
a)n角形を上下にランダム圧縮拡大する。
b)ランダムに平行移動
c)bをN回繰り返す。
RCDBの生成手順
仮説2
FDSLのデータセットをより複雑化する
「FractalDBを立体からの写像にする」「RCDBのパラメータ数を増やす」によって、それぞ
れ事前学習の難易度を上げ、ダウンストームタスクのパフォーマンス向上を目指す
画像データセット
実験結果
・ImageNet、ExFractalDB、RCDBを用いて同じ条件(クラス数、データ数)でViTの事前学習
を行い、ImageNet1kのfinetuningで精度を比較した。 結果としてはExFractalDB・RCDBの方が
実画像のImageNetで学習させるよりも高精度であった
・他のFDSLデータセットと比べて、ベジェ曲線、RCDB、FractalDB などの輪郭線を主体とし
たデータセットが最も高い精度を示した
実験結果
・FractalDBについては、より複雑なEx FractalDBの方が高精度であった
・ RCDB、FractalDB共にクラス数を増やすことで精度が向上した
・頂点数が多い画像のみでは精度が極端に低く、事前学習が失敗していた
実験結果
ViTとFDSLの相性
ResNet ・ gMLP ・ ViT で そ れ ぞ れ
FDSLを行ったところ、ViTが最も高
精度であった。
→ ViTがFDSLと相性が良いと考えら
れる
まとめ
• 数式から生成された画像を用いて学習する
手法FDSLを用いて、ViTを事前学習したと
ころ、実画像と同等かそれ以上の精度が観
測された
• FDSLデータセットでは、オブジェクトの輪
郭が重要である
• FDSLパラメータの数を変化させることで事
前学習の難易度を制御したところ、事前学
習の難易度が高いほどファインチューニン
グの精度が高くなった
15
個人的な感想・疑問
• 大量の実画像を集められる団体が、一部の企業に偏ってきている現状を踏まえると、本手
法のように誰でも利用できる手法はとても有意義であると感じた
• RCDBのデータ数をどこまで増やすことができるのかが、今後この手法が発展するかに影
響してきそう。パラメータを増やして複雑にしていくと事前学習に失敗する例もあったの
で、どこかで頭打ちがきてもおかしくない
• 結局なぜこの方法で、ドメインが明らかに違うImage Net等に対しても汎化が進むのかが
分からなかった
16

More Related Content

PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
最適輸送の解き方
PDF
Transformer メタサーベイ
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
最適輸送の解き方
Transformer メタサーベイ
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【論文紹介】How Powerful are Graph Neural Networks?
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2

What's hot (20)

PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
PRML学習者から入る深層生成モデル入門
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
“機械学習の説明”の信頼性
PDF
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PPTX
【DL輪読会】"A Generalist Agent"
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PPTX
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
PDF
CVPR2019読み会@関東CV
PDF
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
[DL輪読会]When Does Label Smoothing Help?
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
PPTX
Curriculum Learning (関東CV勉強会)
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PRML学習者から入る深層生成モデル入門
[DL輪読会]Dense Captioning分野のまとめ
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
“機械学習の説明”の信頼性
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
【DL輪読会】"A Generalist Agent"
強化学習と逆強化学習を組み合わせた模倣学習
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
【メタサーベイ】数式ドリブン教師あり学習
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
CVPR2019読み会@関東CV
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
[DL輪読会]When Does Label Smoothing Help?
【メタサーベイ】基盤モデル / Foundation Models
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
Curriculum Learning (関東CV勉強会)
Ad

Similar to 【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours (20)

PDF
NeurIPS2021論文読み会 (parameter prediction for unseen deep architecture)
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
先端技術とメディア表現 第4回レポートまとめ
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PDF
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
PDF
実社会・実環境におけるロボットの機械学習 ver. 2
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
画像認識における幾何学的不変性の扱い
PPTX
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
PDF
211104 Bioc Asia workshop
PDF
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
PPTX
CNTK deep dive
PPTX
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PDF
Semantic segmentation2
PDF
LiDAR点群と画像とのマッピング
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
NeurIPS2021論文読み会 (parameter prediction for unseen deep architecture)
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
先端技術とメディア表現 第4回レポートまとめ
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
実社会・実環境におけるロボットの機械学習 ver. 2
【CVPR 2020 メタサーベイ】Neural Generative Models
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
画像認識における幾何学的不変性の扱い
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
211104 Bioc Asia workshop
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
CNTK deep dive
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Semantic segmentation2
LiDAR点群と画像とのマッピング
How Much Position Information Do Convolutional Neural Networks Encode?
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours