SlideShare a Scribd company logo
Annotating Object Instances
with a Polygon-RNN
@conta_
Takanori Ogata (@conta_)
Co-Founder & Chief Research Officer@ABEJA, Inc.
Computer VisionやMachine Learning
の研究開発をやっています(なんでもやってます)
Self Introduction
2
Semantic Segmentation
3
Pohlen et al., CVPR 2017
Long et al., CVPR 2015
みんな大好きSemantic Segmentation
Semantic Segmentation
4
大量にアノテーションされたデータの登場
クラウドソーシング大変…
データ作成には、時間もお金も必要
Problem
5
Cityscapesデータセットにおいて
ground-truthと比較して、
78.4%のIoUの正確さを保ったまま、
4.7倍のアノテーション効率化を達成
Semantic Segmentationのアノテーション効率化に関する論文
(Oral Presentation - Honorable Mention Best Paper Award)
アノテーションの効率を上げるために、ボックス内の物体頂点予測+RNN
によるインタラクティブに修正できるアルゴリズムの提案
Annotating Object Instances with a Polygon-RNN
6
http://www.cs.toronto.edu/polyrnn/
Weakly-supervised / Scribbles / GrabCut
Supervisedには精度面で勝ててない
精度面であんまり使えないので、作成したデータは正式なSegmentation
Dataとして配布されない?
Previous Works
7
Lin et al., CVPR 2016
Chen et al., CVPR 2014
Goal
PolygonでObjectにAnnotationできる、
効率的なSemantic Segmentation Tool
の作成
提案手法
ユーザーがObjectにBounding Boxを与
えると、Polygonが自動的に生成され、
ユーザーがVertexを調整することができる
Polygon-RNN
8
Polygon-RNN
RNNによって、2つ前の頂点情報を使って、次の1点を予測する
CNN + RNNでend-to-endに学習
Overview
9
Model Architecture
10
Model Architecture
11
VGG + concat
ConvLSTM
input: x_t + y_{t-1} + y_{t-2}
D x D + 1
One-hot Encoding
(D x D: 2D position,
+1: end-of-sequence)
Model Architecture
12
VGG + concat
ConvLSTM
input: x_t + y_{t-1} + y_{t-2}
D x D + 1
One-hot Encoding
(D x D: 2D position,
+1: end-of-sequence)
始点をどう予測するのか?
前述アーキテクチャと同じもので、始点を予測
2つのbranchを使う (Object Boundaries / Vertices of Polygon)
Predicting starting point
13
D x D
Object Boundaries
D x D
Vertices of Polygon
RNN:
cross-entropy at each time step of the RNN
First vertex prediction:
Train another CNN using a multi-task loss
logistic loss for every location in the grid
Training
14
D x D D x D
Cityscapes Dataset
2975 training, 500 validation and 1525 test images
Test imagesにGround Truthがないので、validation dataをtest dataとして使う
Cityscapesはオクルージョンがあるデータも含んでいるので、それらは学習から除く
Polygonデータはセグメンテーションデータから作成
Evaluation Metrics
Quality:
intersection over union (IoU)により計測
アノテーション:
予測したvertexをどの程度修正してGT vertexに近づいたか(Click数)により計測
Experiments (Cityscapes Dataset)
15
Prediction Mode
人がAnnotatonすることなしに、どの程度正確に予測できたかを計測
Baseline
DeepMask/SharpMask
Semantic Segmentationタスクとの比較指標
COCOで学習されているため、Cityscapesを使ってFinetune
SquareBox/Dilation10
Objectに対してBounding Boxがある場合の指標
Prediction Mode
16
6 / 8 カテゴリーで優勢
Prediction Mode (Results)
17
Object Sizeが小さいときは提案手法優勢
逆は弱い (28 x 28で予測してるから??)
Prediction Mode (Effect of object size))
18
=> 精度と大体のトレードオフを確認
Annotator in the loop
19
提案手法のいいところは人がアノテーションを修正できるところ
正解に近づくまで、どの程度人が修正するか(Click数)を計測
GT Vertexまでの距離をthreshに近づくまで計測(chessboard metric)
High-quality(よく訓練された云々)なannotatorを雇って効果検証
車のみにタスクを絞って、10個のランダムにセレクトされたデータから
下記の2つに対してアノテーションしてもらう(フルスクラッチで)
1) 全体の画像
2) 画像をクロップして、物体中心点を与える
Annotator in the loop
20
IoUは高く、クリック数も減らせている
Results
21
Results
22
アノテーターなしでも精度はよく、途中から修正可能なフレームワーク
により高精度にアノテーションできる
Semantic Segmentationのアノテーション効率化に関する論文
アノテーションの効率を上げるために、ボックス内の物体頂点予測
+RNNによる頂点データの時系列予測
Summary
23
We are hiring!
https://www.wantedly.com/companies/abeja

More Related Content

PDF
Training object class detectors with click supervision
PDF
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
PDF
Unsupervised learning of object landmarks by factorized spatial embeddings
PDF
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
PPTX
Invariant Information Clustering for Unsupervised Image Classification and Se...
PDF
Googleにおける機械学習の活用とクラウドサービス
PDF
いまさら聞けない機械学習の評価指標
PPTX
Rationalizing Medical Relation Prediction from Corpus-level Statistics
Training object class detectors with click supervision
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
Unsupervised learning of object landmarks by factorized spatial embeddings
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
Invariant Information Clustering for Unsupervised Image Classification and Se...
Googleにおける機械学習の活用とクラウドサービス
いまさら聞けない機械学習の評価指標
Rationalizing Medical Relation Prediction from Corpus-level Statistics

What's hot (20)

PDF
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
PDF
2018/8/6トレLABO3_AIの学び方・使い方
PDF
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
PDF
Hindsight experience replay
PDF
Retty recommendation project
PDF
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
PDF
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
PDF
A PID Controller Approach for Stochastic Optimization of Deep Networks
PPTX
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
PDF
EMNLP2018 Overview
PDF
[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction ...
PDF
ICLR2018出張報告
PPTX
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
Deeplearning lt.pdf
PDF
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
PPTX
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
PPTX
SakataMoriLab GNN勉強会第一回資料
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
2018/8/6トレLABO3_AIの学び方・使い方
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
Hindsight experience replay
Retty recommendation project
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
A PID Controller Approach for Stochastic Optimization of Deep Networks
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
EMNLP2018 Overview
[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction ...
ICLR2018出張報告
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deeplearning lt.pdf
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning
SakataMoriLab GNN勉強会第一回資料
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
Ad

Similar to Annotating object instances with a polygon rnn (20)

PDF
semantic segmentation サーベイ
PDF
Dataset for Semantic Urban Scene Understanding
PPTX
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
PDF
Semantic segmentation2
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
PDF
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
PDF
R-CNNの原理とここ数年の流れ
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PPTX
[DL輪読会]Pyramid Stereo Matching Network
PDF
[DL Hacks]OCNet: Object Context Networkfor Scene Parsing
PPTX
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
PDF
KDD2018 paper reading
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
20190131 lidar-camera fusion semantic segmentation survey
PDF
物体検知(Meta Study Group 発表資料)
PDF
【2016.01】(2/3)cvpaper.challenge2016
PPTX
KantoCV/Selective Search for Object Recognition
PDF
三次元表現まとめ(深層学習を中心に)
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
semantic segmentation サーベイ
Dataset for Semantic Urban Scene Understanding
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Semantic segmentation2
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
R-CNNの原理とここ数年の流れ
SSD: Single Shot MultiBox Detector (ECCV2016)
[DL輪読会]Pyramid Stereo Matching Network
[DL Hacks]OCNet: Object Context Networkfor Scene Parsing
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
KDD2018 paper reading
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
20190131 lidar-camera fusion semantic segmentation survey
物体検知(Meta Study Group 発表資料)
【2016.01】(2/3)cvpaper.challenge2016
KantoCV/Selective Search for Object Recognition
三次元表現まとめ(深層学習を中心に)
[DL輪読会]Graph R-CNN for Scene Graph Generation
Ad

More from Takanori Ogata (11)

PDF
20210108 Tread: Circuits
PDF
20200704 Deep Snake for Real-Time Instance Segmentation
PDF
CVPR2019読み会@関東CV
PDF
190412 Annotation Survey@関東CV勉強会
PDF
190410 ML@LOFT
PDF
160924 Deep Learning Tuningathon
PDF
Convolutional Pose Machines
PDF
Deep Learningライブラリ 色々つかってみた感想まとめ
PDF
Cv20160205
PDF
10分でわかる主成分分析(PCA)
PPTX
20210108 Tread: Circuits
20200704 Deep Snake for Real-Time Instance Segmentation
CVPR2019読み会@関東CV
190412 Annotation Survey@関東CV勉強会
190410 ML@LOFT
160924 Deep Learning Tuningathon
Convolutional Pose Machines
Deep Learningライブラリ 色々つかってみた感想まとめ
Cv20160205
10分でわかる主成分分析(PCA)

Annotating object instances with a polygon rnn