SlideShare a Scribd company logo
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
You Only Learn One Representation:
Unified Network for Multiple Tasks
西浦 翼
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
論文情報 2
著者
・Chien-Yao Wang (Institute of Information Science)
・I-Hau Yeh (Elan Microelectronics Corporation)
・Hong-Yuan Mark Liao (Elan Microelectronics Corporation)
発表
・arXiv 2021.05
概要
・形式知と暗黙知を併用したネットワークを提案
・単一モデルのアーキテクチャでマルチタスク学習に効果的
・物体検出タスクにおいて圧倒的な性能を発揮
リンク
・https://arxiv.org/abs/2105.04206
・https://github.com/WongKinYiu/yolor
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
YOLO 3
物体検出モデル YOLO (You Only Look Once)
・You Only Live Once「人生は一度きり」をもじったもの
・2016年 Joseph Redmon氏が提案
・2016年12月 YOLOv2, 2018年 YOLOv3を発表
・Joseph Redmon氏は軍事利用・プライバシーの問題から研究引退
・2020年 Alexey Bochkovskiy氏が YOLOv4を提案
本人コメント「I am AI developed by Joseph Redmon to
complete his AI without his participation」
・2021年2月 YOLOv4の second author の Chien-Yao Wang氏が
Scaled-YOLOv4 を発表 (CVPR2021)
・今回 Chien-Yao Wang氏が「You Only Learn One Representation」で
YOLORを提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
YOLORのすごさ 4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
人間とCNN 5
1つの画像データに対して
人間:複数の質問に答えられる
CNN:訓練した1タスクのみ
人間は明示的に学習する「形式知」と無意識に学習す
る「暗黙知」があり、この暗黙知がサポートしてる
(前提知識みたいな感じ)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
形式知と暗黙知の定義 6
一般的
形式知:浅い層から得られる特徴
暗黙知:深い層から得られる特徴
本論文
形式知:入力画像の見た目から直接得られる特徴
暗黙知:入力画像の見た目からは得られず、モデルの
中の潜在的な特徴
形式知と暗黙知を統合して、種々のタスクで使える
一般的な知識を学習した単一モデルを作りたい
explicit knowledge implicit knowledge
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
マルチタスク NN アーキテクチャ 7
目指してる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 8
暗黙知は入力画像とは無関係
定数テンソルと見なせる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 9
・良い特徴表現は適切に多次元空間に写像できるべき
・ベクトルを埋め込んだとき超次元平面で分割できると最高
・次元削減と種々のタスクへの応用ができる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 10
・マルチタスクとマルチヘッドのNNでカーネル空間への
写像が良くない
・出力した特徴と暗黙知をうまく統合してカーネル空間を
転写、回転、拡大、縮小してalignしたい
・FPNの large object と small object の統合とかでも使える
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 11
一般的な CNNの学習
x:入力画像
y:タスクの目標
θ:パラメーター
f θ :NN
・種々のタスクに同時に応
用するならRelax ε を使う
・今回は(c)を作りたい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 12
:形式知のエラー
のモデル化
:暗黙知のエラー
のモデル化
:2つのエラーを
結合
:2つの関数を
結合
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 13
次元ごとに独立 次元ごとに非独立 次元ごとに独立
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 14
・データセットはMSCOCO
・モデルはYOLOv4-CSP (Scaled-YOLOv4で提案)
・ハイパーパラメーターはScaled-YOLOv4と同じ
・暗黙知を3カ所に導入
1.feature alignment
2.prediction refinement
3.multi-task learning
・multi-taskは以下3つ
1.object detection
2.classification
3.feature embedding
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 15
FPNの特徴マップに feature alignment を適用し
たらAPが全アップした
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 16
YOLOの出力層に prediction refinement を
適用したらAPがだいたいアップした
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 17
一般にマルチタスクのモデルではタスク
ごとの損失関数同士で足を引っ張り合う
各タスクごとに暗黙知を導入して表現力
を上げる
単一タスク
複数タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 18
形式知と暗黙知を統合するときにどうするか
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 19
feature alignment:add と concat はいい感じ
prediction refinement:次元が変わるのでconcatはしてない、multiいい感じ
考察として推論のとき center shift が addition decoding で anchor scale が
multiplication decoding だかららしい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 20
暗黙知のモデル化をどうするか
ベクトル、NN、行列因子分解の中では
行列因子分解がいい感じ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 21
計算時間の増加は 0.01% 未満
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 22
事前学習や追加のデータがいらない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
まとめ 23
・形式知と暗黙知を統合することで種々のタスクで
使える単一モデルを提案
・しかも計算量は0.01%未満しか増えない
・暗黙知の学習に3つの手法を紹介
・暗黙知をモデル化する3つの手法を議論
・Scaled-YOLOv4に適用して推論速度が88%改善した

More Related Content

PPTX
画像認識と深層学習
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
Sift特徴量について
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
PDF
深層学習によるHuman Pose Estimationの基礎
PDF
時系列問題に対するCNNの有用性検証
画像認識と深層学習
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Sift特徴量について
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
深層学習によるHuman Pose Estimationの基礎
時系列問題に対するCNNの有用性検証

What's hot (20)

PDF
最適輸送の解き方
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
Chapter7 回帰分析の悩みどころ
PDF
Attentionの基礎からTransformerの入門まで
PPTX
論文に関する基礎知識2015
PDF
コンピュータビジョン分野メジャー国際会議 Award までの道のり
PDF
エンジニアも知っておきたいAI倫理のはなし
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
スペクトラルグラフ理論入門
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
機械学習のためのベイズ最適化入門
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
近年のHierarchical Vision Transformer
PPTX
マルチモーダル深層学習の研究動向
PDF
よくわかるフリストンの自由エネルギー原理
PDF
Generating Diverse High-Fidelity Images with VQ-VAE-2
PDF
非ガウス性を利用した 因果構造探索
PPTX
Triplet Loss 徹底解説
PDF
Rで学ぶ逆変換(逆関数)法
PDF
3次元レジストレーション(PCLデモとコード付き)
最適輸送の解き方
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Chapter7 回帰分析の悩みどころ
Attentionの基礎からTransformerの入門まで
論文に関する基礎知識2015
コンピュータビジョン分野メジャー国際会議 Award までの道のり
エンジニアも知っておきたいAI倫理のはなし
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
スペクトラルグラフ理論入門
最適輸送の計算アルゴリズムの研究動向
機械学習のためのベイズ最適化入門
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
近年のHierarchical Vision Transformer
マルチモーダル深層学習の研究動向
よくわかるフリストンの自由エネルギー原理
Generating Diverse High-Fidelity Images with VQ-VAE-2
非ガウス性を利用した 因果構造探索
Triplet Loss 徹底解説
Rで学ぶ逆変換(逆関数)法
3次元レジストレーション(PCLデモとコード付き)
Ad

Similar to You Only Learn One Representation: Unified Network for Multiple Tasks (20)

PDF
MLP-Mixer: An all-MLP Architecture for Vision
PPTX
RAPiD
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
PPTX
Semi-Supervised Neural Architecture Search
PPTX
A Generalist Agent
PDF
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
PDF
A Study on Generation of Deformed Route Maps using Octilinear Grid
PDF
ReAct: Synergizing Reasoning and Acting in Language Models
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
PPTX
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
PDF
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
PPTX
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PPTX
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
2021 haizoku
PDF
2021 haizoku
MLP-Mixer: An all-MLP Architecture for Vision
RAPiD
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Semi-Supervised Neural Architecture Search
A Generalist Agent
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
A Study on Generation of Deformed Route Maps using Octilinear Grid
ReAct: Synergizing Reasoning and Acting in Language Models
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
Generating Automatic Feedback on UI Mockups with Large Language Models
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
2021 haizoku
2021 haizoku
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
Voyager: An Open-Ended Embodied Agent with Large Language Models
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

You Only Learn One Representation: Unified Network for Multiple Tasks

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. You Only Learn One Representation: Unified Network for Multiple Tasks 西浦 翼 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 論文情報 2 著者 ・Chien-Yao Wang (Institute of Information Science) ・I-Hau Yeh (Elan Microelectronics Corporation) ・Hong-Yuan Mark Liao (Elan Microelectronics Corporation) 発表 ・arXiv 2021.05 概要 ・形式知と暗黙知を併用したネットワークを提案 ・単一モデルのアーキテクチャでマルチタスク学習に効果的 ・物体検出タスクにおいて圧倒的な性能を発揮 リンク ・https://arxiv.org/abs/2105.04206 ・https://github.com/WongKinYiu/yolor
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. YOLO 3 物体検出モデル YOLO (You Only Look Once) ・You Only Live Once「人生は一度きり」をもじったもの ・2016年 Joseph Redmon氏が提案 ・2016年12月 YOLOv2, 2018年 YOLOv3を発表 ・Joseph Redmon氏は軍事利用・プライバシーの問題から研究引退 ・2020年 Alexey Bochkovskiy氏が YOLOv4を提案 本人コメント「I am AI developed by Joseph Redmon to complete his AI without his participation」 ・2021年2月 YOLOv4の second author の Chien-Yao Wang氏が Scaled-YOLOv4 を発表 (CVPR2021) ・今回 Chien-Yao Wang氏が「You Only Learn One Representation」で YOLORを提案
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. YOLORのすごさ 4
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 人間とCNN 5 1つの画像データに対して 人間:複数の質問に答えられる CNN:訓練した1タスクのみ 人間は明示的に学習する「形式知」と無意識に学習す る「暗黙知」があり、この暗黙知がサポートしてる (前提知識みたいな感じ)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 形式知と暗黙知の定義 6 一般的 形式知:浅い層から得られる特徴 暗黙知:深い層から得られる特徴 本論文 形式知:入力画像の見た目から直接得られる特徴 暗黙知:入力画像の見た目からは得られず、モデルの 中の潜在的な特徴 形式知と暗黙知を統合して、種々のタスクで使える 一般的な知識を学習した単一モデルを作りたい explicit knowledge implicit knowledge
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. マルチタスク NN アーキテクチャ 7 目指してる
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の導入 8 暗黙知は入力画像とは無関係 定数テンソルと見なせる
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の導入 9 ・良い特徴表現は適切に多次元空間に写像できるべき ・ベクトルを埋め込んだとき超次元平面で分割できると最高 ・次元削減と種々のタスクへの応用ができる
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の導入 10 ・マルチタスクとマルチヘッドのNNでカーネル空間への 写像が良くない ・出力した特徴と暗黙知をうまく統合してカーネル空間を 転写、回転、拡大、縮小してalignしたい ・FPNの large object と small object の統合とかでも使える
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の定式化 11 一般的な CNNの学習 x:入力画像 y:タスクの目標 θ:パラメーター f θ :NN ・種々のタスクに同時に応 用するならRelax ε を使う ・今回は(c)を作りたい
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の定式化 12 :形式知のエラー のモデル化 :暗黙知のエラー のモデル化 :2つのエラーを 結合 :2つの関数を 結合
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 暗黙知の定式化 13 次元ごとに独立 次元ごとに非独立 次元ごとに独立
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 14 ・データセットはMSCOCO ・モデルはYOLOv4-CSP (Scaled-YOLOv4で提案) ・ハイパーパラメーターはScaled-YOLOv4と同じ ・暗黙知を3カ所に導入 1.feature alignment 2.prediction refinement 3.multi-task learning ・multi-taskは以下3つ 1.object detection 2.classification 3.feature embedding
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 15 FPNの特徴マップに feature alignment を適用し たらAPが全アップした
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 16 YOLOの出力層に prediction refinement を 適用したらAPがだいたいアップした
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 17 一般にマルチタスクのモデルではタスク ごとの損失関数同士で足を引っ張り合う 各タスクごとに暗黙知を導入して表現力 を上げる 単一タスク 複数タスク
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 18 形式知と暗黙知を統合するときにどうするか
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 19 feature alignment:add と concat はいい感じ prediction refinement:次元が変わるのでconcatはしてない、multiいい感じ 考察として推論のとき center shift が addition decoding で anchor scale が multiplication decoding だかららしい
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 20 暗黙知のモデル化をどうするか ベクトル、NN、行列因子分解の中では 行列因子分解がいい感じ
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 21 計算時間の増加は 0.01% 未満
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. 実験 22 事前学習や追加のデータがいらない
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved. まとめ 23 ・形式知と暗黙知を統合することで種々のタスクで 使える単一モデルを提案 ・しかも計算量は0.01%未満しか増えない ・暗黙知の学習に3つの手法を紹介 ・暗黙知をモデル化する3つの手法を議論 ・Scaled-YOLOv4に適用して推論速度が88%改善した