More Related Content
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜 【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 [DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A... 深層学習によるHuman Pose Estimationの基礎 What's hot (20)
深層学習の不確実性 - Uncertainty in Deep Neural Networks - Attentionの基礎からTransformerの入門まで コンピュータビジョン分野メジャー国際会議 Award までの道のり 【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) 【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 近年のHierarchical Vision Transformer Generating Diverse High-Fidelity Images with VQ-VAE-2 3次元レジストレーション(PCLデモとコード付き) Similar to You Only Learn One Representation: Unified Network for Multiple Tasks (20)
MLP-Mixer: An all-MLP Architecture for Vision SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo... DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S... Feature Erasing and Diffusion Network for Occluded Person Re-Identification Semi-Supervised Neural Architecture Search Self-supervised Learning of Adversarial Example:Towards Good Generalizations... A Study on Generation of Deformed Route Maps using Octilinear Grid ReAct: Synergizing Reasoning and Acting in Language Models DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D... ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究 MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) Generating Automatic Feedback on UI Mockups with Large Language Models All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation More from harmonylab (20)
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究 【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究 【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究 【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究 【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究 【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning... A Study on the Method for Generating Deformed Route Maps for Supporting Detou... 【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究 【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative... 【DLゼミ】Generative Image Dynamics, CVPR2024 From Pretraining Data to Language Models to Downstream Tasks:Tracking the Tr... 【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching 【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也 【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究 A Study on Decision Support System for Snow Removal Dispatch using Road Surfa... 【卒業論文】印象タグを用いた衣服画像生成システムに関する研究 【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究 DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models Voyager: An Open-Ended Embodied Agent with Large Language Models DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation You Only Learn One Representation: Unified Network for Multiple Tasks
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
You Only Learn One Representation:
Unified Network for Multiple Tasks
西浦 翼
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
論文情報 2
著者
・Chien-Yao Wang (Institute of Information Science)
・I-Hau Yeh (Elan Microelectronics Corporation)
・Hong-Yuan Mark Liao (Elan Microelectronics Corporation)
発表
・arXiv 2021.05
概要
・形式知と暗黙知を併用したネットワークを提案
・単一モデルのアーキテクチャでマルチタスク学習に効果的
・物体検出タスクにおいて圧倒的な性能を発揮
リンク
・https://arxiv.org/abs/2105.04206
・https://github.com/WongKinYiu/yolor
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
YOLO 3
物体検出モデル YOLO (You Only Look Once)
・You Only Live Once「人生は一度きり」をもじったもの
・2016年 Joseph Redmon氏が提案
・2016年12月 YOLOv2, 2018年 YOLOv3を発表
・Joseph Redmon氏は軍事利用・プライバシーの問題から研究引退
・2020年 Alexey Bochkovskiy氏が YOLOv4を提案
本人コメント「I am AI developed by Joseph Redmon to
complete his AI without his participation」
・2021年2月 YOLOv4の second author の Chien-Yao Wang氏が
Scaled-YOLOv4 を発表 (CVPR2021)
・今回 Chien-Yao Wang氏が「You Only Learn One Representation」で
YOLORを提案
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
YOLORのすごさ 4
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
人間とCNN 5
1つの画像データに対して
人間:複数の質問に答えられる
CNN:訓練した1タスクのみ
人間は明示的に学習する「形式知」と無意識に学習す
る「暗黙知」があり、この暗黙知がサポートしてる
(前提知識みたいな感じ)
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
形式知と暗黙知の定義 6
一般的
形式知:浅い層から得られる特徴
暗黙知:深い層から得られる特徴
本論文
形式知:入力画像の見た目から直接得られる特徴
暗黙知:入力画像の見た目からは得られず、モデルの
中の潜在的な特徴
形式知と暗黙知を統合して、種々のタスクで使える
一般的な知識を学習した単一モデルを作りたい
explicit knowledge implicit knowledge
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
マルチタスク NN アーキテクチャ 7
目指してる
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 8
暗黙知は入力画像とは無関係
定数テンソルと見なせる
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 9
・良い特徴表現は適切に多次元空間に写像できるべき
・ベクトルを埋め込んだとき超次元平面で分割できると最高
・次元削減と種々のタスクへの応用ができる
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の導入 10
・マルチタスクとマルチヘッドのNNでカーネル空間への
写像が良くない
・出力した特徴と暗黙知をうまく統合してカーネル空間を
転写、回転、拡大、縮小してalignしたい
・FPNの large object と small object の統合とかでも使える
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 11
一般的な CNNの学習
x:入力画像
y:タスクの目標
θ:パラメーター
f θ :NN
・種々のタスクに同時に応
用するならRelax ε を使う
・今回は(c)を作りたい
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 12
:形式知のエラー
のモデル化
:暗黙知のエラー
のモデル化
:2つのエラーを
結合
:2つの関数を
結合
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
暗黙知の定式化 13
次元ごとに独立 次元ごとに非独立 次元ごとに独立
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 14
・データセットはMSCOCO
・モデルはYOLOv4-CSP (Scaled-YOLOv4で提案)
・ハイパーパラメーターはScaled-YOLOv4と同じ
・暗黙知を3カ所に導入
1.feature alignment
2.prediction refinement
3.multi-task learning
・multi-taskは以下3つ
1.object detection
2.classification
3.feature embedding
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 15
FPNの特徴マップに feature alignment を適用し
たらAPが全アップした
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 16
YOLOの出力層に prediction refinement を
適用したらAPがだいたいアップした
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 17
一般にマルチタスクのモデルではタスク
ごとの損失関数同士で足を引っ張り合う
各タスクごとに暗黙知を導入して表現力
を上げる
単一タスク
複数タスク
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 18
形式知と暗黙知を統合するときにどうするか
- 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 19
feature alignment:add と concat はいい感じ
prediction refinement:次元が変わるのでconcatはしてない、multiいい感じ
考察として推論のとき center shift が addition decoding で anchor scale が
multiplication decoding だかららしい
- 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 20
暗黙知のモデル化をどうするか
ベクトル、NN、行列因子分解の中では
行列因子分解がいい感じ
- 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 21
計算時間の増加は 0.01% 未満
- 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
実験 22
事前学習や追加のデータがいらない
- 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
まとめ 23
・形式知と暗黙知を統合することで種々のタスクで
使える単一モデルを提案
・しかも計算量は0.01%未満しか増えない
・暗黙知の学習に3つの手法を紹介
・暗黙知をモデル化する3つの手法を議論
・Scaled-YOLOv4に適用して推論速度が88%改善した