SlideShare a Scribd company logo
Second-order Attention Network
for Single Image Super-Resolution
Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang
Presenter: 内田 奏
論文情報
➔ タイトル: Second-order Attention Network for Single Image Super-resolution
➔ 著者: Tao Dai1,2,*
, Jianrui Cai3,*
, Yongbing Zhang1
, Shu-Tao Xia1,2
, Lei Zhang3,4
◆ 1) Tsinghua University
◆ 2) Peng Cheng Laboratory
◆ 3) The Hong Kong Polytechnic University
◆ 4) DAMO Academy (Alibaba)
➔ 発表形式: Oral Session (3-2C: Low-level & Optimization)
Links: Paper / Implementation / Persentation
概要
➔ Second-order Channel Attentionを用いた超解像手法を提案
➔ Spatial Attention / Channel Attentionを組み込んでSOTA
➔ 高次統計量を用いることでテクスチャをうまく表現できる
研究背景 (1)
➔ Single Image Super-Resolution (SISR)
◆ 1枚の画像を入力して,解像度を高めた画像を推定
◆ ill-posed問題として知られる
● 妥当な解が無限に存在する
◆ 周囲の特徴からコンテキストを捉える必要がある
➔ 学習ベースの手法が成功を収めている
◆ SRCNN [C. Dong et al. ECCV 2014]
◆ SRGAN [C. Ledig et al. CVPR 2017]
◆ RDN [Y. Zhuang et al. CVPR 2018]
◆ Deeper/Widerなネットワークにフォーカスが当てられてきた
◆ 特徴の相互関係が無視されていないか?
研究背景 (2)
➔ Attention機構: 特徴間の関係を学習&重み付け
◆ Spatial Attention : 空間的な特徴の相互関係を捉える
● Non-local Network [X. Wang et al. CVRP 2018]
● NLRN [D. Liu et al. NeurIPS 2018]
◆ Channel Attention : チャネルごとの特徴の相互関係を捉える
● SENet [X. Hu et al. CVPR 2018]
● RCAN [Y. Zhang et al. ECCV 2018]
➔ SENet, RCAN etc. は一次統計量しか用いていない
◆ Global Average Poolingを用いて集約
◆ 二次統計量を用いると識別的な特徴を学習可能 [Q. Wang et al. ICCV 2017]
研究目的
「特徴の相互関係を意識した超解像」
➔ コントリビューション
◆ Spatial/Channel Attentionを両方組み込んだ Second-order Attention Network (SAN) を提案
◆ for Spatial Attention
● Non-local Moduleを改良した Non-Local enhaced Residual Group (NLRG)を提案
◆ for Channel Attention
● 二次統計量を用いた Second-order Channel Attention (SOCA)を提案
ちょっと振り返って - Non-local Network -
➔ CNNで非局所的な情報を扱う
◆ Non-local演算: 注目点とその他の点との重み付き和を計算
● 重みには類似度(e.g. 内積のガウシアン)を用いる
◆ Self-Attentionと等価といわれている
● ☞ 『最近の深層学習における Attention機構 - CVとNLPを中心に -』 (by NEC 福井さん)
Non-local演算のイメージ 計算式
ちょっと振り返って - SENet -
➔ SE Block: チャネル間の関係を学習&強調
◆ Squeeze process: Global Poolingを用いてマップごとに統計量を抽出
◆ Excitation process: 抽出した統計量をFC層に通して励起
➔ わずかなパラメータ増加でILSVRC2017で優勝
Second-order Attention Network (SAN)
Region-level non-local Module (RL-NL)
➔ 従来のNon-local moduleの問題点
◆ 特徴マップのサイズが大きいと計算量が爆発
◆ Low-level visionではそこまで大域的である必要がない
➔ Region-level none-local module (RL-NL)
◆ 特徴マップをk × k個のグリッドに分割し,高速化&効率化
Second-order Channel Attention
➔ 従来のChannel Attention
◆ 一次統計量(e.g. 平均,分散)を用いたGlobal Pooling
◆ NNの識別能力を活かしきれていないのでは?
➔ Second-order Channel Attention Module (SOCA)
◆ 二次統計量 (i.e. 共分散行列)を用いたGlobal Pooling
● 直接用いるのではなく,正規化およびチャネル毎に集約 (後述)
◆ 特徴の相互依存性を捉えて,より識別的な特徴を学習
Covariance Normalization
➔ 固有値をα乗することで共分散行列を正規化
① 共分散行列を計算 ② 固有値分解 ③ 正規化
固有値分解が重いので学習に不向き...
Covariance Normalization Acceleration
➔ Newton-Schultz Iterationによる固有値分解の高速化
◆ Y0
=Σ,Z0
=Iとして次式をN 回反復
◆ 収束性の保証するため Σを事前正規化
◆ 事前正規化によりスケールが変わるため後処理
Channel Attention
➔ 正規化した共分散行列をチャネル方向に集約
➔ Attentionの計算・適用
◆ SENet, RCANなどと同じようにボトルネックに通す
[Y. Zhang et al. ECCV 2018]より引用
実験設定
➔ データセット
◆ trainデータ: DIV2K
◆ testデータ: Set5, Set14, BSD100, Urban100, Manga109
➔ 低解像度画像の作り方
◆ Bicubic Interpolation (BI)
◆ Gaussian-Blur Downsampling (BD)
➔ 評価方法
◆ YCbCrに変換し,Yチャネルで評価
➔ 評価指標
◆ PSNR [dB]: 信号の最大パワーと誤差の比. MSEをlogスケールにしたもの
◆ SSIM: 構造類似度.局所的な輝度・コントラスト・構造変化に敏感.
Ablation Study
➔ ベースライン
◆ RL-NL, SSC, SOCAを含まないモデル
◆ 10 (Residual Block) x 20 (Residual Group) の計400層のCNN
モジュール単体での効果 一次 vs 二次
定量評価
➔ テクスチャ情報の多いデータセットに強い傾向が見られた
品質評価
テクスチャがくっきり (?)
まとめ
➔ Second-order Attention Network (SAN)の提案
◆ Non-local moduleによるSpatial Attention (NLRG)
◆ 二次統計量を用いた Channel Attention (SOCA)
● 共分散行列を正規化して用いる
◆ 特徴の相互依存性を意識した超解像
➔ 結果
◆ SOTA!
◆ テクスチャ情報の復元に強い (?)
● 付録がもっと欲しい印象
● 内部特徴表現の可視化とかやってほしかった

More Related Content

PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
ドメイン適応の原理と応用
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PPTX
モデル高速化百選
Semi supervised, weakly-supervised, unsupervised, and active learning
ドメイン適応の原理と応用
[DL輪読会]GQNと関連研究,世界モデルとの関係について
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
モデル高速化百選

What's hot (20)

PDF
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PDF
Transformer メタサーベイ
PDF
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
PPTX
NIPS2015読み会: Ladder Networks
PDF
【メタサーベイ】Video Transformer
PPTX
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
機械学習モデルの判断根拠の説明
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PPTX
SakataMoriLab GNN勉強会第一回資料
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
PDF
自己教師学習(Self-Supervised Learning)
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
畳み込みニューラルネットワークの高精度化と高速化
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Transformer メタサーベイ
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
NIPS2015読み会: Ladder Networks
【メタサーベイ】Video Transformer
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
機械学習モデルの判断根拠の説明
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
[DL輪読会]DropBlock: A regularization method for convolutional networks
SakataMoriLab GNN勉強会第一回資料
学習時に使ってはいないデータの混入「リーケージを避ける」
自己教師学習(Self-Supervised Learning)
Ad

Similar to 【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution (20)

PDF
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
PDF
PDF
点群深層学習 Meta-study
PPTX
PyTorch, PixyzによるGenerative Query Networkの実装
PPTX
Image net classification with Deep Convolutional Neural Networks
PPTX
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PDF
[論文紹介] Convolutional Neural Network(CNN)による超解像
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
PDF
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
PDF
PCAの最終形態GPLVMの解説
PPTX
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
PDF
NeurIPS'21参加報告 tanimoto_public
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PDF
画像処理分野における研究事例紹介
PDF
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
PDF
Deep learning実装の基礎と実践
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
点群深層学習 Meta-study
PyTorch, PixyzによるGenerative Query Networkの実装
Image net classification with Deep Convolutional Neural Networks
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Top-K Off-Policy Correction for a REINFORCE Recommender System
[論文紹介] Convolutional Neural Network(CNN)による超解像
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
NIPS2019 Amazon「think globally, act locally : a deep neural network approach...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
PCAの最終形態GPLVMの解説
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
NeurIPS'21参加報告 tanimoto_public
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
画像処理分野における研究事例紹介
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
Deep learning実装の基礎と実践
Ad

【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution

  • 1. Second-order Attention Network for Single Image Super-Resolution Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang Presenter: 内田 奏
  • 2. 論文情報 ➔ タイトル: Second-order Attention Network for Single Image Super-resolution ➔ 著者: Tao Dai1,2,* , Jianrui Cai3,* , Yongbing Zhang1 , Shu-Tao Xia1,2 , Lei Zhang3,4 ◆ 1) Tsinghua University ◆ 2) Peng Cheng Laboratory ◆ 3) The Hong Kong Polytechnic University ◆ 4) DAMO Academy (Alibaba) ➔ 発表形式: Oral Session (3-2C: Low-level & Optimization) Links: Paper / Implementation / Persentation
  • 3. 概要 ➔ Second-order Channel Attentionを用いた超解像手法を提案 ➔ Spatial Attention / Channel Attentionを組み込んでSOTA ➔ 高次統計量を用いることでテクスチャをうまく表現できる
  • 4. 研究背景 (1) ➔ Single Image Super-Resolution (SISR) ◆ 1枚の画像を入力して,解像度を高めた画像を推定 ◆ ill-posed問題として知られる ● 妥当な解が無限に存在する ◆ 周囲の特徴からコンテキストを捉える必要がある ➔ 学習ベースの手法が成功を収めている ◆ SRCNN [C. Dong et al. ECCV 2014] ◆ SRGAN [C. Ledig et al. CVPR 2017] ◆ RDN [Y. Zhuang et al. CVPR 2018] ◆ Deeper/Widerなネットワークにフォーカスが当てられてきた ◆ 特徴の相互関係が無視されていないか?
  • 5. 研究背景 (2) ➔ Attention機構: 特徴間の関係を学習&重み付け ◆ Spatial Attention : 空間的な特徴の相互関係を捉える ● Non-local Network [X. Wang et al. CVRP 2018] ● NLRN [D. Liu et al. NeurIPS 2018] ◆ Channel Attention : チャネルごとの特徴の相互関係を捉える ● SENet [X. Hu et al. CVPR 2018] ● RCAN [Y. Zhang et al. ECCV 2018] ➔ SENet, RCAN etc. は一次統計量しか用いていない ◆ Global Average Poolingを用いて集約 ◆ 二次統計量を用いると識別的な特徴を学習可能 [Q. Wang et al. ICCV 2017]
  • 6. 研究目的 「特徴の相互関係を意識した超解像」 ➔ コントリビューション ◆ Spatial/Channel Attentionを両方組み込んだ Second-order Attention Network (SAN) を提案 ◆ for Spatial Attention ● Non-local Moduleを改良した Non-Local enhaced Residual Group (NLRG)を提案 ◆ for Channel Attention ● 二次統計量を用いた Second-order Channel Attention (SOCA)を提案
  • 7. ちょっと振り返って - Non-local Network - ➔ CNNで非局所的な情報を扱う ◆ Non-local演算: 注目点とその他の点との重み付き和を計算 ● 重みには類似度(e.g. 内積のガウシアン)を用いる ◆ Self-Attentionと等価といわれている ● ☞ 『最近の深層学習における Attention機構 - CVとNLPを中心に -』 (by NEC 福井さん) Non-local演算のイメージ 計算式
  • 8. ちょっと振り返って - SENet - ➔ SE Block: チャネル間の関係を学習&強調 ◆ Squeeze process: Global Poolingを用いてマップごとに統計量を抽出 ◆ Excitation process: 抽出した統計量をFC層に通して励起 ➔ わずかなパラメータ増加でILSVRC2017で優勝
  • 10. Region-level non-local Module (RL-NL) ➔ 従来のNon-local moduleの問題点 ◆ 特徴マップのサイズが大きいと計算量が爆発 ◆ Low-level visionではそこまで大域的である必要がない ➔ Region-level none-local module (RL-NL) ◆ 特徴マップをk × k個のグリッドに分割し,高速化&効率化
  • 11. Second-order Channel Attention ➔ 従来のChannel Attention ◆ 一次統計量(e.g. 平均,分散)を用いたGlobal Pooling ◆ NNの識別能力を活かしきれていないのでは? ➔ Second-order Channel Attention Module (SOCA) ◆ 二次統計量 (i.e. 共分散行列)を用いたGlobal Pooling ● 直接用いるのではなく,正規化およびチャネル毎に集約 (後述) ◆ 特徴の相互依存性を捉えて,より識別的な特徴を学習
  • 12. Covariance Normalization ➔ 固有値をα乗することで共分散行列を正規化 ① 共分散行列を計算 ② 固有値分解 ③ 正規化 固有値分解が重いので学習に不向き...
  • 13. Covariance Normalization Acceleration ➔ Newton-Schultz Iterationによる固有値分解の高速化 ◆ Y0 =Σ,Z0 =Iとして次式をN 回反復 ◆ 収束性の保証するため Σを事前正規化 ◆ 事前正規化によりスケールが変わるため後処理
  • 14. Channel Attention ➔ 正規化した共分散行列をチャネル方向に集約 ➔ Attentionの計算・適用 ◆ SENet, RCANなどと同じようにボトルネックに通す [Y. Zhang et al. ECCV 2018]より引用
  • 15. 実験設定 ➔ データセット ◆ trainデータ: DIV2K ◆ testデータ: Set5, Set14, BSD100, Urban100, Manga109 ➔ 低解像度画像の作り方 ◆ Bicubic Interpolation (BI) ◆ Gaussian-Blur Downsampling (BD) ➔ 評価方法 ◆ YCbCrに変換し,Yチャネルで評価 ➔ 評価指標 ◆ PSNR [dB]: 信号の最大パワーと誤差の比. MSEをlogスケールにしたもの ◆ SSIM: 構造類似度.局所的な輝度・コントラスト・構造変化に敏感.
  • 16. Ablation Study ➔ ベースライン ◆ RL-NL, SSC, SOCAを含まないモデル ◆ 10 (Residual Block) x 20 (Residual Group) の計400層のCNN モジュール単体での効果 一次 vs 二次
  • 19. まとめ ➔ Second-order Attention Network (SAN)の提案 ◆ Non-local moduleによるSpatial Attention (NLRG) ◆ 二次統計量を用いた Channel Attention (SOCA) ● 共分散行列を正規化して用いる ◆ 特徴の相互依存性を意識した超解像 ➔ 結果 ◆ SOTA! ◆ テクスチャ情報の復元に強い (?) ● 付録がもっと欲しい印象 ● 内部特徴表現の可視化とかやってほしかった