SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
LAR-SR: A Local Autoregressive Model for Image Super-
Resolution
Presenter: Kazutoshi Akita
(ToyotaTechnological Institute, IntelligentInformation Media Lab)
論文情報
• 論文名:LAR-SR: A Local Autoregressive Model for Image Super-Resolution (CVPR2022)
• 著者:Baisong Guo1, Xiaoyun Zhang1, Haoning Wu1, Yu Wang1,2, Ya Zhang1,2, Yan-Feng
Wang1,2
1Cooperative Medianet Innovation Center, Shanghai Jiao Tong University,
2Shanghai AI Laboratory
• URL:
https://openaccess.thecvf.com/content/CVPR2022/html/Guo_LAR-SR_A_Local_Autoregressive_Model_for_Image_Super-
Resolution_CVPR_2022_paper.html
2
※本資料の図は,言及がなければ自作あるいは上記論文からの引用
前提知識
• 超解像(Super Resolution, SR)
– 画像を綺麗に拡大する技術
3
超解像
(SRNet)
低解像画像
(LR画像)
超解像画像
(SR画像)
前提知識
4
• これまでの超解像
SRNet
低解像画像
(LR画像)
超解像画像
(SR画像)
・低解像化
・ブラー
高解像画像
(HR画像)
Loss (e.g., MSE, L1)
前提知識
• MSE/L1損失による学習では,SR画像がボケる
– 1つのLR画像に対して複数の妥当なHR画像が対応するため
5
これに対処するため,確率モデルを利用した超解像が注目されている
前提知識
• 確率モデルは様々
– GAN
• 実データを指定した確率分布(e.g., ガウス分布)に直接埋め込み
• 欠点:学習が困難 or 不安定
– Normalizing Flow
• 単純な確率分布からの変換で実データ分布を表現
• 欠点:ネットワーク構造に制限
6
概要
• 確率モデルとして,自己回帰(Autoregressive; AR)モデルを利用した超解像手法を
提案
• 自己回帰モデルを局所的なパッチ内でのみ使用することで,計算コストの高さを解消
• 複数の超解像データセットにおいてベースラインを上回る性能
7
自己回帰モデル
• i番目のモデル出力が,i-1番目までのモデル出力に依存する確率モデル
• メリット
– 特定の分布を仮定しないため,実データの分布を忠実に再現できるポテンシャルがある
– 安定的な学習が可能
8
𝑝 𝑥 = 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)
自己回帰モデル
• 自己回帰モデルによる画像生成
– 例:Pixel RNN [1]
• 生成したい画像のピクセル数が増えると計算時間が膨大に
9
[1]V. Oord, et al., "Pixel recurrent neural networks." International conference on machine learning. PMLR, 2016.
[1]より引用
提案手法
• 基本アイデア
– 画像の局所パッチ内でのみ自己回帰モデルを利用して
並列化可能にし,計算効率を改善
– 低解像画像で遠く離れた箇所との依存関係(画像構造)
がすでに与えられている
– 局所パッチ内での,生成したいテクスチャにおいて
のみ依存関係がある
10
提案手法
• モデル概要
11
提案手法
• Stage1: VQVAE
– 高解像テクスチャのコードブックを作成
12
提案手法
• Stage2: Local Autoregressive (LAR) module
– 低解像画像を条件付けて,パッチ内でVQVAEのコードブックのindexを推定
13
実験結果
• 一般画像超解像(DIV2K)
14
実験結果
• 一般画像超解像(DIV2K)
• 指標
– PSNR: 再構成誤差
– SSIM: 標準偏差などに基づいた
GTとの差の指標
– LPIPS: 知覚的品質の指標
15
実験結果
• 顔画像超解像
16
実験結果
• 顔画像超解像
17
実験結果
• パッチサイズ(= 自己回帰モデルの再帰回数)による性能比較
18
実験結果
• 画像全体に自己回帰モデルを適用した場合
19
実験結果
• 各ステージにおいてcoarse-SR(≒画像構造による条件付け)の有無によ
る比較
20
まとめ
• 自己回帰モデルを利用した超解像を提案
• 低解像画像(≒画像構造)を条件付けることで,局所パッチ内でのみ自己回帰モデルを使
用すればよく,計算効率を改善
• 一般画像超解像・顔画像超解像において従来手法を上回る性能を達成
21

More Related Content

PPTX
[DL輪読会]World Models
PDF
Transformer メタサーベイ
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
【DL輪読会】Reward Design with Language Models
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
[DL輪読会]World Models
Transformer メタサーベイ
【メタサーベイ】数式ドリブン教師あり学習
【DL輪読会】Reward Design with Language Models
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
【DL輪読会】Transformers are Sample Efficient World Models

What's hot (20)

PDF
自己教師学習(Self-Supervised Learning)
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PPTX
モデルアーキテクチャ観点からの高速化2019
PDF
最近のディープラーニングのトレンド紹介_20200925
PDF
CV分野におけるサーベイ方法
PDF
実装レベルで学ぶVQVAE
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
画像生成・生成モデル メタサーベイ
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PDF
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
Deep Learningによる超解像の進歩
PPTX
Transformerを雰囲気で理解する
PDF
ドメイン適応の原理と応用
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
[DL輪読会]画像を使ったSim2Realの現況
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
自己教師学習(Self-Supervised Learning)
[DL輪読会]Deep Learning 第15章 表現学習
モデルアーキテクチャ観点からの高速化2019
最近のディープラーニングのトレンド紹介_20200925
CV分野におけるサーベイ方法
実装レベルで学ぶVQVAE
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
画像生成・生成モデル メタサーベイ
最近のDeep Learning (NLP) 界隈におけるAttention事情
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】A Path Towards Autonomous Machine Intelligence
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
Semi supervised, weakly-supervised, unsupervised, and active learning
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learningによる超解像の進歩
Transformerを雰囲気で理解する
ドメイン適応の原理と応用
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
[DL輪読会]画像を使ったSim2Realの現況
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Ad

Similar to 【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution (13)

PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】Reflash Dropout in Image Super-Resolution
PPTX
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
PPTX
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
PDF
CVPR 2018 速報
PDF
[DL輪読会]Supervision-by-Registration
PDF
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
PDF
Menoh-Rubyで始めるお手軽簡単なDNN推論アプリ
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
PDF
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
PDF
ICCV2019 report
PDF
優れた問いを見つける(中京大学講演)
PDF
OpenStack APAC Report
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Reflash Dropout in Image Super-Resolution
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
CVPR 2018 速報
[DL輪読会]Supervision-by-Registration
【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentat...
Menoh-Rubyで始めるお手軽簡単なDNN推論アプリ
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
ICCV2019 report
優れた問いを見つける(中京大学講演)
OpenStack APAC Report
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...

【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution