SlideShare a Scribd company logo
Blind Video Temporal Consistency via
Deep Video Prior
岩隈 啓悟 / Keigo Iwakuma
1
タイトル:Blind Video Temporal Consistecy via
     Deep Video Prior
著者:Chenyang Lei, Yazhou Xing, Qifeng Chen
所属:The Hong Kong University of Science and Technology (HKUST)
書誌情報:NeurIPS 2020
プロジェクト:https://chenyanglei.github.io/DVP/index.html
論文:https://arxiv.org/abs/2010.11838
実装:https://github.com/ChenyangLEI/deep-video-prior (TensorFlow 1)
2
目次:
1. 概要
2. タスク
3. 関連研究
4. 提案手法
5. 実験・結果
6. まとめ・感想
3
タイトル:Blind Video Temporal Consistecy via
     Deep Video Prior
1.概要
動画に対して画像処理を適用する場合、フレームごとに処理を行うことによって動画の持つ時
間方向への一貫性(Temporal Consistency)が失われてしまうことがある
本研究ではCNNが持つDeep Image Priorに着目し、これを時間方向への一貫性を保つため
の正則化として利用することで、従来に比べてシンプルな定式化でかつより客観的にも主観的
にも優れた結果が得られた
4
2.タスク
2.タスク
Blind Video Temporal Consistency:
動画の各フレームに対して個別に画像処理を行うことで
時間的な一貫性が失われる問題(flickeringなど)をどうにかしたい
背景(モチベーション):
スタイル変換や固有画像分解など様々な画像処理が成果を挙げている
しかし、それをそのまま動画に拡張すると上記のような問題が生じる
また、処理ごとに特有の拡張方法を考えるのは大変で時間もかかる
 ⇒ 処理内容はブラックボックスとして(=blind)これを解決したい
6
2.タスク
Blind Video Temporal Consistency:
7
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
Goal
2.タスク
Blind Video Temporal Consistency:
8
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
Goal(出力)
入力
入力
Blind
2.タスク
Blind Video Temporal Consistency:
9
オリジナルフレーム
(一貫性がある)
処理されたフレーム
(一貫性がない)
画像処理
最終的なフレーム
(処理内容を残しつつ
 一貫性を持たせる)
入力
入力
Blind
時間的な一貫性を持たせるための損失または正則化
処理内容を保つための損失または正則化
Goal(出力)
3.関連研究
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
11
最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる)
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
12
勾配(エッジ)情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
そもそもオリジナルのワープが上手くいかない場合はその重
みを小さくする(※V = I)
最初のフレームはレファレンスとして、2番目の出力から順に解いていく(結果を伝播させる)
3.関連研究1
Blind Video Temporal Consistency (SIGGRAPH 2015, Bonneel et al.)
最終的なフレームを求めるパラメータとした、 Scene Dynamics(処理内容)とTemporal Consistency(一貫
性)の2つのエネルギーの同時最適化問題をオイラー・ラグランジュ方程式を利用して解く
13
勾配(エッジ)情報を近づけることで処理内
容を保持させる
ワープにはオリジナルのoptical flow or PatchMatchの情
報を利用し、連続するフレームの一貫性を持たせる
短所:
● 勾配情報だけでは複雑な処理内容を保持させることが難しい(例:画風のスタイル変換)
● 結果を伝播させる過程で誤差が積もるため徐々に処理内容が薄れていく
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
処理内容と一貫性に関する損失を用いて直接最終的なフレームを出力するモデルを作る
14
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
テスト時はRNNを用いて逐次的に4枚の入力から最終的なフレーム(の残差)を出力する
15RNNを利用することでどんな長さの動画でも構造的に時系列情報を扱える
前の論文と異なり最適化に長期的な一貫性も考慮した損失を用意
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
モデルは以下のような、 skip connectionとResBlockとConv LSTMを利用したFullConvNet
16
出力フレームは隣同士ほとんど同じなので細かい差異に注意が向くように残差を出力させている
オリジナルと最終的なフレームは見た目が大きく異なる場合があるため
skip connectionは設けない
長期的な一貫性の損失:
(最大で10フレーム間)
visibility mask:
(オリジナルフレームのワープがずれている部分は小さくなる)
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
一貫性に関する損失は、前の出力フレームをワープさせたものとの L1損失を使用
短期的な一貫性の損失:
オリジナルフレームのoptical flow を利用して、
前の出力フレームをワープさせたもの
17
オリジナルフレームのoptical flow:
T:総フレーム数、N:総ピクセル数
最終的な損失:
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
処理内容に関する損失は、処理されたフレームとの特徴マップでの L1損失を使用
処理内容の損失:
Content Perceptual Loss
VGG19の l 層目の特徴マップ(’relu4-3’を使用)
18
T:総フレーム数、N:総ピクセル数
3.関連研究2
Learning Blind Video Temporal Consistency (ECCV 2018, Lai et al.)
短所:
● 訓練データを準備する必要がある
● 逐次的に最終的なフレームを求める以上、誤差が積もりやすく処理内容が薄れやすい
長所:
● 推論時の動作は速い( 418FPS on Nvidia Titan X with a resolution of 1280x720)
● シングルモデルで学習時になかった画像処理パターンにも対応可能
19
3.関連研究3
Deep Image Prior (CVPR 2018, Ulyanov)
CNNの構造自体が低次元な統計量から学習しやすいという特性を利用して、
画像のノイズ除去、補完、超解像など様々なタスクを行えることを実験的に示した論文
20
JPEG圧縮で劣化した画像
(Target)
何らかの値で固定した画像
(Input)
Inputを通したときの出力とTargetとの損失(MSEなど)が小さくなるように、ランダムに初期化したCNNのパラメータを学習していくと
劣化部分のような局所的な部分より大域的な部分を先に復元していくのがわかる、CNNが持つこの正則化効果をDeep Image Priorとしている
損失最小化
CNN
4.提案手法
4.提案手法
22
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
CNNを使うことで暗黙的に課される正則化のことを
論文ではDeep Video Priorと呼んでいる
画像処理
初期化した
CNN 処理内容の損失のみ、明示的に一貫性については設けない
以下の最適化でCNNのパラメータを学習し、特定のepochs(25−50程度)で学習をとめる
そのときのCNN出力を最終的なフレームとして使用する
4.提案手法
23
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習していけば、 flickeringのような入力によってばらつく部分より入力に共
通する部分(時間方向に一貫している部分)が先に学習され、処理内容を保ちつつ一貫性を持ったフレーム
が手に入るのではないかという提案
※
著者らの動機に対する自分の解釈としては
・学習初期のCNNは似た入力に対して同じような出力をする(経験則)
(最終的には似た入力に対してもその差異を復元できるようになる)
⇒ 似た入力に対しては共通部分から徐々に差異を学習していきそう(Deep Image Prior)
・動画は基本的には連続していて時間方向に一貫性があり各フレームが似ている
⇒ 一連の動画フレームに対しては上記の経験則が当てはまりそう
ということかなと思っています
画像処理
初期化した
CNN
4.提案手法
24
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
従来手法
前のフレームの結果に依存する
⇒長期の一貫性を保つのが難しい
処理内容 一貫性
4.提案手法
25
Blind Video Temporal Consistency via Deep Video Prior
ランダムに初期化した CNNに対してオリジナルフレームを順にバッチサイズ1で入力し、出力が処理されたフ
レームに近づくようにパラメータを学習させていけば、 flickeringのような入力によってばらつく部分より入力に
共通する部分(時間方向に一貫している部分)が先に学習できて処理内容を保ちつつ一貫性を持ったフレー
ムが手に入るのではないかという提案
提案手法
処理内容 一貫性
Deep Video Priorによる
暗黙的な一貫性に関する正則化
⇒前フレームの結果に依存しない
4.提案手法
26
2種類のTemporal Inconsistencyについて
● Unimodal inconsistency:flickeringのような単一モードの中で生じる比較的小さな不安定さ
● Multimodal inconsistency:colorizationタスク(gray=>rgb)で対象の色がフレームごとに変わってしまう
ようなタスクの不良設定によって生じる比較的大きな不安定さ
4.提案手法
27
2種類のTemporal Inconsistencyに対するDeep Video Prior
トイ実験:ある連続する画像にノイズを加えて 2種類のTemporal Inconsistencyを用意する
 ⇒ Multimodal incosistencyに関しては適切な処理内容を保てないまま一貫性も失ってしまう
Unimodal Inconsistency
Multimodal Inconsistency
Multimodal Inconsistency
⇒ 上手く行く!
⇒ 上手くいかない
Iteratively Reweighted Trainingの提案
⇒ 上手く行く!
4.提案手法
28
Multimodal Inconsistencyに対するIteratively Reweighted Training
1つのメインモードを選んでくるような confidence mapと、そのメインモードとその他のモードに対応する 2枚の
画像を出力するモデルを設計し、以下の最適化問題でパラメータを学習するように変更する
Confidence map: 出力のメインモード
単一モードしか持たない対象に対しては閾値によって
処理されたフレームと出力のメインモードが近づくようにする
出力のその他のモード
最適化問題:
confidence mapの値によってそれぞれのモードと近い部分がより近づくようになる
(メインモードはいずれかのモードに近づく、実際は最初に渡す学習フレームがメインモードとなる)
5.実験・結果
5.実験・結果
実験の設定:
Architecture: U-Net
Loss: Perceptual Loss
IRT distance: L1
Dataset: DAIVS, the test set collected by Bonneel et al.
Optimizer: Adam, lr=0.0001 for all task
Epochs: 25 (Dehazing, spatial white balancing, and image enhancement)
or
50 (Intrinsic decomposition, colorization, style transfer, and CycleGAN)
Batchsize: 1 30
5.実験・結果
タスク:
31
Multimodal
Multimodal
5.実験・結果
評価指標:
1.Temporal Inconsistency … 最終的なフレームをoptical flowでワープしたときのL1誤差
2.Performance degradation (data fidelity) … 処理されたフレームと最終的なフレームの平均PSNR
比較手法:
関連手法1(表記[3])、 関連手法2(表記 [19])
32
※Occlusion判定された部分は評価から外す、各フレームは最初と隣合うフレームのペアで評価が行われる
5.実験・結果
定量評価:
関連手法1では一貫性はあるが処理内容が劣化している一方、関連手法2では処理内容を保てているが
一貫性で低い評価となった
提案手法はいずれの評価でも良い結果となっている
33
5.実験・結果
定性評価:
左の図はMultimodal Inconsistencyが生じる場合の結果である、提案手法が処理内容、一貫性ともに最
も維持できていることが分かる
右のグラフは別タスクでのフレームごとの輝度平均であり、提案手法が安定していることが分かる
34
5.実験・結果
主観評価(User Study):
20人の被験者に時間方向への一貫性と処理内容の類似度の両方で最も優れたものを選んでもらった結
果が以下である(計107動画を使用)
ほとんどのタスクで提案手法が最も良く評価されており、特に Multimodal Inconsistencyが生じる場合で圧
倒的な結果となった
35
5.実験・結果
Ablation Study:
1. IRTの有無による最終的なフレームの比較である、定量評価である PSNRではIRTを使わない手法
が上回ったが、見た目は明らかに IRTを使った方が良い
2. 異なるCNN Architectureを用いた最終的なフレームの比較である、それぞれで細かい差はあるが、
どれも安定した結果が得られた
36
5.実験・結果
学習を止めるタイミング:
動画の長さやモーションの大きさによってまちまちだが基本的には 25か50epochsでよい
以下のようにTemporal inconsistencyがしばらく変動しないタイミングがあるため、タスクによって
validation dataを用意しそのようなタイミングを選べばいい
ただし、flickeringなどを再現するにはそれより遥かに多い回数学習を行う必要があるのであまり慎重にな
る必要もない
37
6.まとめ・感想
まとめ
● 動画フレームを個々に画像処理することで時間方向の一貫性が失われてしまう問題に対して CNN
の持つ特性を活かすことで暗黙的に正則化を行うことができ、従来では難しかったケースに対しても
シンプルな方法で優れた結果を示せた
● 学習データが必要ない一方で、テスト時に学習を行う必要があり実用上のボトルネックとなっている
感想
● シンプルなアイデアで従来より大幅な改善が出来ている印象ですごかった
● 一方で、正解となるデータがなくタスクに対する良い評価指標がないのが難しいと感じた
● 今の所見え方に関しての一貫性を重視している印象だが、後段のタスクのための画像処理などに
対してその用途での一貫性が保てるようになると応用が広そうだなと思った。
● multi-camera consistencyに対する効果もこれから検討したいとのことだったのですが、そういった
動向にも期待したい
38

More Related Content

PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PPTX
近年のHierarchical Vision Transformer
PDF
Semantic segmentation
PDF
実装レベルで学ぶVQVAE
PDF
3D CNNによる人物行動認識の動向
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
動画認識における代表的なモデル・データセット(メタサーベイ)
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
近年のHierarchical Vision Transformer
Semantic segmentation
実装レベルで学ぶVQVAE
3D CNNによる人物行動認識の動向
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...

What's hot (20)

PDF
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
【メタサーベイ】Video Transformer
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
画像認識と深層学習
PDF
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
PPTX
モデル高速化百選
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
Icra2020 v2
PDF
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
【チュートリアル】コンピュータビジョンによる動画認識 v2
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
[DL輪読会]DropBlock: A regularization method for convolutional networks
StyleGAN解説 CVPR2019読み会@DeNA
【メタサーベイ】Video Transformer
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
【メタサーベイ】Vision and Language のトップ研究室/研究者
Curriculum Learning (関東CV勉強会)
画像認識と深層学習
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
モデル高速化百選
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Icra2020 v2
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
Ad

Similar to [DL輪読会]Blind Video Temporal Consistency via Deep Video Prior (20)

PPTX
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PDF
動画認識サーベイv1(メタサーベイ )
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
PDF
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
PPTX
SfM Learner系単眼深度推定手法について
PDF
Towards Performant Video Recognition
PDF
研究を加速するChainerファミリー
PDF
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
PDF
コンピュータビジョンの研究開発状況
PDF
動画からの意図理解のこれまでとこれから
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
PDF
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
PDF
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
PDF
論文紹介:Tracking Anything with Decoupled Video Segmentation
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
Deep learningの概要とドメインモデルの変遷
PDF
画像処理分野における研究事例紹介
PDF
20150414seminar
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
動画認識サーベイv1(メタサーベイ )
【チュートリアル】コンピュータビジョンによる動画認識
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
SfM Learner系単眼深度推定手法について
Towards Performant Video Recognition
研究を加速するChainerファミリー
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
コンピュータビジョンの研究開発状況
動画からの意図理解のこれまでとこれから
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:Tracking Anything with Decoupled Video Segmentation
[DL輪読会]Deep Face Recognition: A Survey
Deep learningの概要とドメインモデルの変遷
画像処理分野における研究事例紹介
20150414seminar
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior