SlideShare a Scribd company logo
Zero-shot Recognition via Semantic Embeddings
and Knowledge Graphs
PSI B3 近藤生也
軽く自己紹介
- 工学部シス創C B3
- (一応)工学部推薦入学
- VTuberにはまってます
- ふだん→
アジェンダ
● 書誌情報
● モチベーション
● コンセプト
● Zero-shot GCN
● GCN
● 余談:GCNはどう実装するの
● 実験
● 所感
3
書誌情報
● Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
(CVPR 2018)
○
● The Robotics Institute, Carnegie Mellon University
○
● ポイント
○ WordNet等、グラフ構造を持つカテゴリ間の関係性のデータを知識としてうまく
活用し、0-shotな認識で大幅に精度向上
○
● 選定理由
○ なんとなくグラフ系に興味
4
モチベーション
5
● 一般的なNNによる分類モデルでは、新しいカテゴリの追加が困難
○ 数千のサンプルを収集
○ 出力層を変えて再学習
● ヒトは初めて見た動物でも(知識があれば)カテゴリの特定は容易
●
● オカピ:『褐色の胴と鹿のような顔をしたゼブラストライプ4つの脚の動物』
既存手法
● 画像からカテゴリの単語分散表現へのマッピングを学習する
○ オカピの画像を入力して、オカピの単語分散表現が出るようにする
● クラス分類の出力の確率分布を使って、単語分散表現の加重平均を取る
○ オカピの分散表現 = 鹿らしさ*鹿の分散表現 + しま馬らしさ*しま馬の分散表現 + ...
● 画像から有限個の形容詞を予測するモデルを作り、すべてのカテゴリを形容詞の
真偽で予測する
○ オカピ ⇐⇒ シマシマ ∧ 4足歩行 ∧ 茶色 ∧ …
色々あったけど、これらと比べて大幅に精度を向上させた
6
コンセプト
● 意味的に近いカテゴリを参考にしたい
○ しかし単語分散表現に頼るのには限界がある
● 形容詞等でカテゴリをいくつかの一般的な要素で記述したい
○ 形容詞に限らず複雑な要素でも記述されるべきである
● 両方使おう
- 明示的かつ疎な関係性データ(知識グラフ)
- 暗黙的かつ密な知識表現(単語分散表現)
7
コンセプト
8
- 特徴1
- 特徴2
- 特徴2048
● 事前学習済みのCNNで特徴量を得る
[Features]× W_{鹿} = 鹿らしさ
[Features]× W_{しま馬} = しま馬らしさ
[Features]× W_{オカピ} = オカピらしさ
● となるような、各カテゴリのW(== 各カテゴリのロジスティック回帰パラメータ)を『知
識グラフ』と『単語分散表現』で求める
Zero-shot GCN
9
[Features]× W_{オカピ} = オカピらしさ
カテゴリ『オカピ』についての
ロジスティック回帰パラメータ
Zero-shot GCN
10
● 両方使って各Wを求めよう
- 明示的かつ疎な関係性データ(知識グラフ)
- 暗黙的かつ密な知識表現(単語分散表現)
● 単語分散表現からロジスティック回帰パラメータを求める
● さらにGCNを使って、暗黙的に関係性の高いカテゴリ同士がより相互作用するよう
なモデルを作る
● 両方賢く使えそう
Zero-shot GCN
11
GCN
GCNが関係
する部分
GCN
12
● 今回は下側のタイプで、隣接行列を直接使っている
● GCNは、隣接行列等を使って局所的な要素だけが出力に関係してくるから
Convolutionって名前についているのだとい個人的に解釈している(一般的なCNN
とは様相が違う)
(DL_Hacks東さんのスライドから拝借)
GCN
13
● GC一層の処理
Z :出力層
A_hat:隣接行列を正規化したもの
X’ :前の層の出力
W :パラメータ
GCN
14
● この論文では
○ ノード:(未知を含む)すべてのカテゴリ
○ エッジ:WordNet等でn-hopまで離れた単語同士をエッジで結ぶ(n=7)
○ 入力:(未知を含む)すべてのカテゴリの単語分散表現
○ 出力:各カテゴリでのロジスティック回帰パラメータ
● 各ノードの隣接関係は保たれたまま、特徴量の次元数だけ変わっていく
GCN
15
● この論文では
○ 入力:(未知を含む)すべてのカテゴリの単語分散表現
○ 出力:各カテゴリでのロジスティック回帰パラメータW
○ 損失:既知のカテゴリの最適なW(事前学習時に得られる)との差
Loss
余談:GCNはどう実装するの
16
● TensorFlow等で書ける
GCN
17
● 論文では、6層のGCN
● すべてのカテゴリを一括で変換していき、既知のWが正しくなるよう学習
○ 既知のカテゴリのみの損失を最小化すると未知のカテゴリでも精度が上がる
(汎化)
GCN
18
実験
19
● SOTA(ConSE)
○ クラス分類の出力の確率分布を使って
単語分散表現の加重平均(オカピの分
散表現 = 鹿らしさ*鹿の分散表現 + しま
馬らしさ*しま馬の分散表現 + ..)
○ カッコの中は、加重平均に上位何個の
カテゴリまで使うか
● 最大+28ポイント
実験
20
● Embeddingの手法を変
えた実験
● 異なる手法で埋め込み
を行っても問題ない
実験
21
● 2,3割ランダムにエッジを刈っても問
題ない
○ かなりグラフデータに対してロバ
スト
○ 刈りすぎると精度が下がってい
るので、しっかりグラフ情報を使
えていることがわかる
所感
22
● GCNの威力は凄い
● 普通の分類に比べたら以前かなり低い精度
○ (モデルが勝手に賢くggってくれないかな)
● 辞書に乗ってないようなものには GCN使えないし、
逆にグラフの知識で embeddingを修正すればいい
んじゃないのかと個人的に思った。
https://www.slideshare.net/ren4yu/ss-84282514

More Related Content

PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
[DL輪読会]逆強化学習とGANs
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]逆強化学習とGANs
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
トピックモデルの評価指標 Perplexity とは何なのか?

What's hot (20)

PPTX
深層学習の数理
PDF
グラフニューラルネットワークとグラフ組合せ問題
PDF
Deeplearning輪読会
PDF
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
トピックモデルの基礎と応用
PDF
Transformerを用いたAutoEncoderの設計と実験
PDF
敵対的生成ネットワーク(GAN)
PDF
Graph Attention Network
PDF
CVPR2019読み会@関東CV
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
自己教師学習(Self-Supervised Learning)
PPTX
カルマンフィルタ入門
PDF
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
深層学習の数理
グラフニューラルネットワークとグラフ組合せ問題
Deeplearning輪読会
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
トピックモデルの基礎と応用
Transformerを用いたAutoEncoderの設計と実験
敵対的生成ネットワーク(GAN)
Graph Attention Network
CVPR2019読み会@関東CV
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
【論文紹介】How Powerful are Graph Neural Networks?
自己教師学習(Self-Supervised Learning)
カルマンフィルタ入門
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
【メタサーベイ】数式ドリブン教師あり学習
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Ad

Similar to [DL輪読会]Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs (CVPR 2018) (20)

PDF
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
PPTX
機械学習を民主化する取り組み
PDF
Feature Generationg Networks for Zero-Shot Learning 論文紹介
PDF
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PPTX
【論文LT資料】 Gait Recognition via Disentangled Representation Learning (CVPR2019)
PDF
Twitterユーザに対するゼロショットタグ付け
PDF
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
PPTX
[DL輪読会]A closer look at few shot classification
PPTX
A closer look at few shot classification
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PDF
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
PDF
Contrastive learning 20200607
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PPTX
Zero shot word sense disambiguation using sense definition embeddings
 
PDF
【ECCV 2018】Zero-Shot Deep Domain Adaptation
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PDF
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
機械学習を民主化する取り組み
Feature Generationg Networks for Zero-Shot Learning 論文紹介
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
【論文LT資料】 Gait Recognition via Disentangled Representation Learning (CVPR2019)
Twitterユーザに対するゼロショットタグ付け
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
[DL輪読会]A closer look at few shot classification
A closer look at few shot classification
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
Contrastive learning 20200607
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Zero shot word sense disambiguation using sense definition embeddings
 
【ECCV 2018】Zero-Shot Deep Domain Adaptation
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
Neural networks for Graph Data NeurIPS2018読み会@PFN
Semi supervised, weakly-supervised, unsupervised, and active learning
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

[DL輪読会]Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs (CVPR 2018)