Submit Search
[DL輪読会]Attention is not Explanation (NAACL2019)
6 likes
2,021 views
Deep Learning JP
2019/04/12 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 20
Download now
Downloaded 12 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
More Related Content
PDF
最適輸送の計算アルゴリズムの研究動向
ohken
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
PDF
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
PDF
Vision and Language(メタサーベイ )
cvpaper. challenge
最適輸送の計算アルゴリズムの研究動向
ohken
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
Vision and Language(メタサーベイ )
cvpaper. challenge
What's hot
(20)
PDF
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
PPTX
backbone としての timm 入門
Takuji Tahara
PDF
Graph Attention Network
Takahiro Kubo
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
PDF
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
Deep Learning JP
PDF
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PDF
機械学習モデルの判断根拠の説明
Satoshi Hara
PDF
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
PDF
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
Takayuki Itoh
PDF
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
PDF
工学系大学4年生のための論文の読み方
ychtanaka
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
PPTX
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
backbone としての timm 入門
Takuji Tahara
Graph Attention Network
Takahiro Kubo
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
Deep Learning JP
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
機械学習モデルの判断根拠の説明
Satoshi Hara
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
方策勾配型強化学習の基礎と応用
Ryo Iwaki
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
Takayuki Itoh
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
工学系大学4年生のための論文の読み方
ychtanaka
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Ad
[DL輪読会]Attention is not Explanation (NAACL2019)
1.
DEEP LEARNING JP [DL
Papers] “Attention is not Explanation (NAACL2019)” Yoshifumi Seki, Gunosy http://deeplearning.jp/
2.
書誌情報 ● タイトル: Attention
is not Explanation ● 著者:Sarthank Jain, Byron C. Wallace ○ Northeastern University ● 投稿先 ○ NAACL2019 ● 選定理由 ○ Twitter等で話題になっていた ○ Attentionの結果がExplanationだと解釈して利用するシステムを研究開発しており、クリティカルだっ た 2
3.
大まかな概要 ● 言語処理タスクにおいてAttentionの重みは、モデルの説明性と関連すると言われて いるが明確な証明はない ● 3つのNLPタスクでAttentionを意味を検証してみる ●
Gradient、Leave-One-Outで相関をみた ○ ぜんぜん相関してないから、あかんのでは? ● 異なるAttentionをあててみた ○ 並び替える -> 結果があまり変わらない ○ Attentionを大きく変えつつ、結果をあまり変えないようにAdversarial Attentionしてみる -> できた! ● AttentionのHeatmapは解釈性として使うのはほとんど意味ないのでは? 3
4.
4
5.
モデル: Bi-RNN ● input
x in R^{T × |V| } ○ composed one hot encoded word each position ● x_e in R^{T × d} ○ embedding matrix Eによる埋め込み(次元d) ● h = Enc(x_e) in R^{T × m} ○ 隠れ層 ● y = σ(θ, h_α) in R^|y| ○ h_α = Σ α_t h_t 5
6.
タスクとデータセット 6
7.
AttentionとFeature Importanceの相関 ● AttentionとGradientの順序をKendall距離で比較 ○
Kendall距離: 2つのリストの不一致なものの数 ● Leave one out => 単語を系列から覗いたときの精度を比較する ○ 7
8.
結果=> 相関係数低め 8
9.
結果 => 分布全体、これでも低いことがわかる 9
10.
疑問点 ● AttentionってSoftmaxかかっているから、全部の位置関係見るKendall距離ってどう なの? ○ 小さいところのごちゃごちゃした順番の違いに過剰反応しそう ●
Averageの相関係数高いの当たり前だよね?MLPのWeightだから実質一緒だし ○ averageはaxivの[v1]にはない => つまり投稿バージョンにはない ■ 多分査読で、相関係数をなにかと比較すべきみたいなコメントにより追加された? ○ Attentionの相関係数が何と比べて低いのかという議論は不十分 ● LLO、RNNでやったら順序情報なくなるからAttentionの意味めっちゃ変わるので は、、、? ● 例えば一番高いのだけ一致しているとか見てみるといいのかな ○ コード公開されているので、時間見つけてやってみたい 10
11.
Counterfactual Attention Weight ●
Attention Permutation ● Adversarial Attention 11
12.
Permuting Attention Weight ●
Attentionをランダムにシャッフルして結果を求める ○ hは変えない ● 出力結果の差のMedianを求める 12
13.
結果 => Attentionによって結果は大きく変化しない 13
14.
Adversarial Attention ● 結果が大きく変化しないようにAttentionを変化させる 14
15.
15
16.
16
17.
17
18.
18
19.
Discussion and Conclusion ●
AttentionのHeatmapがモデルの解釈性に与える意味はあまりないと言える ● Limitation ○ Gradientが解釈性として正しいと主張するつもりはない ○ 今回の実験は一部のAttention機構のみが対象である。次はSeq2seqをやるつもり 19
20.
お気持ち ● 言わんとすることはわからんでもないけど主張が強いのでは?と思った ○ そもそもAttentionはそこまで結果に強い影響与えないのはよく言われていて、補正としての意味合い が強い ○
補正なんだから、Gradientとの相関強くないのはそうだし、相関のとり方もうーん ○ permutationは、hを固定してAttentionを変化させても結果があまり変わらないということだけど、これ は解釈性ではなく、Attentionがタスクの精度に与える影響の議論 ■ タスク依存、もしくは小さな改善という話なのでは ○ Adversarialはhとθ固定してそのように学習してるんだから、都合よく影響少ないとこ探せばいいよね、 という感じ。 ■ 0.69てイプシロンとして適切なの? ■ そもそも学習してるけど、どんぐらいAttention変えられたの? ● とはいえ、簡単に解釈性とかいうのはよくないのはそうだねという気持ち 20
Download