SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
“Attention is not Explanation (NAACL2019)”
Yoshifumi Seki, Gunosy
http://deeplearning.jp/
書誌情報
● タイトル: Attention is not Explanation
● 著者:Sarthank Jain, Byron C. Wallace
○ Northeastern University
● 投稿先
○ NAACL2019
● 選定理由
○ Twitter等で話題になっていた
○ Attentionの結果がExplanationだと解釈して利用するシステムを研究開発しており、クリティカルだっ
た
2
大まかな概要
● 言語処理タスクにおいてAttentionの重みは、モデルの説明性と関連すると言われて
いるが明確な証明はない
● 3つのNLPタスクでAttentionを意味を検証してみる
● Gradient、Leave-One-Outで相関をみた
○ ぜんぜん相関してないから、あかんのでは?
● 異なるAttentionをあててみた
○ 並び替える -> 結果があまり変わらない
○ Attentionを大きく変えつつ、結果をあまり変えないようにAdversarial Attentionしてみる -> できた!
● AttentionのHeatmapは解釈性として使うのはほとんど意味ないのでは?
3
4
モデル: Bi-RNN
● input x in R^{T × |V| }
○ composed one hot encoded word each position
● x_e in R^{T × d}
○ embedding matrix Eによる埋め込み(次元d)
● h = Enc(x_e) in R^{T × m}
○ 隠れ層
● y = σ(θ, h_α) in R^|y|
○ h_α = Σ α_t h_t
5
タスクとデータセット
6
AttentionとFeature Importanceの相関
● AttentionとGradientの順序をKendall距離で比較
○ Kendall距離: 2つのリストの不一致なものの数
● Leave one out => 単語を系列から覗いたときの精度を比較する
○
7
結果=> 相関係数低め
8
結果 => 分布全体、これでも低いことがわかる
9
疑問点
● AttentionってSoftmaxかかっているから、全部の位置関係見るKendall距離ってどう
なの?
○ 小さいところのごちゃごちゃした順番の違いに過剰反応しそう
● Averageの相関係数高いの当たり前だよね?MLPのWeightだから実質一緒だし
○ averageはaxivの[v1]にはない => つまり投稿バージョンにはない
■ 多分査読で、相関係数をなにかと比較すべきみたいなコメントにより追加された?
○ Attentionの相関係数が何と比べて低いのかという議論は不十分
● LLO、RNNでやったら順序情報なくなるからAttentionの意味めっちゃ変わるので
は、、、?
● 例えば一番高いのだけ一致しているとか見てみるといいのかな
○ コード公開されているので、時間見つけてやってみたい
10
Counterfactual Attention Weight
● Attention Permutation
● Adversarial Attention
11
Permuting Attention Weight
● Attentionをランダムにシャッフルして結果を求める
○ hは変えない
● 出力結果の差のMedianを求める
12
結果 => Attentionによって結果は大きく変化しない
13
Adversarial Attention
● 結果が大きく変化しないようにAttentionを変化させる
14
15
16
17
18
Discussion and Conclusion
● AttentionのHeatmapがモデルの解釈性に与える意味はあまりないと言える
● Limitation
○ Gradientが解釈性として正しいと主張するつもりはない
○ 今回の実験は一部のAttention機構のみが対象である。次はSeq2seqをやるつもり
19
お気持ち
● 言わんとすることはわからんでもないけど主張が強いのでは?と思った
○ そもそもAttentionはそこまで結果に強い影響与えないのはよく言われていて、補正としての意味合い
が強い
○ 補正なんだから、Gradientとの相関強くないのはそうだし、相関のとり方もうーん
○ permutationは、hを固定してAttentionを変化させても結果があまり変わらないということだけど、これ
は解釈性ではなく、Attentionがタスクの精度に与える影響の議論
■ タスク依存、もしくは小さな改善という話なのでは
○ Adversarialはhとθ固定してそのように学習してるんだから、都合よく影響少ないとこ探せばいいよね、
という感じ。
■ 0.69てイプシロンとして適切なの?
■ そもそも学習してるけど、どんぐらいAttention変えられたの?
● とはいえ、簡単に解釈性とかいうのはよくないのはそうだねという気持ち
20

More Related Content

PDF
最適輸送の計算アルゴリズムの研究動向
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
BlackBox モデルの説明性・解釈性技術の実装
PDF
Vision and Language(メタサーベイ )
最適輸送の計算アルゴリズムの研究動向
【DL輪読会】Scaling Laws for Neural Language Models
【メタサーベイ】基盤モデル / Foundation Models
StyleGAN解説 CVPR2019読み会@DeNA
【メタサーベイ】数式ドリブン教師あり学習
How Much Position Information Do Convolutional Neural Networks Encode?
BlackBox モデルの説明性・解釈性技術の実装
Vision and Language(メタサーベイ )

What's hot (20)

PDF
MLP-Mixer: An all-MLP Architecture for Vision
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PPTX
backbone としての timm 入門
PDF
Graph Attention Network
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
PDF
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
PDF
cvpaper.challenge 研究効率化 Tips
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
機械学習モデルの判断根拠の説明
PDF
深層生成モデルを用いたマルチモーダル学習
PDF
方策勾配型強化学習の基礎と応用
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
PDF
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PDF
工学系大学4年生のための論文の読み方
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
[DL輪読会]When Does Label Smoothing Help?
MLP-Mixer: An all-MLP Architecture for Vision
【論文紹介】How Powerful are Graph Neural Networks?
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
backbone としての timm 入門
Graph Attention Network
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
cvpaper.challenge 研究効率化 Tips
三次元点群を取り扱うニューラルネットワークのサーベイ
Transformerを多層にする際の勾配消失問題と解決法について
機械学習モデルの判断根拠の説明
深層生成モデルを用いたマルチモーダル学習
方策勾配型強化学習の基礎と応用
NLPにおけるAttention~Seq2Seq から BERTまで~
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
機械学習モデルの判断根拠の説明(Ver.2)
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
工学系大学4年生のための論文の読み方
【DL輪読会】ViT + Self Supervised Learningまとめ
[DL輪読会]When Does Label Smoothing Help?
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

[DL輪読会]Attention is not Explanation (NAACL2019)