Submit Search
Transformerを雰囲気で理解する
Download as PPTX, PDF
2 likes
5,677 views
A
AtsukiYamaguchi1
BERTを理解するためのTransformer雰囲気紹介スライドです.
Technology
Related topics:
Natural Language Processing
Read more
1 of 37
Download now
Downloaded 43 times
1
2
3
4
5
6
7
8
9
10
11
12
13
Most read
14
Most read
15
16
Most read
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
More Related Content
PDF
全力解説!Transformer
Arithmer Inc.
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
PDF
Transformer メタサーベイ
cvpaper. challenge
全力解説!Transformer
Arithmer Inc.
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
Attentionの基礎からTransformerの入門まで
AGIRobots
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
NLPにおけるAttention~Seq2Seq から BERTまで~
Takuya Ono
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
Transformer メタサーベイ
cvpaper. challenge
What's hot
(20)
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
PDF
【メタサーベイ】Neural Fields
cvpaper. challenge
PDF
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
PDF
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
近年のHierarchical Vision Transformer
Yusuke Uchida
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
実装レベルで学ぶVQVAE
ぱんいち すみもと
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【メタサーベイ】Neural Fields
cvpaper. challenge
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
Ad
Similar to Transformerを雰囲気で理解する
(20)
PDF
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
PDF
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
PDF
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
PDF
Non-autoregressive text generation
nlab_utokyo
PDF
第9回ACRiウェビナー_日立/島田様ご講演資料
直久 住川
PDF
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
PDF
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
PDF
Scrum alliance regional gathering tokyo 2013 pub
グロースエクスパートナーズ株式会社/Growth xPartners Incorporated.
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
PDF
Janog37 Pattern BoF
Miya Kohno
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
PPTX
プログラマ人生論
ymmt
PPTX
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
PDF
Extract and edit
禎晃 山崎
PDF
Spock's world
Takuma Watabiki
PDF
時系列解析の使い方 - TokyoWebMining #17
horihorio
PDF
リテラル文字列型までの道
Satoshi Sato
PDF
Web本文抽出 using crf
Shuyo Nakatani
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
Non-autoregressive text generation
nlab_utokyo
第9回ACRiウェビナー_日立/島田様ご講演資料
直久 住川
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
Scrum alliance regional gathering tokyo 2013 pub
グロースエクスパートナーズ株式会社/Growth xPartners Incorporated.
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
Janog37 Pattern BoF
Miya Kohno
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
プログラマ人生論
ymmt
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
Extract and edit
禎晃 山崎
Spock's world
Takuma Watabiki
時系列解析の使い方 - TokyoWebMining #17
horihorio
リテラル文字列型までの道
Satoshi Sato
Web本文抽出 using crf
Shuyo Nakatani
Ad
Transformerを雰囲気で理解する
1.
BERTを理解するための TRANSFORMER 雰囲気理解 ◎_gucciiiii 2019/05/23
2.
Transformerとは? • 系列変換モデルの一種 入力も出力も時系列データとなるモデル エンコーダ
+ デコーダの構造 Seq2Seqとかがその例 • 再帰や畳み込みを一切使わないモデル 並列処理ができ,学習の高速化を実現 • 話題のBERTで活用されているモデル 2
3.
論文情報 • 論文名: Attention
Is All You Need 要するに「必要なのはAttentionだけ」 • 著者: A. Vaswani et al. (Google Brain) • 出典: NIPS 2017 3
4.
本スライドの構成 雰囲気中速(爆速🙅♂️)理解を図るために, 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる という流れで見ていきます. 4
5.
本スライドの構成 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる 5
6.
1. NLPにおけるNNの 歴史的経緯 6
7.
1. NLPにおけるNNの歴史的経緯① • 系列変換モデルは再帰ニューラルネットに 依存してきた
再帰は並列計算を妨げる 対症療法の考案: Factorization Trick [1]やConditional Computation [2] 直接解決しているわけではない! 7 1. https://arxiv.org/abs/1703.10722 2. https://arxiv.org/abs/1511.06297 3. (image) https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/
8.
1. NLPにおけるNNの歴史的経緯② • 系列変換モデルではCNNも代替的に使われて きた
計算を並列化できるため 距離に応じた依存関係の計算コストがかかる ConvS2S: O(n), ByteNet: O(log n) 長文だと大域的な依存関係をつかみにくい! 8 * より広い文脈を考慮できれば,より広い単語間の関係性が見られるメリット
9.
1. NLPにおけるNNの歴史的経緯③ • 再帰系モデルは並列計算を妨げる •
畳み込み系は大域的な依存関係を計算する コストが高い 再帰も畳み込みを用いない,並列OK & 計 算コストが少なく済むモデルが欲しい 9
10.
本スライドの構成 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる 10
11.
2. ATTENTION 1. Attentionとは? 2.
Attentionのバリエーション 3. Self Attentionとは? 4. Attentionの利点・欠点 11
12.
2. Attention① • そもそもAttentionとは?
距離に関係なく依存関係をモデリングできる手法 系列変換モデルやエンコーダモデルにも適用される 注意機構とも呼ばれる 12 「どの単語にどの程度注意を払うべきか?」 Image: https://www.quora.com/How-does-an-attention- mechanism-work-in-deep-learning
13.
2. Attention② • Attentionの重み計算方法による分類 1.
Additive Attention(加法注意) 2. Dot-Product Attention(内積注意) 13 重みつき 線形和 * 図ではhについてtではなくt-1が参照さ れている
14.
2. Attention③ • Attentionの重み計算方法による分類 14 ここの求め方! •
内積注意 「時刻tのデコーダの隠れ 層の状態と,位置sでのエ ンコーダの隠れ層の状態」 との内積 • 加法注意 隠れ層を1層設けて計算 が となるパ ターンが2つくらいある *Attentionの重み計算手法は色々とありすぎるので,深く考える必要なし?
15.
2. Attention④ • Self
Attention (自己注意) エンコーダモデ ルで使われる特徴 量抽出機構 計算方法は普通 のAttentionとほぼ 同じ 15 image: https://arxiv.org/abs/1703.03130
16.
2. Attention⑤ • Key-Value
Attention 隠れ層を「Key + Value」に分けて考える モデルの表現力が向上 16 * 計算上は,key=valueとして扱うことが多い Image: https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-cf81bf32c73d
17.
2. Attention⑥ • Attentionの利点
位置に関わらず依存関係をO(1)で捉えられる LSTMやGRU等は長期記憶に弱い • Attentionの欠点 スコアの重み計算コストが通常O(n^2)以上になる Attentionはあくまでもモデルの補助的な役割 CNNベースのモデルも計算量の問題あり Attentionだけでモデルを作れば良いのでは? 17
18.
本スライドの構成 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる 18
19.
3. TRANSFORMERの概要 モデルの概要と BERTでの使われ方について 19
20.
3. Transformerの概要① • Seq2Seqと同じ枠組み •
スタック型自己注意 + 位 置ごとのFFNからなる BERTはエンコーダ部分 を活用している 本発表ではデコーダ部分 は無視 20 Image: https://arxiv.org/abs/1706.03762 N=6
21.
3. Transformerの概要② • エンコーダ部は以下からなる 1.
入力埋め込み 2. 位置エンコーディング 3. Multi-Head Attention 4. 残差接続の加算 & 層正規化 5. 位置ごとのFFN 6. 残差接続の加算 & 層正規化 21
22.
3. Transformerの概要② • エンコーダ部は以下からなる 1.
入力埋め込み 2. 位置エンコーディング 3. Multi-Head Attention 4. 残差接続の加算 & 層正規化 5. 位置ごとのFFN 6. 残差接続の加算 & 層正規化 22
23.
本スライドの構成 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる 23
24.
4. TRANSFORMERのキモ 1. スケール化内積注意 2.
Multi-Head Attention 3. 位置エンコーディング 24
25.
4. Transformerのキモ① • スケール化内積注意
隠れ層の次元が大きくなると,内積が大きく なる 勾配が小さくなり,学習が進まない スコアを で除算してあげることで解決 25
26.
4. Transformerのキモ② • Multi-Head
Attention Attentionを複数に分割して計 算 CNNでチャンネル数を増やす ノリと同じ? モデルの表現力が増す 26 Image: https://arxiv.org/abs/1706.03762
27.
4. Transformerのキモ③ • 位置エンコー ディング
Transformer単体 では時系列を考慮 できない 畳み込みや再帰 を使っていないた め 正弦波を入力の 埋め込みベクトル に足し合わせるこ とで解決! 27 モデルの次元: d_model 入力トークンの位置
28.
3. Transformerのキモ④ • エンコーダ部の流れを再確認 1.
入力埋め込み 2. 位置エンコーディング 3. Multi-Head Attention 4. 残差接続の加算 & 層正規化 5. 位置ごとのFFN 6. 残差接続の加算 & 層正規化 28
29.
本スライドの構成 1. NLPにおけるNNの歴史的経緯を知る 2. Attentionについて知る 3.
Transformerのモデル概要を知る 4. Transformerのキモを知る 5. 実験結果を見てみる 29
30.
5. 実験結果 1. 計算コスト比較 2.
翻訳性能比較 30
31.
5. 実験結果① 計算コスト比較 •
Self Attentionが優れている: n < dのとき 31 層あたり計算量 逐次処理を最小限にする 並列可能な計算量 依存関係の最大経路長計算コスト RecurrentとConvの算出方法がいまいちわからん?(誰か教えて)
32.
5. 実験結果② 翻訳性能比較 •
BLEUスコア 機械翻訳の自動評価指標.高いほどよい. Transformerは計算コストが小さい上に,高い性 能を出せている. 32
33.
まとめ 33
34.
まとめ • TransformerはAttention +
もろもろで作ら れた系列変換モデル Positional Encoding 位置ごとのフィードフォワード • 計算量が少ない・高性能なモデル • BERTはエンコーダ部分を活用している 34
35.
付録: Position-wise FFN •
位置ごとに全結合層に自己注意の出力ベクトルを 渡す • 単に特徴量を抽出 & 磨くため? 35 image: https://jalammar.github.io/illustrated-transformer/
36.
付録:層正規化 36 • 層正規化は「チャンネル方向」に正規化処 理を行う バッチ正規化は,「バッチ方向」に正規 化処理を行う image:
https://arxiv.org/abs/1803.08494
37.
付録: BLEUスコア • Bilingual
Evaluation Understudyの略 • スコアが高いほど自然な翻訳 37 • BP: brevity Penalty 翻訳文が短文のとき, その文についてペナル ティを課す • Nグラム精度 翻訳文とコーパスの参 照文がどれだけ一致し ているか
Editor's Notes
#9:
距離でスケールしてしまう
#15:
わかりやすいAttention written in PyTorch: https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb 詳しくは勉強会で後々やると思います
Download