SlideShare a Scribd company logo
BERTを理解するための
TRANSFORMER 雰囲気理解
◎_gucciiiii
2019/05/23
Transformerとは?
• 系列変換モデルの一種
入力も出力も時系列データとなるモデル
 エンコーダ + デコーダの構造
 Seq2Seqとかがその例
• 再帰や畳み込みを一切使わないモデル
 並列処理ができ,学習の高速化を実現
• 話題のBERTで活用されているモデル
2
論文情報
• 論文名: Attention Is All You Need
 要するに「必要なのはAttentionだけ」
• 著者: A. Vaswani et al. (Google Brain)
• 出典: NIPS 2017
3
本スライドの構成
雰囲気中速(爆速🙅♂️)理解を図るために,
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
という流れで見ていきます.
4
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
5
1. NLPにおけるNNの
歴史的経緯
6
1. NLPにおけるNNの歴史的経緯①
• 系列変換モデルは再帰ニューラルネットに
依存してきた
 再帰は並列計算を妨げる
 対症療法の考案:
 Factorization Trick [1]やConditional Computation [2]
直接解決しているわけではない!
7
1. https://arxiv.org/abs/1703.10722
2. https://arxiv.org/abs/1511.06297
3. (image) https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/
1. NLPにおけるNNの歴史的経緯②
• 系列変換モデルではCNNも代替的に使われて
きた
 計算を並列化できるため
 距離に応じた依存関係の計算コストがかかる
 ConvS2S: O(n), ByteNet: O(log n)
長文だと大域的な依存関係をつかみにくい!
8
* より広い文脈を考慮できれば,より広い単語間の関係性が見られるメリット
1. NLPにおけるNNの歴史的経緯③
• 再帰系モデルは並列計算を妨げる
• 畳み込み系は大域的な依存関係を計算する
コストが高い
 再帰も畳み込みを用いない,並列OK & 計
算コストが少なく済むモデルが欲しい
9
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
10
2. ATTENTION
1. Attentionとは?
2. Attentionのバリエーション
3. Self Attentionとは?
4. Attentionの利点・欠点
11
2. Attention①
• そもそもAttentionとは?
 距離に関係なく依存関係をモデリングできる手法
 系列変換モデルやエンコーダモデルにも適用される
 注意機構とも呼ばれる
12
「どの単語にどの程度注意を払うべきか?」
Image: https://www.quora.com/How-does-an-attention-
mechanism-work-in-deep-learning
2. Attention②
• Attentionの重み計算方法による分類
1. Additive Attention(加法注意)
2. Dot-Product Attention(内積注意)
13
重みつき
線形和
* 図ではhについてtではなくt-1が参照さ
れている
2. Attention③
• Attentionの重み計算方法による分類
14
ここの求め方!
• 内積注意
 「時刻tのデコーダの隠れ
層の状態と,位置sでのエ
ンコーダの隠れ層の状態」
との内積
• 加法注意
 隠れ層を1層設けて計算
 が となるパ
ターンが2つくらいある
*Attentionの重み計算手法は色々とありすぎるので,深く考える必要なし?
2. Attention④
• Self Attention
(自己注意)
 エンコーダモデ
ルで使われる特徴
量抽出機構
 計算方法は普通
のAttentionとほぼ
同じ
15
image: https://arxiv.org/abs/1703.03130
2. Attention⑤
• Key-Value Attention
 隠れ層を「Key + Value」に分けて考える
 モデルの表現力が向上
16
* 計算上は,key=valueとして扱うことが多い
Image: https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-cf81bf32c73d
2. Attention⑥
• Attentionの利点
 位置に関わらず依存関係をO(1)で捉えられる
 LSTMやGRU等は長期記憶に弱い
• Attentionの欠点
 スコアの重み計算コストが通常O(n^2)以上になる
 Attentionはあくまでもモデルの補助的な役割
 CNNベースのモデルも計算量の問題あり
Attentionだけでモデルを作れば良いのでは?
17
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
18
3. TRANSFORMERの概要
モデルの概要と
BERTでの使われ方について
19
3. Transformerの概要①
• Seq2Seqと同じ枠組み
• スタック型自己注意 + 位
置ごとのFFNからなる
 BERTはエンコーダ部分
を活用している
 本発表ではデコーダ部分
は無視
20
Image: https://arxiv.org/abs/1706.03762
N=6
3. Transformerの概要②
• エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
21
3. Transformerの概要②
• エンコーダ部は以下からなる
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化
5. 位置ごとのFFN
6. 残差接続の加算 & 層正規化
22
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
23
4. TRANSFORMERのキモ
1. スケール化内積注意
2. Multi-Head Attention
3. 位置エンコーディング
24
4. Transformerのキモ①
• スケール化内積注意
 隠れ層の次元が大きくなると,内積が大きく
なる
 勾配が小さくなり,学習が進まない
 スコアを で除算してあげることで解決
25
4. Transformerのキモ②
• Multi-Head Attention
 Attentionを複数に分割して計
算
 CNNでチャンネル数を増やす
ノリと同じ?
 モデルの表現力が増す
26
Image: https://arxiv.org/abs/1706.03762
4. Transformerのキモ③
• 位置エンコー
ディング
 Transformer単体
では時系列を考慮
できない
 畳み込みや再帰
を使っていないた
め
 正弦波を入力の
埋め込みベクトル
に足し合わせるこ
とで解決!
27
モデルの次元: d_model
入力トークンの位置
3. Transformerのキモ④
• エンコーダ部の流れを再確認
1. 入力埋め込み
2. 位置エンコーディング
3. Multi-Head Attention
4. 残差接続の加算 & 層正規化

5. 位置ごとのFFN

6. 残差接続の加算 & 層正規化
28
本スライドの構成
1. NLPにおけるNNの歴史的経緯を知る
2. Attentionについて知る
3. Transformerのモデル概要を知る
4. Transformerのキモを知る
5. 実験結果を見てみる
29
5. 実験結果
1. 計算コスト比較
2. 翻訳性能比較
30
5. 実験結果① 計算コスト比較
• Self Attentionが優れている: n < dのとき
31
層あたり計算量
逐次処理を最小限にする
並列可能な計算量
依存関係の最大経路長計算コスト
RecurrentとConvの算出方法がいまいちわからん?(誰か教えて)
5. 実験結果② 翻訳性能比較
• BLEUスコア
 機械翻訳の自動評価指標.高いほどよい.
 Transformerは計算コストが小さい上に,高い性
能を出せている.
32
まとめ
33
まとめ
• TransformerはAttention + もろもろで作ら
れた系列変換モデル
 Positional Encoding
 位置ごとのフィードフォワード
• 計算量が少ない・高性能なモデル
• BERTはエンコーダ部分を活用している
34
付録: Position-wise FFN
• 位置ごとに全結合層に自己注意の出力ベクトルを
渡す
• 単に特徴量を抽出 & 磨くため?
35
image: https://jalammar.github.io/illustrated-transformer/
付録:層正規化
36
• 層正規化は「チャンネル方向」に正規化処
理を行う
 バッチ正規化は,「バッチ方向」に正規
化処理を行う
image: https://arxiv.org/abs/1803.08494
付録: BLEUスコア
• Bilingual Evaluation Understudyの略
• スコアが高いほど自然な翻訳
37
• BP: brevity Penalty
翻訳文が短文のとき,
その文についてペナル
ティを課す
• Nグラム精度
翻訳文とコーパスの参
照文がどれだけ一致し
ているか

More Related Content

PDF
全力解説!Transformer
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
Attentionの基礎からTransformerの入門まで
PDF
ChatGPT 人間のフィードバックから強化学習した対話AI
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
Transformer メタサーベイ
全力解説!Transformer
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Attentionの基礎からTransformerの入門まで
ChatGPT 人間のフィードバックから強化学習した対話AI
NLPにおけるAttention~Seq2Seq から BERTまで~
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Transformer メタサーベイ

What's hot (20)

PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
近年のHierarchical Vision Transformer
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
実装レベルで学ぶVQVAE
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
Curriculum Learning (関東CV勉強会)
PDF
【メタサーベイ】Neural Fields
PDF
POMDP下での強化学習の基礎と応用
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
自己教師学習(Self-Supervised Learning)
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PDF
12. Diffusion Model の数学的基礎.pdf
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Pay Attention to MLPs (gMLP)
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
近年のHierarchical Vision Transformer
Transformerを多層にする際の勾配消失問題と解決法について
実装レベルで学ぶVQVAE
【メタサーベイ】Vision and Language のトップ研究室/研究者
[DL輪読会]相互情報量最大化による表現学習
【DL輪読会】ViT + Self Supervised Learningまとめ
Curriculum Learning (関東CV勉強会)
【メタサーベイ】Neural Fields
POMDP下での強化学習の基礎と応用
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
自己教師学習(Self-Supervised Learning)
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
12. Diffusion Model の数学的基礎.pdf
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Ad

Similar to Transformerを雰囲気で理解する (20)

PDF
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
PDF
NLP若手の回 ACL2012参加報告
PDF
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
PDF
Non-autoregressive text generation
PDF
第9回ACRiウェビナー_日立/島田様ご講演資料
PDF
2021 10-07 kdd2021読み会 uc phrase
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
論文紹介 Star-Transformer (NAACL 2019)
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
PDF
Janog37 Pattern BoF
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PPTX
プログラマ人生論
PPTX
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PDF
Extract and edit
PDF
Spock's world
PDF
時系列解析の使い方 - TokyoWebMining #17
PDF
リテラル文字列型までの道
PDF
Web本文抽出 using crf
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
NLP若手の回 ACL2012参加報告
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Non-autoregressive text generation
第9回ACRiウェビナー_日立/島田様ご講演資料
2021 10-07 kdd2021読み会 uc phrase
【メタサーベイ】基盤モデル / Foundation Models
論文紹介 Star-Transformer (NAACL 2019)
2020 03 05_mar_revenshtein_transformer_tmu_homma
Janog37 Pattern BoF
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
プログラマ人生論
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
Extract and edit
Spock's world
時系列解析の使い方 - TokyoWebMining #17
リテラル文字列型までの道
Web本文抽出 using crf
Ad

Transformerを雰囲気で理解する

Editor's Notes

  • #9: 距離でスケールしてしまう
  • #15: わかりやすいAttention written in PyTorch: https://github.com/spro/practical-pytorch/blob/master/seq2seq-translation/seq2seq-translation.ipynb 詳しくは勉強会で後々やると思います