SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
Makoto Kawano, Keio University
書誌情報
●タイトル:BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding
●著者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina
Toutanova
●投稿日:2018/10/11
●選定理由:Twitterでバズってた
‣ NLP界隈のImageNet Pre-trainedモデル(VGGやResNet)的存在になるか
もらしい
‣ Transformerって良くわかってない
2
アウトライン
1.背景
1. Feature-basedアプローチ
2. Fine-tuningアプローチ
2.BERT
1. 入力表現について
2. 事前学習タスク
3.実験
1. 11種類のNLPタスク
2. 提案手法の有効性
3
アウトライン
1.背景
1. Feature-basedアプローチ
2. Fine-tuningアプローチ
2.BERT
1. 入力表現について
2. 事前学習タスク
3.実験
1. 11種類のNLPタスク
2. 提案手法の有効性
4
背景
●様々な自然言語処理タスクにおいて,事前学習は有効
‣ 文レベルのタスク:文同士の関係性が大事
• 自然言語推論
• 言い換え
‣ トークンレベル:モデルはトークンレベルで良い出力が求められる
• 名付けられたエンティティ認識
• Q&A
●事前学習には二種類のアプローチがある
5
Feature-basedアプローチ
●様々なNLPタスクの素性として利用される
‣ N-gramモデル[Brown et al., 1992]やWord2Vec[Mikolov et al., 2013]
• 文や段落レベルの分散表現に拡張されたものある
‣ タスクに合わせて学習させると性能向上[Turian et al., 2010]
●最近では,ELMo[Peters et al., 2017, 2018]が話題に
‣ Context-Sensitiveな素性を獲得
‣ 複数のNLPタスクでSOTA
• QA,極性分類,エンティティ認識
‣ 既存の素性にConcatすると精度UP
6
ELMo [Peters et al., 2017, 2018]
●BiLSTMをL層積んで,各隠れ層を加重平均する
●獲得したELMoをNLPタスクの入力および隠れ層に連結するだけ
7
or
Transformer[Ł.Kaiser et al., arXiv,2017]
●有名なXXX is All You Needの先駆者(今回はAttention)
●RNN構造ではなく,Attention機構のみで構成
●Encoder-Decoderで構成されている
‣ 左側:Transformer-Encoder
‣ 右側:Transformer-Decoder
●Transformerって結局?
‣ Multi-Head AttentionとPosition-wise FFNの集合体
(より詳細は@_Ryobotさんのブログhttp://deeplearning.hatenablog.com/entry/transformerでお願いします)
8
Fine-tuningアプローチ
●言語モデルの目的関数で事前学習する
‣ そのあと教師ありタスクでfine-tuningする
‣ 少ないパラメータで学習することが可能(らしい,,,)
●最近では,OpenAI GPT[Radford et al. 2018]
‣ GLUEスコアでSOTA
‣ TransformerのDecoderだけを利用[Liu et al., 2018]
• 単方向のモデル
9
アウトライン
1.背景
1. Feature-basedアプローチ
2. Fine-tuningアプローチ
2.BERT
1. 入力表現について
2. 事前学習タスク
3.実験
1. 11種類のNLPタスク
2. 提案手法の有効性
10
BERT
●双方向Transformer
‣ 実装:tensor2tensor
‣ リークを防ぐマスクがない
‣ 二種類のモデルを用意
• BERTBASE:GPTと比較用
• BERTLARGE:Googleの本気用
●ちなみに
‣ 双方向Transformer=Encoder
‣ 単方向Transformer=Decoder(生成に使えるかららしい)
系列長=バッチと同じ扱いらしい
→一つの系列=系列長x特徴量
11
入力表現:一つの文章or文章のペア(QAなど)
●三種類の埋め込みの合計(sum≠concat)
‣ トークン埋め込み:30000種類のWordPiece埋め込み
• 分割されたところは「##」で表現
‣ 単語位置埋め込み:系列長1〜512個の表現
• 位置0には,[CLS]トークンを追加→系列分類問題ではこの埋め込みを利用
‣ 文区別埋め込み:QAなどの場合の話
• 一文の時はAのみ
12
タスク1:Masked Language Model
●双方向モデルは,left-to-rightモデルや双方向の連結より強力
‣ 一般的な条件付き言語モデルでは学習できない
• 特定の単語予想:p(xn | x1, x2, …, xn-1)
• 双方向だと,間接的に複数層の文脈から「自身」をみてしまう
‣ 次の単語ではなく,ランダムで抜かれた単語を予測するモデルにする
• Denoising Autoencoderに似ているが,全体を予測するわけではない
• ただし,二つの欠点が生じてしまう
13
タスク1:Masked Language Model
●pre-traininig時とfine-tuning時で違いが生じてしまう
‣ Fine-tuningの時に[MASK]トークンは見ない
‣ 常に置換するのではなく,系列のうち15%の単語を置き換える
• 例:my dog is hairy -> hairyが選択される
• 80%:[MASK]トークンに置換
• my dog is hairy -> my dog is [MASK]
• 10%:ランダムな別の単語に置換
• my dog is hairy -> my dog is apple
• 10%:置き換えない(モデルに実際に観測される言葉表現に偏らせる)
• my dog is hairy -> my dog is hairy
14
タスク1:Masked Language Model
●15%しか予測させないため,学習に時間がかかってしまう
‣ 実験で,MLMが全ての単語を予測するleft-to-rightモデルより時間が
かかることを示す
‣ 「時間はかかるけど,それ以上に精度改善するからいいとする」
→🤔🤔🤔🤔🤔
15
タスク2:Next Sentence Prediction
●QAや自然言語推論(NLI):2つの文章の関係性理解が大事
‣ 言語モデルでは,捉えきれない
‣ 二値のnext sentence predictionタスクを解かせる
• 文章AとBが与えられた時に,50%で別のBに置き換える
‣ 解かせると,97%-98%の精度
• QAとNLIで非常に有効であることを実験では示す
16
Pre-training手続き
● データセット:BooksCorpus(800M)+English Wikipedia(2500M)
‣ Billion Word Benchmarkのような文より,ドキュメントレベルが大事
● 系列長が合計512以下になるように2つの文章をサンプリング
‣ Next sentence predictionのため,AとBの組み合わせは50%で変わる
‣ MLMのためWordPieceトークンに分けられたあと,マスクされる
● バッチサイズ:256(=256文x512系列長=128000単語/バッチ)
‣ 1,000,000ステップ=33億の単語を40エポック学習
● Adam:LR=1e-4, L2weight_decay=0.01
● Dropout: 0.1
● Gelu活性化関数を利用
BERTBASE:4台x4TPUx4日x$4.5
BERTLARGE:16台x4TPUx4日x$4.5
🤔🤔🤔
17
Fine-tuning手続き
●系列レベルの分類問題
‣ 固定長の分散表現C∈RHを獲得するため,最初の[CLS]トークンを使う
‣ 新しく追加する層は分類層W∈RKxH+ソフトマックス層のみ
‣ BERTも一緒に学習させる
●スパンorトークンレベルの分類問題
‣ 各タスクの仕様に合わせて学習させる
●バッチサイズ,学習率,エポック数のみ変更
‣ ドロップアウト:常に0.1
‣ 10万以上のラベル付きデータセットの場合はそこまで気にしなくていい
‣ Fine-tuningは高速でできるため,パラメータ探索すべき
18
Fine-tuning手続き
19
アウトライン
1.背景
1. Feature-basedアプローチ
2. Fine-tuningアプローチ
2.BERT
1. 入力表現について
2. 事前学習タスク
3.実験
1. 11種類のNLPタスク
2. 提案手法の有効性
20
実験:8個のNLPベンチマークタスク
●General Language Understainding Evaluationベンチマーク
‣ 訓練/検証/テストに分割済
‣ 公平な評価が可能
• テストはラベルなしで公開
@_Ryobotさんのツイート
https://twitter.com/_Ryobot/status/1050925881894400000
から拝借(非常に助かりました) 21
実験:QA
●Fine-tuning時
‣ 答えのStart/Endベクトルを学習
22
実験:Named Entity Recognition
●入力された単語のラベルを当てる
‣ Person, Organization, Location, Miscellaneous, Other(割り当てなし)
‣ 5クラス分類問題用の層を追加するのみ
23
効果検証:事前学習タスク
●No NSP:MLMを学習させるだけ
●LTR&No NSP:MLMもなし=left-to-right言語モデルで学習
‣ Pre-training時:マスクなし, fine-tuning時:左からの情報のみ
• 別のパターンも試したけど,精度下がりすぎて意味がなかった
‣ OpenAI GPTと比較することが可能
• データセットの違い:GPTはBooksCorpusのみ
• 入力表現の違い:GPTは[CLS][SEP]はfine-tuningのみ&文区別表現なし
• Fine-tuning戦略:バッチに含まれる単語やパラメータ探索なし
24
効果検証:事前学習タスク
●LTRはMLMに比べて全然ダメ
‣ QAは,右側の文脈も大事であることがわかる
‣ MRPCは,原因わからないが何度やってもダメだった
‣ BiLSTM追加したらQAは改善したが,それ以外はだめ
●LTR+RTLについて
‣ コストが倍
‣ QAでRTLはおかしい
‣ 双方向の方が左と右の文脈を
選択することができる
25
効果検証:モデルのサイズ
●データセットが小さくても大きい方が精度高い
‣ 翻訳や言語モデルなどの巨大なデータセットを使うタスクでは当たり前
26
効果検証:学習回数
●Q:BERTの学習に,128,000単語/バッチx1,000,000回必要か?
‣ A:Yes.50万回より100万回の方が1%も精度高い🤔
●Q:LTRよりもMLMの方が収束まで時間かかる?
‣ A:Yes.時間はかかるけど,それ以上に精度改善するからいい
→🤔🤔🤔🤔🤔
27
効果検証:feature-basedアプローチ
●Feature-basedアプローチも有効なのではないか?
‣ 全てのNLPタスクをTransformer Encoderでは解けない
‣ 計算量コストも,一度計算すれば完了だから使いやすい
●Named Entity RecognitionタスクでPre-training
‣ BERTのパラメータは固定して,2層の768-BiLSTM+分類層追加
●結果的には最後4つのTransformerの出力を連結
‣ BERTは,feature-based,fine-tuningアプローチ
どっちでも行けることがわかる
28
まとめ
●双方向言語モデルが大事
●BERTを使えば,タスクSpecificなアーキテクチャいらない
●10月末にPre-trainedモデルが公開されるのでDLしましょう
‣ そして様々なNLPタスクにおけるSOTA戦争を!
●次のキャラは何がくる?
29

More Related Content

PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
Deeplearning輪読会
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
最適化超入門
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deeplearning輪読会
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
最適化超入門
【DL輪読会】Can Neural Network Memorization Be Localized?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展

What's hot (20)

PDF
POMDP下での強化学習の基礎と応用
PDF
[DL輪読会]Attention Is All You Need
PDF
【メタサーベイ】Neural Fields
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PPTX
[DL輪読会]When Does Label Smoothing Help?
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
Attentionの基礎からTransformerの入門まで
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
全力解説!Transformer
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
POMDP下での強化学習の基礎と応用
[DL輪読会]Attention Is All You Need
【メタサーベイ】Neural Fields
Transformerを多層にする際の勾配消失問題と解決法について
物体検出の歴史(R-CNNからSSD・YOLOまで)
[DL輪読会]When Does Label Smoothing Help?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]相互情報量最大化による表現学習
Attentionの基礎からTransformerの入門まで
【メタサーベイ】基盤モデル / Foundation Models
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
全力解説!Transformer
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Neural networks for Graph Data NeurIPS2018読み会@PFN
Ad

Similar to [DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (20)

PPT
[FUNAI輪講] BERT
PDF
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
PDF
BERT+XLNet+RoBERTa
PDF
自然言語処理 BERTに関する論文紹介とまとめ
PDF
Transformer メタサーベイ
PDF
Distilling Knowledge Learned in BERT for Text Generation
PPTX
Bert(transformer,attention)
PPTX
200122 bert slideshare
PDF
BERTに関して
PPTX
Transformerを雰囲気で理解する
PDF
第 11 回 最先端 NLP 勉強会
PPTX
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
PPTX
Improving Language Understanding by Generative Pre-Training
PDF
[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...
PDF
BERTology のススメ
PDF
実装ディープラーニング
PDF
論文紹介:A Survey of Vision-Language Pre-Trained Models
PDF
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
PDF
transformer解説~Chat-GPTの源流~
PDF
Derivative models from BERT
[FUNAI輪講] BERT
[DL Hacks]BERT: Pre-training of Deep Bidirectional Transformers for Language ...
BERT+XLNet+RoBERTa
自然言語処理 BERTに関する論文紹介とまとめ
Transformer メタサーベイ
Distilling Knowledge Learned in BERT for Text Generation
Bert(transformer,attention)
200122 bert slideshare
BERTに関して
Transformerを雰囲気で理解する
第 11 回 最先端 NLP 勉強会
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
Improving Language Understanding by Generative Pre-Training
[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...
BERTology のススメ
実装ディープラーニング
論文紹介:A Survey of Vision-Language Pre-Trained Models
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
transformer解説~Chat-GPTの源流~
Derivative models from BERT
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding