SlideShare a Scribd company logo
Deconvolutional Paragraph
Representation Learning
Yizhe Zhang, Dinghan Shen, Guoyin Wang, Zhe Gan,
Ricardo Henao, Lawrence Carin
自己紹介
 Twitter/Github: ymym3412
 都内のIT企業で自然言語処理の研究開発
 社内NLP万事屋として生きる日々
おなじみSequence-to-Sequence
[Sustskever+, 2014]
[Thang+, 2015]
[Nallapati+, 2016]
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が 好きです
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が 好きです <EOS>
I
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が 好きです <EOS>
I
I
like
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が 好きです <EOS>
I
I
like
like
dogs
機械翻訳タスクを例に
入力文: 私は 犬が 好きです
出力文: I like dogs
私は 犬が 好きです <EOS>
I
I
like
like
dogs
dogs
<EOS>
Exposure bias
私は 犬が 好きです <EOS>
I
I
train
like
planes
dogs
<EOS>
• 学習時: Teacher forcing
• Decoderへの入力はground truth label
Cross-Entropyを計算
Exposure bias
• 推論時: previous token
• Decoderへの入力はt-1のDecoderの出力
私は 犬が 好きです <EOS>
I
I
like
like
dogs
dogs
<EOS>
学習時と推論時の差がExposure biasを引き起こす!
Exposure biasの対策
Scheduled Sampling [Bengio+, 2015]
ground truth labelを使うかprevious tokenを
使うかを確率的に決める
少しずつprevious tokenが選ばれるようにしていくことで
学習時と推論時のギャップを埋める
提案手法での対策
提案手法での対策
えっ?
Sequence-to-Sequence
モデル使わなければよくね?
提案手法での対策
えっ?
Sequence-to-Sequence
モデル使わなければよくね?
提案手法での対策
えっ?
Sequence-to-Sequence
モデル使わなければよくね?
提案モデル
ConvolutionによるEncoderとDeconvolution(Convolution transpose)によるDecoder
TextにおけるCNN
[Kim, 2014]Convolutional Neural Network for Sentence Classification
A Convolutional Neural Network for Modeling Sentences[Kalchbrenner, 2014]
• 単語数 * 分散表現の次元の行列
• チャネルは学習可能な分散表現のベクトルと
重みが固定された分散表現の2チャンネル
(提案手法では1チャネル)
• 最初の層は単語数 * 埋め込み次元
• Wide convolution + dynamic k-pooling
Reconstruction loss
再構成した文に対して、単語毎に対数尤度最大化で学習
X^のt番目の単語のベクトル v’の単語のベクトル
Supervised loss
or
classification
summarization
Encodeされた潜在表現をもとに
クラス分類 or テキスト要約で対数尤度最大化で学習
Loss function
 Reconstruction lossとsupervised lossのsemi-supervised
 Lossの割合をαで制御
 αはscheduled annealingで減衰させる
 Sigmoid annealing [Bowman+, 2015]
 Linear annealing [Yang+, 2017]
学習後半になるにつれ再構成誤差の割合が小さくなる
実験
 以下4タスクでLSTMベースのモデルなどと比較
 Paragraph reconstruction
 Char-level and word-level correction
 Semi-supervised sentence classification
 Semi-supervised sentence summarization
 検証モデル
 CNN-DCNN(提案手法)
 CNN-LSTM
 LSTM-LSTM など
Paragraph reconstruction
原文
復元文
• 文章を再構成できるだけの潜在表現を獲得できている
• 高いBLEUとROUGEスコア = 原文を高いPrecision/Recallで復元
• 右の例文を見ても、かなり忠実に元の文章を再現できている
Char-level and word-level correction
• 文字、単語レベルの誤りを訂正できるということは文の時制、三人称、単数形、
構文(要議論)といった情報を学習によって獲得できている
Semi-supervised sentence classification
Semi-supervised sentence summarization
• Dbpedia,Yelp P., Yahoo dataで◎
• 半教師あり学習のおかげでラベルデータが少ない時も精度が下がりにくい
• 要約タスクではRNNにROUGE-Lで負けている
• DCNNは遠いフレーズの関係性を捉えるのは得意だが局所で(文法的に)正しい文章を生成するのは苦手
PyTorchで実装した
• https://github.com/ymym3412/textcnn-conv-deconv-pytorch で公開中
Impression
 原文を高いBLEU/ROUGEで復元できるだけの潜在表現を獲得できて
いるのはとても面白い
 MLPやLSTMと組み合わせることで様々なタスクへ応用可能な汎用性
 獲得した潜在表現は分析の余地がありそう
 実装的な観点から言うとやはりCNN系は学習が早くていい
参考文献
 Deconvolutional Paragraph Representation Learning, https://arxiv.org/abs/1708.04729
 Sequence to Sequence Learning with Neural Networks, https://arxiv.org/abs/1409.3215
 Effective Approaches to Attention-based Neural Machine Translation,
https://arxiv.org/abs/1508.04025
 Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,
https://arxiv.org/abs/1602.06023
 Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks,
https://arxiv.org/abs/1506.03099
 Convolutional Neural Networks for Sentence Classification, https://arxiv.org/abs/1408.5882
 A Convolutional Neural Network for Modelling Sentences, https://arxiv.org/abs/1404.2188
 Generating Sentences from a Continuous Space, https://arxiv.org/abs/1511.06349
 Improved Variational Autoencoders for Text Modeling using Dilated Convolutions,
https://arxiv.org/abs/1702.08139

More Related Content

PPTX
[DL輪読会]A Surprisingly Effective Fix for Deep Latent Variable Modeling of Text
PDF
黒い目の大きな女の子:構文から意味へ
PDF
日本語かな漢字変換における識別モデルの適用とその考察
PDF
機械翻訳の今昔物語
PDF
Fast abstractive summarization with reinforce selected sentence rewriting
PPTX
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
PDF
最先端NLP勉強会2017_ACL17
PDF
Semantic_Matching_AAAI16_論文紹介
[DL輪読会]A Surprisingly Effective Fix for Deep Latent Variable Modeling of Text
黒い目の大きな女の子:構文から意味へ
日本語かな漢字変換における識別モデルの適用とその考察
機械翻訳の今昔物語
Fast abstractive summarization with reinforce selected sentence rewriting
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
最先端NLP勉強会2017_ACL17
Semantic_Matching_AAAI16_論文紹介

Similar to Deconvolutional paragraph representation learning (20)

PPTX
Paper: seq2seq 20190320
PDF
ニューラルネットワークを用いた自然言語処理
PDF
Extract and edit
PDF
Relation Classification via Convolutional Deep Neural Network (Zeng et al.)
PDF
Deep Learningの基礎と応用
PDF
Query and output generating words by querying distributed word representatio...
PDF
[DL輪読会]Convolutional Sequence to Sequence Learning
PDF
Non-autoregressive text generation
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
TensorFlow math ja 05 word2vec
PPTX
Icml読み会 deep speech2
PDF
STAIR Lab Seminar 202105
PDF
音声認識と深層学習
PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
PPTX
Variational Template Machine for Data-to-Text Generation
PPTX
Fast abstractive summarization with reinforce selected sentence rewriting
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
PDF
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
PDF
Supervised Learning of Universal Sentence Representations from Natural Langua...
PDF
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Paper: seq2seq 20190320
ニューラルネットワークを用いた自然言語処理
Extract and edit
Relation Classification via Convolutional Deep Neural Network (Zeng et al.)
Deep Learningの基礎と応用
Query and output generating words by querying distributed word representatio...
[DL輪読会]Convolutional Sequence to Sequence Learning
Non-autoregressive text generation
Abstractive Text Summarization @Retrieva seminar
TensorFlow math ja 05 word2vec
Icml読み会 deep speech2
STAIR Lab Seminar 202105
音声認識と深層学習
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Variational Template Machine for Data-to-Text Generation
Fast abstractive summarization with reinforce selected sentence rewriting
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Supervised Learning of Universal Sentence Representations from Natural Langua...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Ad

Deconvolutional paragraph representation learning