Recommended Overcoming Catastrophic Forgetting in Neural Networks読んだ
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
NIPS2015読み会: Ladder Networks
Attentionの基礎からTransformerの入門まで
Transformerを多層にする際の勾配消失問題と解決法について
Granger因果による時系列データの因果推定(因果フェス2015)
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Positive-Unlabeled Learning with Non-Negative Risk Estimator
How to use in R model-agnostic data explanation with DALEX & iml
時系列予測にTransformerを使うのは有効か?
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
[DL輪読会] マルチエージェント強化学習と心の理論
How Much Position Information Do Convolutional Neural Networks Encode?
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
深層学習による自然言語処理 第2章 ニューラルネットの基礎
More Related Content Overcoming Catastrophic Forgetting in Neural Networks読んだ
トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
NIPS2015読み会: Ladder Networks
Attentionの基礎からTransformerの入門まで
What's hot (20)
Transformerを多層にする際の勾配消失問題と解決法について
Granger因果による時系列データの因果推定(因果フェス2015)
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Positive-Unlabeled Learning with Non-Negative Risk Estimator
How to use in R model-agnostic data explanation with DALEX & iml
時系列予測にTransformerを使うのは有効か?
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
[DL輪読会] マルチエージェント強化学習と心の理論
How Much Position Information Do Convolutional Neural Networks Encode?
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Similar to 最近の自然言語処理 (20) 深層学習による自然言語処理 第2章 ニューラルネットの基礎
これから始める人のためのディープラーニング基礎講座
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Recurrent Neural Networks
Deep Learning Chap. 12: Applications
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
自然言語処理に適した ニューラルネットのフレームワーク - - - DyNet - - -
深層学習フレームワーク Chainer の開発と今後の展開
[DL輪読会]Relational inductive biases, deep learning, and graph networks
More from naoto moriyama (8) 論文紹介: Differentiable reasoning over a virtual knowledge base
Differentiable neural conputers
最近の自然言語処理2. 自己紹介
• 森山 直人(もりやま なおと)
• もともと中国国籍 ⇒ 帰化(国籍変更)して日本人に
• 人材会社でデータ分析しています
• 仕事では勾配Boosting、プライベートで遊びで深層学習
• 自然言語処理が好き
6. アジェンダ
イントロダクション
自然言語処理について
主なタスク
言語モデルについて
∟パープレキシティ
----------------------
テキストの処理
単語の表現
単語埋め込み
----------------------
深層学習
ニューラルネットの基礎
PyTorchについて
RNNの基礎
LSTMの拡張
CNNとの関係
----------------------
最近のトピックス
ドロップアウト
深層化
SRU
ソフトマックス
13. 言語モデルについて
P Y = (𝑦0, 𝑦1 𝑦2, … , 𝑦𝑛)
尤もらしい文の生成確率を数式化する
文を構成する単語群文の生成確率
基本的にこれが計算できれば問題ないが、単語の集合で構成され
る文の生成確率を計算する場合、無数の単語同士の組み合わせを
計算する必要があるため、現実的とは言えない
そこで、いきなり文ではなく、単語の出現確率から探るとします
17. パープレキシティについて
PPL Y =
𝑡−1
𝑇 1
𝑝(𝑤𝑡|𝑤1
𝑡−1
)
1
𝑇
= 𝑒𝑥𝑝 𝑙𝑜𝑔
𝑡=1
𝑇 1
𝑝(𝑤𝑡|𝑤1
𝑡−1
)
1
𝑇
= 𝑒𝑥𝑝
1
𝑇 𝑡=1
𝑇
− log 𝑝(𝑤𝑡|𝑤1
𝑡−1
)
確率の逆数を選択
肢の数と考える
P 𝑌 =
𝑡=1
𝑇
𝑃(𝑤𝑡|𝑤1
𝑡−1
)
23. Bag-Of-Words(BOW)
① 予め、処理する単語の語彙数を算出
② 語彙数を次元としたゼロベクトル配列を用意
③ 各単語の出現順に、その単語が位置が1となる
ベクトルを付与
パソコン
インターネット
プログラミング
エンジニア
UNIX
CPU
②6次元のゼロベクトル[0, 0, 0, 0, 0, 0]をベースとして
①6次元
⇒ [1, 0, 0, 0, 0, 0]
⇒ [0, 1, 0, 0, 0, 0]
⇒ [0, 0, 1, 0, 0, 0]
⇒ [0, 0, 0, 1, 0, 0]
⇒ [0, 0, 0, 0, 1, 0]
⇒ [0, 0, 0, 0, 0, 1]
• 語彙数分の次元を持ち各単語が1箇所に1とし、それ以外は0
• 各ベクトルの値が違うにもかかわらず、互いの距離が等しい
③
49. 最近のトピックス
以降最近界隈でバズっている話と、私の個人的に注目する話を紹介します
• 変分ドロップアウト
A Theoretically Grounded Application of Dropout in Recurrent Neural Networks
https://arxiv.org/abs/1512.05287
• ネットワークの深層化
Recurrent Highway Networks
https://arxiv.org/abs/1607.03474
• SRU
Training RNNs as Fast as CNNs
https://arxiv.org/abs/1709.02755
• 混合ソフトマックス
Breaking the Softmax Bottleneck: A High-Rank RNN Language Model
https://arxiv.org/abs/1711.03953
50. 最近のトピックス
以降最近界隈でバズっている話と、私の個人的に注目する話を紹介します
• 変分ドロップアウト
A Theoretically Grounded Application of Dropout in Recurrent Neural Networks
https://arxiv.org/abs/1512.05287
• ネットワークの深層化
Recurrent Highway Networks
https://arxiv.org/abs/1607.03474
• SRU
Training RNNs as Fast as CNNs
https://arxiv.org/abs/1709.02755
• 混合ソフトマックス
Breaking the Softmax Bottleneck: A High-Rank RNN Language Model
https://arxiv.org/abs/1711.03953
技術詳細は時間の観点で割愛
させていただき、概要と先進性
のみを紹介致します
60. • 坪井 祐太, 海野 裕也, 鈴木 潤『深層学習による自然言語処理』
• わかるLSTM~最新の動向と共に
https://qiita.com/t_Signull/items/21b82be280b46f467d1b
• 松本研究室 Doctor Lecture 2004 言語モデル
http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf
• Training RNNs as Fast as CNNs - ご注文は機械学習ですか?
http://musyoku.github.io/2017/09/23/simple-recurrent-unit/
• Understanding the Mixture of Softmaxes (MoS)
http://smerity.com/articles/2017/mixture_of_softmaxes.html
参考資料