SlideShare a Scribd company logo
Natural Language Processing
(Almost) from Scratch
Ronan Collobert et al.
Journal of Machine Learning
Research vol.12 (2011)
本論文の選定理由
• ACL 2012 Tutorial Deep Learning for NLPにて紹介さ
れている
• 代表的なNLPタスクにDeep Learningを適用している
– POS tagging
– Chunking
– Named Entity Recognition
– Semantic Role Labeling
• NLP with Deep Learningの代表的な研究者が執筆し
ている
– Chris Manning
– Ronan Collobert
本論文のまとめ
目的
Propose a unified neural network architecture and
learning algorithm that can be applied to various
NLP tasks
POS tagging, Chunking, NER, SLR
結論
人手でfeatureを作成する代わりに、大量のlabeled/unlabeled training
dataからinternal representationを学習する
本研究の成果は、高精度で低計算コストなfreely available tagging
systemを構築するための基礎となる
本論文のまとめ
注目点
様々なNLPタスクにNeural Networkを適用する際
に、どのようにデータを扱うべきか
Labeled Data/Unlabeled Dataにおける扱いの違い
について
背景と目的
背景
自然言語を構造化されたデータに変換する研究
は、AI研究の基礎研究であり、数多くの研究が
行われてきた
実際には、研究者自身がtask-specific featureを
engineeringすることで、intermediate
representationを発見し、performanceを向上させ
てきた
このような改善は実用的ではあるが、自然言語
の理解やAI構築といった大目的についての知見
はほとんど得られない
問題点
背景と目的
目的
task-specific engineeringせずに、複数の基準手法
を超えることを目指す
large unlabeled data setsから発見される
intermediate representationを適用することで、
多くのNLPタスクについて高精度を得ることを
目指す
Multi-tasking な言語モデルを構築する
Multi Tasking: shared features
タスクとデータセット
タスク説明
• Part Of Speech tagging
– 各単語、形態素への品詞付与
• Chunking
– 名詞句、動詞句、専門用語等文法的にひとま
とまりとして扱われるword sequence の抽出
• Named Entity Recognition
– 固有名詞抽出(地名、人名など)
タスク説明
• Semantic Role Labeling
– 文法的役割(主語、目的語、述語)や語同士
の係り受け関係など、意味的や役割を付与す
る
benchmark systems
Chapter 3 The Networks
提案手法
問題設定
全てのNLPタスクは語へのラベル付けであると
考える
Traditional
Approach
hand-designed featuresを分類アルゴリズムに適用
New
Approach
multilayer neural networkによる学習
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Neural Networks
提案手法〜概要〜
Window approach network Sentence approach network
Lookup tablesの作成
各単語をK個のdiscrete featureで表現したMatrix
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Extracting Higher Level Features From
Word Feature Vectors
L層のNeural Network
l層関数
パラメータ
Window approach
の場合
前後の語の特徴ベクトルを連結したものが入力ベク
Window approach
Linear Layer
Window approach
Parameters to be trained
第l層でのhidden unit数
HardTanh Layer
• Non-linear featureの表現
Window approach
Window Approach
Window approach
の問題点
SLRタスクにおいてうまく機能しない
=係り受け関係にある語が違うwindowに含まれ
てしまう場合があるため
Convolutional Layer
Sentence approach
sentence全体が入力ベクトル
→1入力の中で、語毎に時間をずらして入力
Time Delay Neural Network
Convolutional Neural Network
Max Layer
Sentence approach
各hidden unit ごとにt=0〜tで最大となる重みを第l層
への重みに
Tagging Schemes
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Training
対数尤度の最大化
Training
Word Level
Log-Likelihood
soft max all
over tags
Training
Sentence Level Log-Likelihood
transition score to jump from tag k to tagi
Sentence score for a tag path
Training
Sentence Level
Log-Likelihood
Conditional likelihood
by normalizingw.r.tall possible paths
Training
正規化項はrecursive Forward algorithm で算出可能
Inference: Viterbi algorithm (replace logAdd by max)
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Pre Processing
• use lower case words in the dictionary
• add “caps” feature to words had at least one
non-initial capital letter
• number with in a word are replace with the
string “NUMBER”
Hyper-parameters
Benchmark Result
Sentences with similar words should be tagged in the
same way.
The cat sat on the mat
The feline sat on the mat
neighboring words
neighboring wordsが意味的に関連していない
Chapter 4 Lots of Unlabeled Data
Ranking Language Model
Lots of Unlabeled Data
• Two window approach (11) networks (100HU) trained on
two corpus
• LM1
– Wikipedia: 631 Mwords
– order dictionary words by frequency
– increase dictionary size: 5000, 10; 000, 30; 000, 50; 000, 100;
000
– 4 weeks of training
• LM2
– Wikipedia + Reuter=631+221=852M words
– initialized with LM1, dictionary size is 130; 000
– 30,000 additional most frequent Reuters words
– 3 additional weeks of training
Word Embeddings
neighboring wordsが意味的に関連している
Benchmark Performance
Chapter 5 Multitask Learning
Multitask Learning
Joint Training
ある訓練データに対し、同一のパターンを用いて異
なるラベリング結果を得る
Multitask Learning
window approachでは、First Layerのパラメータを共
有
Joint Training
Multitask Learning
Joint Training
Chapter 6 Temptation
その他の工夫
• Suffix Features
– Use last two characters as feature
• Gazetters
– 8,000 locations, person names, organizations and
misc entries from CoNLL2003
• POS
– use POS as a feature for CHUNK &NER
• CHUNK
– use CHUNK as a feature for SRL
その他の工夫
その他の工夫
異なるパラメータで10個のNeural Networkを作成
→各タスクの精度を検証
Conclusion
• Achievements
– “All purpose" neural network architecture for NLP tagging
– Limit task-specic engineering
– Rely on very large unlabeled datasets
– We do not plan to stop here
• Critics
– Why forgetting NLP expertise for neural network training
skills?
• NLP goals are not limited to existing NLP task
• Excessive task-specic engineering is not desirable
– Why neural networks?
• Scale on massive datasets
• Discover hidden representations
• Most of neural network technology existed in 1997 (Bottou, 1997)

More Related Content

PDF
系列ラベリングの基礎
PPTX
充足可能性問題のいろいろ
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
PDF
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
PDF
文献紹介:EfficientDet: Scalable and Efficient Object Detection
PDF
AtCoder Beginner Contest 007 解説
PPTX
G社のNMT論文を読んでみた
系列ラベリングの基礎
充足可能性問題のいろいろ
【DL輪読会】Patches Are All You Need? (ConvMixer)
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
文献紹介:EfficientDet: Scalable and Efficient Object Detection
AtCoder Beginner Contest 007 解説
G社のNMT論文を読んでみた

What's hot (20)

PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
PDF
BERTology のススメ
PDF
Lie-Trotter-Suzuki分解、特にフラクタル分解について
ODP
卒業論文発表スライド 分割統治法の拡張
PDF
はじめてのKrylov部分空間法
PDF
ZDD入門-お姉さんを救う方法
PDF
【DL輪読会】Implicit Behavioral Cloning
PDF
文献紹介:Image Segmentation Using Deep Learning: A Survey
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PDF
3.3節 変分近似法(前半)
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
数学プログラムを Haskell で書くべき 6 の理由
PPTX
2SAT(充足可能性問題)の解き方
PDF
Variational AutoEncoder
PPTX
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
PDF
CVIM#11 3. 最小化のための数値計算
PPTX
Graph convolution (スペクトルアプローチ)
PDF
Crfと素性テンプレート
PPTX
空撮画像技術と3次元リアルタイムデータの可視化について
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
BERTology のススメ
Lie-Trotter-Suzuki分解、特にフラクタル分解について
卒業論文発表スライド 分割統治法の拡張
はじめてのKrylov部分空間法
ZDD入門-お姉さんを救う方法
【DL輪読会】Implicit Behavioral Cloning
文献紹介:Image Segmentation Using Deep Learning: A Survey
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
3.3節 変分近似法(前半)
[DL輪読会]Deep Face Recognition: A Survey
三次元点群を取り扱うニューラルネットワークのサーベイ
数学プログラムを Haskell で書くべき 6 の理由
2SAT(充足可能性問題)の解き方
Variational AutoEncoder
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
CVIM#11 3. 最小化のための数値計算
Graph convolution (スペクトルアプローチ)
Crfと素性テンプレート
空撮画像技術と3次元リアルタイムデータの可視化について
Ad

Viewers also liked (10)

PDF
Convolutional Neural Netwoks で自然言語処理をする
PDF
Automatic Summarization (2014)
PDF
自然言語処理@春の情報処理祭
PDF
機械学習フレームワーク横断、Chainer, Keras
PDF
企業における自然言語処理技術利用の最先端
PDF
TISにおける、研究開発のメソッド
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
PDF
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
PDF
aiconf2017okanohara
PPTX
深層学習による自然言語処理の研究動向
Convolutional Neural Netwoks で自然言語処理をする
Automatic Summarization (2014)
自然言語処理@春の情報処理祭
機械学習フレームワーク横断、Chainer, Keras
企業における自然言語処理技術利用の最先端
TISにおける、研究開発のメソッド
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
aiconf2017okanohara
深層学習による自然言語処理の研究動向
Ad

Similar to Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊) (20)

PPTX
Using Deep Learning for Recommendation
PDF
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
PDF
読解支援@2015 06-26
PDF
Generalized data augmentation for low resource translation
PDF
読解支援@2015 06-05
PDF
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
PDF
Nlp4 l intro-20150513
PDF
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
PPTX
PHP基礎勉強会
PPTX
Neural Models for Information Retrieval
PDF
Chainer with natural language processing hands on
PDF
Active Learning 入門
PDF
2009 splc-a framework for constructing semantically composable feature models...
PPTX
ACL読み会2017:Deep Keyphrase Generation
PDF
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
PDF
言語資源と付き合う
PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PDF
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
PDF
Deep learning勉強会20121214ochi
Using Deep Learning for Recommendation
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
A scalable probablistic classifier for language modeling: ACL 2011 読み会
読解支援@2015 06-26
Generalized data augmentation for low resource translation
読解支援@2015 06-05
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
Nlp4 l intro-20150513
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
PHP基礎勉強会
Neural Models for Information Retrieval
Chainer with natural language processing hands on
Active Learning 入門
2009 splc-a framework for constructing semantically composable feature models...
ACL読み会2017:Deep Keyphrase Generation
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
言語資源と付き合う
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Deep learning勉強会20121214ochi

More from Ohsawa Goodfellow (11)

PDF
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PDF
PRML上巻勉強会 at 東京大学 資料 第1章前半
PPTX
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
PDF
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
PDF
Deep Learning 勉強会 (Chapter 7-12)
PDF
第9章 ネットワーク上の他の確率過程
PDF
XLWrapについてのご紹介
PPTX
XLWrapについてのご紹介
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章前半
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Deep Learning 勉強会 (Chapter 7-12)
第9章 ネットワーク上の他の確率過程
XLWrapについてのご紹介
XLWrapについてのご紹介

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)