Submit Search
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convolutions
1 like
838 views
Deep Learning JP
2018/05/28 Deep Learning JP: http://deeplearning.jp/hacks/
Technology
Related topics:
Deep Learning
Read more
1 of 65
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
More Related Content
PPTX
Paper: seq2seq 20190320
Yusuke Fujimoto
PPTX
深層学習②
ssuser60e2a31
PDF
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP
PDF
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
PPTX
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
PDF
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Masayoshi Kondo
PDF
ディープラーニングフレームワーク とChainerの実装
Ryosuke Okuta
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
Paper: seq2seq 20190320
Yusuke Fujimoto
深層学習②
ssuser60e2a31
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Masayoshi Kondo
ディープラーニングフレームワーク とChainerの実装
Ryosuke Okuta
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
What's hot
(20)
PPTX
ICML2018読み会: Overview of NLP / Adversarial Attacks
Motoki Sato
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
PDF
Deep Learning技術の今
Seiya Tokui
PPTX
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
PDF
LSTM (Long short-term memory) 概要
Kenji Urai
PPTX
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
Tatsuya Yokota
PPTX
深層学習 第4章 大規模深層学習の実現技術
孝昌 田中
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
PPTX
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
PDF
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
PPTX
Res netと派生研究の紹介
masataka nishimori
PDF
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Daiki Shimada
PDF
音声認識と深層学習
Preferred Networks
PDF
Long Short-term Memory
nishio
PDF
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
PPTX
はじめての人のためのDeep Learning
Tadaichiro Nakano
PDF
170614 iclr reading-public
Katsuhiko Ishiguro
PPTX
TensorFlowとCNTK
maruyama097
ICML2018読み会: Overview of NLP / Adversarial Attacks
Motoki Sato
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
Deep Learning技術の今
Seiya Tokui
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
LSTM (Long short-term memory) 概要
Kenji Urai
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
Tatsuya Yokota
深層学習 第4章 大規模深層学習の実現技術
孝昌 田中
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
Res netと派生研究の紹介
masataka nishimori
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Daiki Shimada
音声認識と深層学習
Preferred Networks
Long Short-term Memory
nishio
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
はじめての人のためのDeep Learning
Tadaichiro Nakano
170614 iclr reading-public
Katsuhiko Ishiguro
TensorFlowとCNTK
maruyama097
Similar to [DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convolutions
(20)
PDF
拡がるディープラーニングの活用
NVIDIA Japan
PDF
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
PDF
cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper. challenge
PPTX
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
PDF
Characeter-Level CNN
tdualdir
PPTX
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku
PDF
DeepLearningDay2016Summer
Takayoshi Yamashita
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
PDF
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
Toshiki Sakai
PPTX
Hangyo emnlp paperreading2016
Hangyo Masatsugu
PDF
Nips20180127
WEBFARMER. ltd.
PDF
【2016.09】cvpaper.challenge2016
cvpaper. challenge
PDF
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper. challenge
PPTX
視覚と対話の融合研究
Yoshitaka Ushiku
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
PPTX
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
PDF
Deep Learningの基礎と応用
Seiya Tokui
PDF
MIRU_Preview_JSAI2019
Takayoshi Yamashita
拡がるディープラーニングの活用
NVIDIA Japan
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
cvpaper.challenge@CVPR2015(Deep Neural Networks)
cvpaper. challenge
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
Characeter-Level CNN
tdualdir
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku
DeepLearningDay2016Summer
Takayoshi Yamashita
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
Toshiki Sakai
Hangyo emnlp paperreading2016
Hangyo Masatsugu
Nips20180127
WEBFARMER. ltd.
【2016.09】cvpaper.challenge2016
cvpaper. challenge
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper. challenge
視覚と対話の融合研究
Yoshitaka Ushiku
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
Deep Learningの基礎と応用
Seiya Tokui
MIRU_Preview_JSAI2019
Takayoshi Yamashita
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convolutions
1.
DLHacks Fast and Accurate
Entity Recognition with Iterated Dilated Convolutions 2018.05.28 山田涼太
2.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
3.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
4.
概要 まとめ ID-CNNという手法を提案 dilated CNNの変形をNLPに適用 NERで従来と同等の精度をキープしつつ高速化を実現した 背景 LSTMなどのRNNでは入力データをシーケンシャルに計算する必要があった =並列計算が適用できずGPUの利点が活かせない 結果 Bi-LSTM-CRFに比べて14-20倍の高速化が実現できた さらに、全文書の主計結果から訓練されたID-CNNは精度を維持しつつ8倍高速だった
5.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
6.
NER Named Entity Recognition: 固有表現抽出。固有名詞や数値、日付を抽出する技術 CoNLL2003: Reuters
Corpusのニュース記事に対して、 POSやNERのタグ付けを行ったデータセット 右のようにI-ORGなら組織名、I-PERなら人名を意味する OntoNotes 5.0 English NER: 別のデータセット
7.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
8.
Dilated Convolution simple convolution(通常のCNN): NLPで使うCNNは典型的には一次元 トークンの特徴量ベクトルのシーケンスに対してCNNを適用する この条件下でCNNはアフィン変換と等価、この演算をWcとする あるトークンに着目した時、前後にrの幅をもつスライドウィンドウがWcの対象となる 入力xtに対する出力ctは ⊕はvector
concatenation xt …… rr slide window
9.
dilated convolution: スライドウィンドウが前後にr連続したものではなく、δ間隔でr個のトークンを含む形 入力xtに対する出力ctは δ=1でsimple comvolutionと等価 出力に影響する入力の範囲を広げることが可能 =より全体の情報を考慮した結果を取得可能 Dilated
Convolution xt δ slide window …… … δ δ … …… δ δ δ
10.
Dilated Convolution Multi-Scale Context
Aggregation 幅をどんどん広げるようにdilated convolutionの層を重ねることで、局所的な情報を失うこ となく全体の文脈を考慮した判断ができる。 Yu and Koltun (2016) は画像のセグメンテーションにmultiscale context aggregation という指数関数的にdilationの幅が増加する手法を用いた(下図参照)。 引用: MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS F1 3×3 F2 7×7 F3 15×15 Fi+1のウィンドウサイズは(2i+2 − 1)2
11.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
12.
Iterated Dilated CNN dilated
CNNでは層を重ねることで容易に全体の文脈情報を考慮することができる r = 1で4層のレイヤーを重ねれば、 (有効な入力サイズはn層目で2n+1 - 1なので) 1層目で3、2層目で7、3層目で15、4層目で31となる。 Penn TreeBankコーパスの一文の平均単語数は23なので、4層dilated convolutionを重ね れば大体の文章の全体の文脈を考慮したタグ付けができることになる。 r = 2で8層のレイヤーを重ねれば有効な入力サイズは1000トークン以上になり、ニュース文書 を丸々扱える。
13.
Iterated Dilated CNN ただし、単純に層を増やしていくだけでは過学習に陥ってしまう。 ID-CNNではdilated
convolutionの繰り返しを複数回重ねることでこの問題を解決した。 これにより、全体の文脈の考慮と高い一般性を実現した。
14.
Iterated Dilated CNN Model
Architecture r(): ReLU関数 入力データx …… データc(0) … …… …… データc(Lc-1) データc(Lc) Lc層 …… 2Lc-1 2Lc-1 …… データc(Lc+1) = B(・) dilated convolution * Lc層 + final dilation-1 layer = B(・) … final dilation-1 layer
15.
Iterated Dilated CNN Model
Architecture 入力データx …… データi …… …… データb(1) … … Lb層 …… データb(Lb) …… データh(Lb) 前述のB(・) * Lb層 + W0
16.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
17.
やりたかったこと 生命科学論文から情報抽出を試みている 薬剤名の抽出で難儀 (辞書が膨大で意図しない単語が引っかかる) 何かしらのスクリーニングが必要 NERを試したい 今回の手法をはじめとして複数の手法で薬剤名のNERの精度を比較したかった。。。
18.
Test 著者がコードをあげている Github: https://github.com/iesl/dilated-cnn-ner.git Tensorflow
19.
Test ./bin/preprocess.sh conf/conll/dilated-cnn.conf
20.
Test ./bin/train-cnn.sh conf/conll/dilated-cnn.conf
21.
概要 NLPのNER dilated convolution 提案手法ID-CNN 実装 結果・考察
22.
Experimental Results Sentence-level prediction CoNLL2013を利用 文章レベルの予測精度でLSTMを上回った さらに学習時間の早い
23.
Experimental Results Document-level prediction CoNLL2013を利用 文書レベルの予測精度でもLSTMを上回った 学習時間も早い
24.
Experimental Results OntoNotes 5.0
English NER OntoNotes 5.0 English NERを利用 文書レベルの予測精度でLSTMを上回った さらに学習時間の早い
25.
考察 Bi-LSTM-CRFでは広いコンテキストを入力すると精度が落ちるかもしれないが、 ID-CNNではより全体の文脈を捉えることができる したがって、大きな文書や局所的に曖昧な表現が含まれる文書を扱う場合はID-CNNの方より顕 著に優れた結果を出すことが可能かもしれない
26.
本当はやりたかったこと 生命科学論文から情報抽出を試みている 薬剤名の抽出で難儀 (辞書が膨大で意図しない単語が引っかかる) 何かしらのスクリーニングが必要 NERを試したい 今回の手法をはじめとして複数の手法で薬剤名のNERの精度を比較したかった。。。
27.
論文メモ
28.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
29.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
30.
Abstract 今日、ウェブ全体や大量のトラフィックに対して予測器が基本的なNLPを実行するならば、よ り早いことこそが時間とエネルギーのコストを抑えるの肝要である。 昨今GPUの性能の向上がbi-directional LSTMの出現に一役買った。Bi-LSTMはNERなどのラ ベリングタスクの入力に使われるトークンごとのベクトル表現を取得するのにスタンダードな手 法だ。 この手法ではGPUの計算力を完全に使い切ることができなかった。この論文では、Iterated Dilated CNN(ID-CNNs)という巨大な文脈や構造予測に対して従来のCNNより適している手 法を使うことでBi-LSTMの高速化を実現した。 長さNの文章に対して、並列化を適用してもO(N)の計算量がかかるLSTMと異なり、ID-CNN は全文書に対して固定長のCNNが並列に処理を行う。 パラメータの共有などのネットワーク構造同士の強調が見られ、Bi-LSTM-CRFに比べて14-20 倍の高速化が実現できた。 さらに、全文書の主計結果から訓練されたID-CNNは精度を維持しつつ8倍高速だった。
31.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
32.
Introduction エコロジカルフットプリントを最小化しつつ大規模なNLPや情報抽出を普及させるためには、 もっと早くエネルギー効率の良いPOS taggingやNERの手法が必要だ。 GPUによる並列計算の向上によってシーケンスラベリングを解くNNモデルがいくつも出現し た。これらの手法はGPUの並列計算能力を十分に活用できていなかったのでスピードに限界が あった。 特にこれらの手法は特徴量抽出にRNNを使うか、出力モデルにビタビアルゴリズムを使ってい たが、いずれの手法も入力データをシーケンシャルに計算する必要があった(=並列計算が適用 できずGPUの利点が活かせない)。 入力データの大きさによって実行時間が関わらない並列的な計算ができれば時間とリソースを節 約できる。CNNはまさにこのような特徴を持っている。入力データ一つ一つに対して計算する んではなく、まとめて計算する。よってCNNにおいて計算量は入力データの大きさによらず、 層の深さに依存する。音声合成などに使われている。
33.
Introduction CNNの方が計算面で有利なのに対して、RNNはテキストの深い表現が可能である。 これはBi-directional RNNによってエンコードされたトークンは入力シーケンス全体の特徴を 残すからだ。 CNNではネットワークにとって効率の良い入力サイズに納めなくてはいけないため、制限を受 ける。 CNNでの計算量 畳み込み層の幅 w、層の数
lの時、トークン特徴量 rは r = l(w - 1) + 1 層の数は入力された全てのコンテキストを結合する必要があるため、シーケンスの長さに応じ て線形に増加する。 シーケンスをまたいで特徴量をプールしておくことが一つの解決策として挙げられるが、出力の 分解能を下げるためにあまり良い解決方法ではない。
34.
Introduction (Yu and Koltun,
2016) がdilated convolutionをシーケンスラベリングに適用することを 提案した。 dilated convolutionでは層が深くなるほどに入力データの幅が指数関数的に効率良くなって いく。 典型的なCNNのようにdilated convolutionでもシーケンス上のスライディングウィンドウに 計算を実行する。 しかし従来手法と異なり、コンテキストは連続的でない。dilated windowはdilation width d毎にスキップするからだ。 l番目の層にとって効率的な入力幅は2l+1-1である。
35.
Introduction 例: 幅3のdilated covolutionを4層重ね合わたものに対して効率的な入力サイズは 24+1 -
1 = 31 となる。これはPTBの文章の平均単語数23より大きいので十分に有効である。
36.
Introduction ID-CNNでは同じdilated convolutionのブロックがトークン特徴量に適用される。 メリット1: 過学習が抑えられる メリット2:
ネットワークの途中に監視を差し込むことができる?? RNNとの違い 1: それぞれのトークンのラベルを個別に予測できる
37.
Introduction 検証 CoNLL 2003、OntoNotes 5.0
English NERを用いた 結果 RNNに比べてF1を維持しつつ、高速化に成功した
38.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
39.
Background •Conditional Probability Models
for Tagging
40.
Background Conditional Probability Models
for Tagging 入力(テキスト): 出力(トークン毎のタグ): yiに対するドメインサイズ: 本研究ではxが与えられた時のyの確率は 計算量はO(D) linear-chain CRF modelでは 計算量はO(D2T)
41.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
42.
Dilated Convolutions simple convolution(通常のCNN): NLPで使うCNNは典型的には一次元 トークセンの特徴量ベクトルのシーケンスに対してCNNを適用する この条件下でCNNはアフィン変換と等価、この演算をWcとする あるトークンに着目した時、前後にrの幅をもつスライドウィンドウがWcの対象となる 入力xtに対する出力ctは ⊕はvector
concatenation xt …… rr slide window
43.
dilated convolution: スライドウィンドウが前後にr連続したものではなく、δ間隔でr個のトークンを含む形 入力xtに対する出力ctは δ=1でsimple comvolutionと等価 Dilated
Convolutions xt δ slide window …… … δ δ … …… δ δ δ
44.
Dilated Convolutions Multi-Scale Context
Aggregation 幅をどんどん広げるようにdilated convolutionの層を重ねることで、局所的な情報を失うこ となく全体の文脈を考慮した判断ができる。 Yu and Koltun (2016) は画像のセグメンテーションにmultiscale context aggregation という指数関数的にdilationの幅が増加する手法を用いた(下図参照)。 引用: MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS F1 3×3 F2 7×7 F3 15×15 Fi+1のウィンドウサイズは(2i+2 − 1)2
45.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
46.
Iterated Dilated CNNs dilated
CNNでは層を重ねることで容易に全体の文脈情報を考慮することができる。 r = 1で4層のレイヤーを重ねれば、 有効な入力サイズは1層目で3、2層目で7、3層目で15、4層目で31となる。 Penn TreeBankコーパスの一文の平均単語数は23なので、4層dilated convolutionを重ね れば大体の文章の全体の文脈を考慮したタグ付けができることになる。 r = 2で8層のレイヤーを重ねれば有効な入力サイズは1000トークン以上になり、ニュース文書 を丸々扱える。
47.
Iterated Dilated CNNs ただし、単純に層を増やしていくだけでは過学習に陥ってしまう。 ID-CNNでは同じdilated
convolutionを複数回重ねることでこの問題を解決した。 これにより、全体の文脈の考慮と高い一般性を実現した。
48.
Iterated Dilated CNNs Model
Architecture r(): ReLU関数 入力データx …… データc(0) … …… …… データc(Lc-1) データc(Lc) Lc層 …… 2Lc-1 2Lc-1 …… データc(Lc+1) = B(・) dilated convolution * Lc層 + final dilation-1 layer = B(・) … final dilation-1 layer
49.
Iterated Dilated CNNs Model
Architecture 入力データx …… データi …… …… データb(1) … … Lb層 …… データb(Lb) …… データh(Lb) 前述のB(・) * Lb層 + W0
50.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
51.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
52.
Experimental Results Sentence-level prediction CoNLL2013を利用 文章レベルの予測精度でLSTMを上回った さらに学習時間の早い
53.
Experimental Results Document-level prediction CoNLL2013を利用 文書レベルの予測精度でもLSTMを上回った 学習時間も早い
54.
Experimental Results OntoNotes 5.0
English NER OntoNotes 5.0 English NERを利用 文書レベルの予測精度でLSTMを上回った さらに学習時間の早い
55.
Abstract Introduction Background Dilated Convolutions Iterated Dilated
CNNs Related work Experimental Results Conclusion
56.
Conclusion 高速にNLPタグ付けを行うことができた シーケンスラベリングの高速化に大きく寄与するだろう 今後NLPの別の課題にも適用したい
57.
Test
58.
Test 著者がコードをあげている Github: https://github.com/iesl/dilated-cnn-ner.git Tensorflow
59.
Test: Python準備 pyenvでPython 2.7にしておく pip
install tensorflow-gpu
60.
Test: ファイル準備 git clone
https://github.com/iesl/dilated-cnn-ner.git conll2003をダウンロードしてプロジェクトのルートディレクトリに置く git clone https://github.com/synalp/NER.git mkdir -p dilated-cnn-ner/data cp -R NER/corpus/CoNLL-2003/ dilated-cnn-ner/data/ cd dilated-cnn-ner/data/ mv CoNLL-2003 conll2003 cd ../
61.
Test: ファイル準備 mkdir -p
data/embeddings 以下に記載されるGoogle Driveからlample-embeddings-pre.txtをダウンロード https://github.com/iesl/dilated-cnn-ner/issues/1 scpなりでec2に送る scp -P 2211 lample-embeddings-pre.txt ubuntu@ec2-18-219-243-39.us- east-2.compute.amazonaws.com:~/download 先ほど作ったディレクトリに移動 mv ~/download/lample-embeddings-pre.txt ~/dilated-cnn-ner/data/ embeddings/
62.
Test: パス設定 cd ~/dilated-cnn-ner export
DILATED_CNN_NER_ROOT=`pwd` export DATA_DIR=data # 必要かなぞ # export CUDA_VISIBLE_DEVICES=“0” ???
63.
Test ./bin/preprocess.sh conf/conll/dilated-cnn.conf
64.
Test ./bin/train-cnn.sh conf/conll/dilated-cnn.conf
65.
Keywords named entity recognition(NER): 固有表現抽出。固有名詞や数値、日付を抽出する技術 sequence
labeling: 連続的な入力データに対してラベルづけすること、POS taggingなど inside-outside-beggining tagging(IOB tagging):
Download