SlideShare a Scribd company logo
ACL 2015 読み会 @小町研
Gated Recursive Neural Network
for Chinese Word Segmentation
Xinchi Chen, Xipeng Qiu, Chenxi Zhu,
Xuanjing Huang
首都大学東京 情報通信システム学域 小町研究室
M2 塘 優旗
2015/10/2 ACL 2015 読み会 @小町研 1
Abstract
中国語の単語わかち書きタスク
素性選択の負担軽減が注目されているが、これまでのNNは離散的な
featuresを用いたtraditionalな手法のようにcomplicated feature
compositions を抽出できなかった
reset gate, update gateという二つのゲートを持つ Gated Recursive
Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わ
せを取り入れることができて素性選択が必要ない
GRNNはdeepなので layer-wise trainingを利用することでgradient
diffusion (勾配拡散)の問題を回避
現時点での最高精度を達成
2015/10/2 ACL 2015 読み会 @小町研 2
Chinese
Word Segmentation
文字ベースの系列ラベリング
{B, M, E, S} = { Begin, Middle, End, Single }
2015/10/2 ACL 2015 読み会 @小町研 3
B E B E EBS
ACL 2015 読み会 @小町研 4
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
•RNN
• 系列のモデル化を行うために位
相グラフが必要
•directed acyclic graph (DAG)有
向非巡回グラフ
• ある頂点 v から出発し、辺をた
どり、頂点 v に戻ってこない
• 文字の組み合わせをボトム層か
ら連続してミックスすることで
モデル化できる
• 各ノードは複数文字の
complicated feature composition
とみなせる
2015/10/2 ACL 2015 読み会 @小町研 5
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
文字セット:
文字embedding:
↓
h_i : 隠れノード,d次元
g : 非線形関数, シグモイドなど
2015/10/2 ACL 2015 読み会 @小町研 6
Gated Recursive
Neural Network (GRNN)
complicated combination features
を表現するにはシンプルすぎるため、
gated recurrent neural network (Cho et al.,
2014b; Chung et al., 2014) を参考に
2種類のゲートの導入
• reset gate (r_L, r_R)
• 右,左それぞれの子ノードから情報読み込み
• update gate
• 子ノードの情報を統合する際に何を保持するか
決定
→ どのようにアップデートし、
combination information を利用するかを
決定
update gate
reset gate
2015/10/2 ACL 2015 読み会 @小町研 7
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
最後のレイヤー(出力)
エンベディングが1stレイヤーに入力
され、1つの固定長ベクトルになるま
で上層のレイヤーまで繰り返し伝達さ
れる
異なるニューロンの出力は、異なる
feature compositionsとみなす
最後に全てのニューロンの出力を連結
しベクトル x_i を得る
x_i を線形変換することで、文字 c_i
に対しての各タグのスコアを得る
q : 総ノード数
3つのゲートの要素は同じ次元
が正規化されている
2015/10/2 ACL 2015 読み会 @小町研 8
Gated Recursive Unit
• update gate の定義
new activation
• j-th hidden node の更新式
正規化
2015/10/2 ACL 2015 読み会 @小町研 9
Gated Recursive Unit
• reset gates の定義
new activation
• j-th activationの定義、更新
reset gate :
係数 :
シグモイド関数
reset gates は right , left のchild nodeの出力を選択の仕方をコントロールし、
結果的に new activation を得る
update gates は new activation, left child, right child の選択としてみなすこ
とができる
→ この gating mechanism は文字のコンビネーションを効率よくモデル化できる
Inference
GRNN によって各文字に対してラベル付
けされるスコアが得られたため,Viterbi
アルゴリズムを利用して系列全体を通し
て最適なラベル列を推定する
先行研究にならい、transition matrix を導
入し,タグ間の遷移のスコアとして利用
する
2015/10/2 ACL 2015 読み会 @小町研 10
B E B ES→ へ遷移するスコア
従って、sentence-level のスコア付けは以下のようになる
2015/10/2 ACL 2015 読み会 @小町研 11
Training
- Layer-wise Training
Deep Learning の学習は難しい
 gradient diffusion (勾配の拡散)
 overfitting のリスク
(Hinton and Salakhutdinov, 2006)
Layer-wise Training
 Layer を1つづつ追加して学習を行う
1. 隠れ層の1層目のみ学習
2. 1層目の学習が終わったら2つの隠れ層の学習を行う。一番上の隠れ層 まで繰り返し
学習を行う (1~ )
3. 最後の層まで学習が終わったら現在のパラメータを初期値として 1~ の層にお
いて学習を行う
2015/10/2 ACL 2015 読み会 @小町研 12
Training
- Max-Margin criterion
Taskar et al., 2005 によって提案
モデルの決定境界の頑健さに着目することで確率、尤度の代替となる
尺度を与える
:全ての可能なラベル列のセット
:正解ラベル列
:予測ラベル列
 与えられた文 x _i に対して
 Margin Loss
 トレーニングインスタンス
に対して最もスコアのものを探索
 Max-Margin training の目的は最
も高いスコアとなるタグ系列が
正解と一致すること
Subgradien Method
 Ratliff et al., 2007
 最急降下の帰納法
 gradient-like direction を計算
目的関数の最小化
 (Socher et al., 2013a) にならう
 AdaGrad (Duchi et al., 2011) を利用してみ
にバッチでパラメータを更新
上記の式から m training exampleに対し
ての正規化された目的関数 J(θ)を定義
下記式を最小化することで正しいタグ系列
のスコアが増加し、間違っているタグ系列
のスコアが減少する
2015/10/2 ACL 2015 読み会 @小町研 13
Training
- Max-Margin training
Experiments
ドメインの異なる二種類のテキストで実験
1. Newswire (Web上で配信されるニュース)
2. Micro-blog
評価
•一般的なBakeoff scoring program
•Precision, Recall, F1-score
2015/10/2 ACL 2015 読み会 @小町研 14
Experiments (Newswire)
- データセット
•PKU, MSRA
• the second International Chinese Word Segmentation Bakeoff
(Emerson, 2005) で提供
• Training set:train data中の90%
• Development set : train data中の10%
•CTB6
• Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による
• 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構
造化されたコーパス
• Training, Development, Test のデータセットの分割は(Yang and Xue,
2012) らにならう
→ 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える
2015/10/2 ACL 2015 読み会 @小町研 15
Experiments (Newswire)
- ハイパーパラメータ
batch size:20
文字エンベディングサイズ
• 計算機リソース、実験結果にお
けるunderfit を考慮して決定
Dropout (Srivastava et al.,
2014)
• 過学習を避ける
• 効率、パフォーマンスを考慮し
て右のrateにする
2015/10/2 ACL 2015 読み会 @小町研 16
Experiments(Newswire)
- Layer-wise Training
2015/10/2 ACL 2015 読み会 @小町研 17
Layer-wise training の効果を
調査
提案手法:
window幅 5,
recursion layer 5
異なるrecursion layer で実験
各モデルの収束スピードの比
較
パフォーマンスの比較
Experiments (Newswire)
- Layer-wise Training
- F値の収束スピード
異なるレイヤー数、layer-wise
trainingを行ったかどうか
1 layer
最後の線形スコア関数のみ利用
非線形レイヤーがないためunderfit,
性能低い
5 layer
5層利用し、全てのニューロンを利
用
ただ単に学習すると遅い、性能低
い
Layer-wise
5層利用してもF値の収束が早く,
性能も良い
2015/10/2 ACL 2015 読み会 @小町研 18
Experiments (Newswire)
- Layer-wise Training
- テストセットにおける評価
PKU (test set)における性能評価
layer-wise training を利用した場合が常に一番良い結果
→ layer-wise を利用することで layer数が増えても高い性能で安
定する
2015/10/2 ACL 2015 読み会 @小町研 19
Results (Newswire)
- Gated Recursive Architectureの効果
2015/10/2 ACL 2015 読み会 @小町研 20
Character Embedding(文字エンベディング)ランダム初期化
Gated Recursive Architecture の導入により性能向上
Results (Newswire)
- pre-trained, bigram の効果
2015/10/2 ACL 2015 読み会 @小町研 21
文字embedding :
ランダム初期化
文字embedding :
中国語Wikipedia,
word2vecで
事前学習
bigram feature
embedding の利用
(Pei et al., 2014 )
Experiments(Micro-blog)
データセット
• NLPCC 2015 dataset1 (Qiu et al., 2015)
• NLPCC 2015 のシェアドタスクで提供
• Sina Weibo から抽出
• Training set : Training data中の90%
• Development set : Training data中の10%
• 比較的informalなテキスト
• 以下のような様々なトピックを含む
2015/10/2 ACL 2015 読み会 @小町研 22
Results (Micro-blog)
2015/10/2 ACL 2015 読み会 @小町研 23
提案手法(以下を利用)
• pre-trained
• bigram character embeddings
比較手法
• FNLP3 (Qiu et al., 2013)
• CRF++ toolkit(デフォルト)
Conclusion
Gated recursive neural network (GRNN) を提案し、3種のベンチ
マークセットで state-of-the-art を達成
GRNN中の各ニューロンは入力文字列の複雑な組み合わせと見な
せ、traditional な手法における洗練された素性の選択を再現する
能力があるといえる
中国語の単語分かち書きタスクは特殊になりうる(マイクロブ
ログなど)が、提案モデルは簡単に適応させることができ、その
他のラベリングタスクにおいても対応させることができる
将来的には、その他のラベリングタスクにおいても調査したい
2015/10/2 ACL 2015 読み会 @小町研 24

More Related Content

PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
Triplet Loss 徹底解説
PPTX
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
PDF
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
170614 iclr reading-public
PPTX
Java class design
PDF
Query and output generating words by querying distributed word representatio...
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Triplet Loss 徹底解説
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
170614 iclr reading-public
Java class design
Query and output generating words by querying distributed word representatio...

What's hot (20)

PDF
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
PPTX
Triplet Lossによる Person Re-identification
PPTX
Hackathon presentation format
PDF
Reusing weights in subword aware neural language models
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
PPTX
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
PPTX
Batch Reinforcement Learning
PDF
[読会]P qk means-_ billion-scale clustering for product-quantized codes
PDF
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
PPTX
深層学習②
PPTX
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
PPTX
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
PDF
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
Deep learning勉強会20121214ochi
PDF
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Triplet Lossによる Person Re-identification
Hackathon presentation format
Reusing weights in subword aware neural language models
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Batch Reinforcement Learning
[読会]P qk means-_ billion-scale clustering for product-quantized codes
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
深層学習②
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
Approximate Scalable Bounded Space Sketch for Large Data NLP
Deep learning勉強会20121214ochi
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ad

Similar to ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation" (20)

PPTX
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
PPTX
深層学習による自然言語処理の研究動向
PDF
TensorFlow math ja 05 word2vec
PDF
卒業論文「主張と根拠のクラスタを用いた 多様な主張を提示するニュース推薦手法の提案」
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
PPTX
Deep neural models of semantic shift
PDF
[DL輪読会]Convolutional Sequence to Sequence Learning
PDF
Deep Learningと自然言語処理
PDF
Recurrent Neural Networks
PDF
4thNLPDL
PDF
深層ニューラルネットワーク による知識の自動獲得・推論
PPTX
Nl237 presentation
PDF
ニューラルネットワークを用いた自然言語処理
PDF
Deep Learningの基礎と応用
PPTX
Ordered neurons integrating tree structures into recurrent neural networks
PPTX
20160716 ICML paper reading, Learning to Generate with Memory
PPTX
survey on math transformer 2023 0628 sato
PPTX
【論文紹介】Distributed Representations of Sentences and Documents
PPTX
Icml読み会 deep speech2
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
深層学習による自然言語処理の研究動向
TensorFlow math ja 05 word2vec
卒業論文「主張と根拠のクラスタを用いた 多様な主張を提示するニュース推薦手法の提案」
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
Deep neural models of semantic shift
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learningと自然言語処理
Recurrent Neural Networks
4thNLPDL
深層ニューラルネットワーク による知識の自動獲得・推論
Nl237 presentation
ニューラルネットワークを用いた自然言語処理
Deep Learningの基礎と応用
Ordered neurons integrating tree structures into recurrent neural networks
20160716 ICML paper reading, Learning to Generate with Memory
survey on math transformer 2023 0628 sato
【論文紹介】Distributed Representations of Sentences and Documents
Icml読み会 deep speech2
Ad

ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation"

  • 1. ACL 2015 読み会 @小町研 Gated Recursive Neural Network for Chinese Word Segmentation Xinchi Chen, Xipeng Qiu, Chenxi Zhu, Xuanjing Huang 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 2015/10/2 ACL 2015 読み会 @小町研 1
  • 2. Abstract 中国語の単語わかち書きタスク 素性選択の負担軽減が注目されているが、これまでのNNは離散的な featuresを用いたtraditionalな手法のようにcomplicated feature compositions を抽出できなかった reset gate, update gateという二つのゲートを持つ Gated Recursive Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わ せを取り入れることができて素性選択が必要ない GRNNはdeepなので layer-wise trainingを利用することでgradient diffusion (勾配拡散)の問題を回避 現時点での最高精度を達成 2015/10/2 ACL 2015 読み会 @小町研 2
  • 3. Chinese Word Segmentation 文字ベースの系列ラベリング {B, M, E, S} = { Begin, Middle, End, Single } 2015/10/2 ACL 2015 読み会 @小町研 3 B E B E EBS
  • 4. ACL 2015 読み会 @小町研 4 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation •RNN • 系列のモデル化を行うために位 相グラフが必要 •directed acyclic graph (DAG)有 向非巡回グラフ • ある頂点 v から出発し、辺をた どり、頂点 v に戻ってこない • 文字の組み合わせをボトム層か ら連続してミックスすることで モデル化できる • 各ノードは複数文字の complicated feature composition とみなせる
  • 5. 2015/10/2 ACL 2015 読み会 @小町研 5 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation 文字セット: 文字embedding: ↓ h_i : 隠れノード,d次元 g : 非線形関数, シグモイドなど
  • 6. 2015/10/2 ACL 2015 読み会 @小町研 6 Gated Recursive Neural Network (GRNN) complicated combination features を表現するにはシンプルすぎるため、 gated recurrent neural network (Cho et al., 2014b; Chung et al., 2014) を参考に 2種類のゲートの導入 • reset gate (r_L, r_R) • 右,左それぞれの子ノードから情報読み込み • update gate • 子ノードの情報を統合する際に何を保持するか 決定 → どのようにアップデートし、 combination information を利用するかを 決定 update gate reset gate
  • 7. 2015/10/2 ACL 2015 読み会 @小町研 7 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation 最後のレイヤー(出力) エンベディングが1stレイヤーに入力 され、1つの固定長ベクトルになるま で上層のレイヤーまで繰り返し伝達さ れる 異なるニューロンの出力は、異なる feature compositionsとみなす 最後に全てのニューロンの出力を連結 しベクトル x_i を得る x_i を線形変換することで、文字 c_i に対しての各タグのスコアを得る q : 総ノード数
  • 8. 3つのゲートの要素は同じ次元 が正規化されている 2015/10/2 ACL 2015 読み会 @小町研 8 Gated Recursive Unit • update gate の定義 new activation • j-th hidden node の更新式 正規化
  • 9. 2015/10/2 ACL 2015 読み会 @小町研 9 Gated Recursive Unit • reset gates の定義 new activation • j-th activationの定義、更新 reset gate : 係数 : シグモイド関数 reset gates は right , left のchild nodeの出力を選択の仕方をコントロールし、 結果的に new activation を得る update gates は new activation, left child, right child の選択としてみなすこ とができる → この gating mechanism は文字のコンビネーションを効率よくモデル化できる
  • 10. Inference GRNN によって各文字に対してラベル付 けされるスコアが得られたため,Viterbi アルゴリズムを利用して系列全体を通し て最適なラベル列を推定する 先行研究にならい、transition matrix を導 入し,タグ間の遷移のスコアとして利用 する 2015/10/2 ACL 2015 読み会 @小町研 10 B E B ES→ へ遷移するスコア 従って、sentence-level のスコア付けは以下のようになる
  • 11. 2015/10/2 ACL 2015 読み会 @小町研 11 Training - Layer-wise Training Deep Learning の学習は難しい  gradient diffusion (勾配の拡散)  overfitting のリスク (Hinton and Salakhutdinov, 2006) Layer-wise Training  Layer を1つづつ追加して学習を行う 1. 隠れ層の1層目のみ学習 2. 1層目の学習が終わったら2つの隠れ層の学習を行う。一番上の隠れ層 まで繰り返し 学習を行う (1~ ) 3. 最後の層まで学習が終わったら現在のパラメータを初期値として 1~ の層にお いて学習を行う
  • 12. 2015/10/2 ACL 2015 読み会 @小町研 12 Training - Max-Margin criterion Taskar et al., 2005 によって提案 モデルの決定境界の頑健さに着目することで確率、尤度の代替となる 尺度を与える :全ての可能なラベル列のセット :正解ラベル列 :予測ラベル列  与えられた文 x _i に対して  Margin Loss  トレーニングインスタンス に対して最もスコアのものを探索  Max-Margin training の目的は最 も高いスコアとなるタグ系列が 正解と一致すること
  • 13. Subgradien Method  Ratliff et al., 2007  最急降下の帰納法  gradient-like direction を計算 目的関数の最小化  (Socher et al., 2013a) にならう  AdaGrad (Duchi et al., 2011) を利用してみ にバッチでパラメータを更新 上記の式から m training exampleに対し ての正規化された目的関数 J(θ)を定義 下記式を最小化することで正しいタグ系列 のスコアが増加し、間違っているタグ系列 のスコアが減少する 2015/10/2 ACL 2015 読み会 @小町研 13 Training - Max-Margin training
  • 14. Experiments ドメインの異なる二種類のテキストで実験 1. Newswire (Web上で配信されるニュース) 2. Micro-blog 評価 •一般的なBakeoff scoring program •Precision, Recall, F1-score 2015/10/2 ACL 2015 読み会 @小町研 14
  • 15. Experiments (Newswire) - データセット •PKU, MSRA • the second International Chinese Word Segmentation Bakeoff (Emerson, 2005) で提供 • Training set:train data中の90% • Development set : train data中の10% •CTB6 • Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による • 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構 造化されたコーパス • Training, Development, Test のデータセットの分割は(Yang and Xue, 2012) らにならう → 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える 2015/10/2 ACL 2015 読み会 @小町研 15
  • 16. Experiments (Newswire) - ハイパーパラメータ batch size:20 文字エンベディングサイズ • 計算機リソース、実験結果にお けるunderfit を考慮して決定 Dropout (Srivastava et al., 2014) • 過学習を避ける • 効率、パフォーマンスを考慮し て右のrateにする 2015/10/2 ACL 2015 読み会 @小町研 16
  • 17. Experiments(Newswire) - Layer-wise Training 2015/10/2 ACL 2015 読み会 @小町研 17 Layer-wise training の効果を 調査 提案手法: window幅 5, recursion layer 5 異なるrecursion layer で実験 各モデルの収束スピードの比 較 パフォーマンスの比較
  • 18. Experiments (Newswire) - Layer-wise Training - F値の収束スピード 異なるレイヤー数、layer-wise trainingを行ったかどうか 1 layer 最後の線形スコア関数のみ利用 非線形レイヤーがないためunderfit, 性能低い 5 layer 5層利用し、全てのニューロンを利 用 ただ単に学習すると遅い、性能低 い Layer-wise 5層利用してもF値の収束が早く, 性能も良い 2015/10/2 ACL 2015 読み会 @小町研 18
  • 19. Experiments (Newswire) - Layer-wise Training - テストセットにおける評価 PKU (test set)における性能評価 layer-wise training を利用した場合が常に一番良い結果 → layer-wise を利用することで layer数が増えても高い性能で安 定する 2015/10/2 ACL 2015 読み会 @小町研 19
  • 20. Results (Newswire) - Gated Recursive Architectureの効果 2015/10/2 ACL 2015 読み会 @小町研 20 Character Embedding(文字エンベディング)ランダム初期化 Gated Recursive Architecture の導入により性能向上
  • 21. Results (Newswire) - pre-trained, bigram の効果 2015/10/2 ACL 2015 読み会 @小町研 21 文字embedding : ランダム初期化 文字embedding : 中国語Wikipedia, word2vecで 事前学習 bigram feature embedding の利用 (Pei et al., 2014 )
  • 22. Experiments(Micro-blog) データセット • NLPCC 2015 dataset1 (Qiu et al., 2015) • NLPCC 2015 のシェアドタスクで提供 • Sina Weibo から抽出 • Training set : Training data中の90% • Development set : Training data中の10% • 比較的informalなテキスト • 以下のような様々なトピックを含む 2015/10/2 ACL 2015 読み会 @小町研 22
  • 23. Results (Micro-blog) 2015/10/2 ACL 2015 読み会 @小町研 23 提案手法(以下を利用) • pre-trained • bigram character embeddings 比較手法 • FNLP3 (Qiu et al., 2013) • CRF++ toolkit(デフォルト)
  • 24. Conclusion Gated recursive neural network (GRNN) を提案し、3種のベンチ マークセットで state-of-the-art を達成 GRNN中の各ニューロンは入力文字列の複雑な組み合わせと見な せ、traditional な手法における洗練された素性の選択を再現する 能力があるといえる 中国語の単語分かち書きタスクは特殊になりうる(マイクロブ ログなど)が、提案モデルは簡単に適応させることができ、その 他のラベリングタスクにおいても対応させることができる 将来的には、その他のラベリングタスクにおいても調査したい 2015/10/2 ACL 2015 読み会 @小町研 24

Editor's Notes