15. Experiments (Newswire)
- データセット
•PKU, MSRA
• the second International Chinese Word Segmentation Bakeoff
(Emerson, 2005) で提供
• Training set:train data中の90%
• Development set : train data中の10%
•CTB6
• Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による
• 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構
造化されたコーパス
• Training, Development, Test のデータセットの分割は(Yang and Xue,
2012) らにならう
→ 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える
2015/10/2 ACL 2015 読み会 @小町研 15