SlideShare a Scribd company logo
Adapting taggers to Twitter 
with not-so-distant supervision 
(Plank et al.) 
COLING 2014 読み会(2014/11/05) 
小町研M1 平田亜衣1
Abstract 
 遠距離学習(半教師ありと教師なし学習)を用いたツ 
イッターへのPOSとNERの適用. 
 特に良いnot-so-distant supervisionの一番良いソー 
スとしてウェブサイトのリンクを用いた. 
 TwitterにおけるPOS taggingとNERにおいてstate-of- 
the-artの研究を大きく改善した. 
 POS tagging:89.76% accuracy, 8% error reduction 
 NER:F1=79.4%, 10% error reduction 
2
1,Introduction 
 Twitterから自動で情報抽出する研究が多くなされて 
いる. 
 しかし,Hovy et al. (2014)ではこれまで提案された 
モデルは各々サンプルにオーバーフィッティングして 
いて,twitterデータ以外での評価はとても下がること 
を示した. 
 これはtwitterでドリフトしているためであったり 
Eisenstein (2013),単純にtwitterが異質であったり, 
小さなサンプルにバイアスがかかっていたりするため 
である. 
 この論文では,ラベル付けされていないtweetからの 
学習を追加することによって,少なくともこのバイア 
スを正すことができるという仮説を立て,検証してい 
く. 
3
 この論文ではラベル付けされてないデータからの学習 
を助けるための遠距離教師あり学習を提案する. 
 我々のアイデアは,遠距離教師あり学習としてtweet 
に付随するURLのウェブサイトの言語情報を使う. 
 リンクされているウェブサイトを学習の時のみに使う 
が,テストの段階では必要としない. 
 我々の半教師ありの手法は他に存在するアプローチよ 
りも違ったtweetのデータに対して頑健にPOSタグ付 
けとNERモデルを学習することができる. 
4
5 
2, Tagging with not-so-distant 
狙いはラベル付けされていない 
tweetの小さなpoolでタグ系列 
の推測によってモデルのバイア 
スを修正し,数回のモデルの再 
学習によって徐々にモデルのバ 
イアスを正しくすることである. 
ベースラインとpredict() 
functionの扱いが違うだけ 
の4つのシステムで実験す 
る. 
supervision 
tweet(x)とtweet内のリ 
ンク先ウェブサイト(w)
 ベースラインと4つのpredict() 
 SELF-TRAINING baseline 
 一般的なラベル付けされていないtwitterデータへの推 
測.predict()のvのみでwを考慮しないもの. 
 WEB 
 ウェブサイトからの情報を追加する.tweetとそれと 
一致するウェブサイト両方で出現したすべての単語に 
対して,ウェブサイトで当てはまるタグを付与する. 
 例 
 (1)でタグ付けをすると”Supplier”がadjective(形容 
詞)と判断される.(間違い) 
 (2)だと右の単語(“Project”)と同じで,noun(名詞)だ 
と判断される.(正解) 
6
 DICT 
 辞書(Wikitionary)のみを使うもの. 
 DICT<WEB 
 辞書の情報とwebの情報が衝突した時に,webの情報 
を使うもの. 
 WEB<DICT 
 逆に辞書の情報を使うもの. 
7
3, Experiments 
 3.1 Model 
 CRF(features proposed by Gimpel et al. 2011) 
 Twitterコーパスから抽出したBrown word cluster 
 プールサイズ:1000 
 500や2000のサイズでの実験では同じような結果に 
なった. 
 development dataでの反復回数:i 
 websiteへのNER 
 品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011) 
 NERシステム:Stanford NER system (Finkel et al., 
2005) 
 Stanford NER taggerでのタグ付けと,各iteration 
でタグ付けし直すよりもoff-lineでのタグ付けをした 
方がわずかに良い結果となった. 
8
 3.2 Data 
 unsupervised domain adaptation(DA) 
 ラベル付けされたニュース記事データのみ 
 semi-supervised DA 
 twitterデータとニュース記事 
 training data 
 POS 
 WSJ newswire 
 in-domain training POS data comes from Gimpel et al. 
(2011) 
 NER 
 CoNLL2003datasetsofannotated newswire from the Reuters 
corpus. 
 in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN) 
9 
in-domain out-of-domain
 3.2 Data 
 Unlabeled data 
 TwitterAPIでtweet-websiteのペアを200k収集. 
 websiteに1文以上含まれているか,ストップワード以外 
の単語が少なくとも1語以上含まれているかなどの制限 
をかけたもの. 
 out-of-vocabulary(OOV) rate 
10
4,Result 
 4.1 POS results 
11
4,Result 
 4.1 POS results 
12 
OOV rateが低 
いため,高い 
値が出る. 
これら提案手法では, 
既存のシステ(Owoputi 
et al., 2013)の87.5%の 
精度よりも良い結果が 
得られた
 Learning with URLs 
 Note, again, that they do not require the test data 
to contain URLs. 
13
 4.2 NER results 14

More Related Content

PDF
研究
PPTX
Twitter web application
PDF
Combining Distant and Partial Supervision for Relation Extraction (Angeli et ...
PPTX
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
PPTX
Sigir2013 retrieval models-and_ranking_i_pub
PDF
Introduction to Continuous Testing
PPTX
CNNチュートリアル
PPTX
Multi Scale Recognition with DAG-CNNs
研究
Twitter web application
Combining Distant and Partial Supervision for Relation Extraction (Angeli et ...
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
Sigir2013 retrieval models-and_ranking_i_pub
Introduction to Continuous Testing
CNNチュートリアル
Multi Scale Recognition with DAG-CNNs

Similar to Coling読み会 2014 (10)

PDF
NIPS2015概要資料
PPTX
Nttr study 20130206_share
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
PDF
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
PDF
Development and Experiment of Deep Learning with Caffe and maf
PPTX
Getting Started with Graph Database with Python
PPTX
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
TokyoR101_BeginnersSession1.pdf
PDF
ディープラーニング最近の発展とビジネス応用への課題
PDF
アドテク×Scala×パフォーマンスチューニング
NIPS2015概要資料
Nttr study 20130206_share
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Development and Experiment of Deep Learning with Caffe and maf
Getting Started with Graph Database with Python
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
TokyoR101_BeginnersSession1.pdf
ディープラーニング最近の発展とビジネス応用への課題
アドテク×Scala×パフォーマンスチューニング
Ad

Coling読み会 2014

  • 1. Adapting taggers to Twitter with not-so-distant supervision (Plank et al.) COLING 2014 読み会(2014/11/05) 小町研M1 平田亜衣1
  • 2. Abstract  遠距離学習(半教師ありと教師なし学習)を用いたツ イッターへのPOSとNERの適用.  特に良いnot-so-distant supervisionの一番良いソー スとしてウェブサイトのリンクを用いた.  TwitterにおけるPOS taggingとNERにおいてstate-of- the-artの研究を大きく改善した.  POS tagging:89.76% accuracy, 8% error reduction  NER:F1=79.4%, 10% error reduction 2
  • 3. 1,Introduction  Twitterから自動で情報抽出する研究が多くなされて いる.  しかし,Hovy et al. (2014)ではこれまで提案された モデルは各々サンプルにオーバーフィッティングして いて,twitterデータ以外での評価はとても下がること を示した.  これはtwitterでドリフトしているためであったり Eisenstein (2013),単純にtwitterが異質であったり, 小さなサンプルにバイアスがかかっていたりするため である.  この論文では,ラベル付けされていないtweetからの 学習を追加することによって,少なくともこのバイア スを正すことができるという仮説を立て,検証してい く. 3
  • 4.  この論文ではラベル付けされてないデータからの学習 を助けるための遠距離教師あり学習を提案する.  我々のアイデアは,遠距離教師あり学習としてtweet に付随するURLのウェブサイトの言語情報を使う.  リンクされているウェブサイトを学習の時のみに使う が,テストの段階では必要としない.  我々の半教師ありの手法は他に存在するアプローチよ りも違ったtweetのデータに対して頑健にPOSタグ付 けとNERモデルを学習することができる. 4
  • 5. 5 2, Tagging with not-so-distant 狙いはラベル付けされていない tweetの小さなpoolでタグ系列 の推測によってモデルのバイア スを修正し,数回のモデルの再 学習によって徐々にモデルのバ イアスを正しくすることである. ベースラインとpredict() functionの扱いが違うだけ の4つのシステムで実験す る. supervision tweet(x)とtweet内のリ ンク先ウェブサイト(w)
  • 6.  ベースラインと4つのpredict()  SELF-TRAINING baseline  一般的なラベル付けされていないtwitterデータへの推 測.predict()のvのみでwを考慮しないもの.  WEB  ウェブサイトからの情報を追加する.tweetとそれと 一致するウェブサイト両方で出現したすべての単語に 対して,ウェブサイトで当てはまるタグを付与する.  例  (1)でタグ付けをすると”Supplier”がadjective(形容 詞)と判断される.(間違い)  (2)だと右の単語(“Project”)と同じで,noun(名詞)だ と判断される.(正解) 6
  • 7.  DICT  辞書(Wikitionary)のみを使うもの.  DICT<WEB  辞書の情報とwebの情報が衝突した時に,webの情報 を使うもの.  WEB<DICT  逆に辞書の情報を使うもの. 7
  • 8. 3, Experiments  3.1 Model  CRF(features proposed by Gimpel et al. 2011)  Twitterコーパスから抽出したBrown word cluster  プールサイズ:1000  500や2000のサイズでの実験では同じような結果に なった.  development dataでの反復回数:i  websiteへのNER  品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011)  NERシステム:Stanford NER system (Finkel et al., 2005)  Stanford NER taggerでのタグ付けと,各iteration でタグ付けし直すよりもoff-lineでのタグ付けをした 方がわずかに良い結果となった. 8
  • 9.  3.2 Data  unsupervised domain adaptation(DA)  ラベル付けされたニュース記事データのみ  semi-supervised DA  twitterデータとニュース記事  training data  POS  WSJ newswire  in-domain training POS data comes from Gimpel et al. (2011)  NER  CoNLL2003datasetsofannotated newswire from the Reuters corpus.  in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN) 9 in-domain out-of-domain
  • 10.  3.2 Data  Unlabeled data  TwitterAPIでtweet-websiteのペアを200k収集.  websiteに1文以上含まれているか,ストップワード以外 の単語が少なくとも1語以上含まれているかなどの制限 をかけたもの.  out-of-vocabulary(OOV) rate 10
  • 11. 4,Result  4.1 POS results 11
  • 12. 4,Result  4.1 POS results 12 OOV rateが低 いため,高い 値が出る. これら提案手法では, 既存のシステ(Owoputi et al., 2013)の87.5%の 精度よりも良い結果が 得られた
  • 13.  Learning with URLs  Note, again, that they do not require the test data to contain URLs. 13
  • 14.  4.2 NER results 14