2021 10-07 kdd2021読み会 uc phrase

UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
Xiaotao Gu, Zihan Wang, Zhenyu Bi, Yu Meng, Liyuan Liu, Jiawei Han, Jingbo Shang
2021-10-07
Reader: Tatsuya Shirakawa
LINE Developer Meetup: KDD2021 論文読み会

2
Beatrustにおける、データの利活用にまつわるすべて。
人と組織のdynamicsを理解して、データ駆動の社会科学を実現したい。ついでに社会貢献したい。
Interview https://note.com/beatrust/n/ne63297b9c546
最近のお仕事
● ローンチ前の Tag Suggestion 機能を機械学習で作る
● 日本語辞書ありキーワード抽出器からの多言語辞書なしキーワード抽出器の Distillation
昔のお仕事
● 機は熟した！グラフ構造に対するDeep Learning、Graph Convolutionのご紹介
● 異空間への埋め込み！Poincare Embeddingsが拓く表現学習の新展開
● Retail Face Analysis Inside-Out
Beatrust Ex ABEJA Ex NTT Data 数理システム ML Data Science
NLP
Steve Reich J. S. Bach 犬飼いたいカジュアル面談お待ちしています
Data Scientist募集中
We are hiring! https://careers.beatrust.com/
s_tat1204
数理最適化

3
どんな論文？
● キーフレーズ抽出器の教師なし学習手法を提案
● テキスト中に複数回出てくるフレーズを教師フレーズとして使う
● 学習済みBERTのAttention Mapを重ね合わせて画像的に扱い、薄い CNNでキーフレーズかどうか推定
● BERTは最初の3層のみで十分。これにより Inferenceの計算量は1/4に
● もろもろ簡単なのに既存手法を超える精度を実現
https://github.com/xgeric/UCPhrase-exp

4
やりたいこと
学習に使える程度に高品質な学習用キーフレーズスパン（ Silver Labels）を特定したい
A common practice -- 辞書マッチング提案手法 -- Core Phrases
1. キーフレーズのリスト（辞書）を用意
2. テキスト中のフレーズが辞書に含まれていたら
キーフレーズとする
1. ドキュメント中に2回以上現れるフレーズを抽出
2. ストップワードで一部除去
良いへんなフレーズが混じらない
悪い辞書にないフレーズを取りこぼす
良い辞書いらずでテキスト適応的
悪いノイジーなフレーズが混じる

5
Wiki Entityに [island effect] はあるが、[heat
island effect] はないので、辞書ベースだとキーフ
レーズに部分マッチしてしまう。
提案手法（Core Phrases）は辞書ベースの方法にくらべ、低頻度のキーフ
レーズ候補を中心に、多くのキーフレーズ候補を抽出できている。
Q. たくさん候補を抽出できているけど、ノイズだらけじゃないの？大丈夫なの？
A. 対象としたコーパスでは、 90%以上のキーフレーズは正しかった
　（Key Phrasesならこれでも良いかもしれないけど、 Key Wordsも抽出したかったらどうするんだろう）
Fortunately, since we collected core phrases from each document independently, such noisy labels will not spread and be amplified to the
entire corpus. In fact, among the tagged core phrases randomly sampled from two datasets, the overall proportion of high-quality labels
is over 90%. The large volume of reasonably high-quality silver labels provides a robust foundation for us to train a span classifier that learns
about general context patterns to distinguish noisy spans.

6
やりたいこと
学習済みBERTのAttention Mapの模様から、与えられたスパンがキーフレーズか否かを判定する
CNN Attention Mapを重ねたものを画像的にみて、CNNで対角線上の正方形領
域がキーフレーズかどうかを識別する ← LSTMよりこちらがメイン？
LSTM LSTMで水平方向に縮約後、さらに垂直方向にLSTMをかけ、それぞれの
ワードのTier-or-Break(連続するワードが同一キーワードに含まれるか)やBIO
（キーフレーズの始まり・途中・その他）タグを予測する

7
Q. Attention Mapってどう重ねるの？
A. 単純に重ねるだけ。しかも 12層RoBERTaだと、最初の3層だけでも十分だった
BERT系のモデルを実用する際にネックになるのはinference速度。
提案手法の場合、BERTはﬁne tuneしないし、しかも全12層のうち、
最初の3層しか使わないので、計算速度は4倍になる。
As the experimental results suggest, using 3 layers exhibits comparable
performance with the full model

8
Experiments -- 2 Corpus x 解像度の異なる3 Tasks
KP20k
CS系論文のtitle & abstract
KPTimes
New York Times + Japan Times
Task I. Corpus-level Phrase Ranking
入力コーパスからキーフレーズをランキングして出力。提案手法ではキーワードどうかの
予測確率をランキングスコアで使用。Top 5k, 50kのキーフレーズのprecisionで評価
Task II. Document-level Keyphrase Extraction
文書を要約するキーフレーズを抽出。抽出された候補のrecallと、TF-IDFでランキングさ
れたTop 10フレーズのF1スコアで評価
Task III. Phrase Tagging
文中のキーフレーズのタギング。precision, recall, F1スコアで評価

9
Experiments -- 他手法との比較
全般的に精度が良いが、とくに解像度の高いタスク（ I -> II -> III）ほど優位
教師ありの場合との比較がどうなのかは気になる

10
Experiments -- Ablation Study
① vs ② 候補フレーズ抽出において、 Wiki entityベースの辞書マッチ < Core Phrase（提案手法）
① vs ④/⑤、② vs ③ 特徴量としては、embedding < attention
①
②
③
④
⑤

11
Experiments -- Attention Map 3層 vs Full（12層）
Attention Mapは全層（12層）使わなくても最初の3層で十分

12
Experiments -- CNN vs LSTM
Attention Mapからのキーフレーズ推定は、 CNNでもLSTMでもどちらでもOK
※ Table3の①とKP Extractの数値ちょっと違うけど、抽出されるフレーズ数がモデルごとに異なるため、抽出数を
揃える処理を入れているせいらしい。 CNNのRec.、F1@10の数値の下がりっぷりを見る限り、 CNNのほうがLSTM
より抽出数が少ないのかも？

14
Experiments -- Probability Comparison
学習により、フレーズ候補がキーフレーズかどうかちゃんと識別できる様になっている。

15
どんな論文？
● キーフレーズ抽出器の教師なし学習手法を提案
● テキスト中に複数回出てくるフレーズを教師フレーズとして使う
● 学習済みBERTのAttention Mapを重ね合わせて画像的に扱い、薄い CNNでキーフレーズかどうか推定
● BERTは最初の3層のみで十分。これにより Inferenceの計算量は1/4に
● もろもろ簡単なのに既存手法を超える精度を実現
https://github.com/xgeric/UCPhrase-exp

16
We are hiring!
https://careers.beatrust.com/
Mission
人々の経験や強みを可視化して、自由に繋がり、協業・共創できる環境を作る

2021 10-07 kdd2021読み会 uc phrase

More Related Content

What's hot (20)

Similar to 2021 10-07 kdd2021読み会 uc phrase (20)

More from Tatsuya Shirakawa (14)

2021 10-07 kdd2021読み会 uc phrase