5. 5
Wiki Entityに [island effect] はあるが、[heat
island effect] はないので、辞書ベースだとキーフ
レーズに部分マッチしてしまう。
提案手法(Core Phrases)は辞書ベースの方法にくらべ、低頻度のキーフ
レーズ候補を中心に、多くのキーフレーズ候補を抽出できている。
Q. たくさん候補を抽出できているけど、ノイズだらけじゃないの?大丈夫なの?
A. 対象としたコーパスでは、 90%以上のキーフレーズは正しかった
(Key Phrasesならこれでも良いかもしれないけど、 Key Wordsも抽出したかったらどうするんだろう)
Fortunately, since we collected core phrases from each document independently, such noisy labels will not spread and be amplified to the
entire corpus. In fact, among the tagged core phrases randomly sampled from two datasets, the overall proportion of high-quality labels
is over 90%. The large volume of reasonably high-quality silver labels provides a robust foundation for us to train a span classifier that learns
about general context patterns to distinguish noisy spans.
7. 7
Q. Attention Mapってどう重ねるの?
A. 単純に重ねるだけ。しかも 12層RoBERTaだと、最初の3層だけでも十分だった
BERT系のモデルを実用する際にネックになるのはinference速度。
提案手法の場合、BERTはfine tuneしないし、しかも全12層のうち、
最初の3層しか使わないので、計算速度は4倍になる。
As the experimental results suggest, using 3 layers exhibits comparable
performance with the full model
8. 8
Experiments -- 2 Corpus x 解像度の異なる3 Tasks
KP20k
CS系論文のtitle & abstract
KPTimes
New York Times + Japan Times
Task I. Corpus-level Phrase Ranking
入力コーパスからキーフレーズをランキングして出力。提案手法ではキーワードどうかの
予測確率をランキングスコアで使用。Top 5k, 50kのキーフレーズのprecisionで評価
Task II. Document-level Keyphrase Extraction
文書を要約するキーフレーズを抽出。抽出された候補のrecallと、TF-IDFでランキングさ
れたTop 10フレーズのF1スコアで評価
Task III. Phrase Tagging
文中のキーフレーズのタギング。precision, recall, F1スコアで評価
10. 10
Experiments -- Ablation Study
① vs ② 候補フレーズ抽出において、 Wiki entityベースの辞書マッチ < Core Phrase(提案手法)
① vs ④/⑤、② vs ③ 特徴量としては、embedding < attention
①
②
③
④
⑤