SlideShare a Scribd company logo
UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
Xiaotao Gu, Zihan Wang, Zhenyu Bi, Yu Meng, Liyuan Liu, Jiawei Han, Jingbo Shang
2021-10-07
Reader: Tatsuya Shirakawa
LINE Developer Meetup: KDD2021 論文読み会
2
Beatrustにおける、データの利活用にまつわるすべて。
人と組織のdynamicsを理解して、データ駆動の社会科学を実現したい。ついでに社会貢献したい。
Interview https://note.com/beatrust/n/ne63297b9c546
最近のお仕事
● ローンチ前の Tag Suggestion 機能を機械学習で作る
● 日本語辞書ありキーワード抽出器からの多言語辞書なしキーワード抽出器の Distillation
昔のお仕事
● 機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介
● 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開
● Retail Face Analysis Inside-Out
Beatrust Ex ABEJA Ex NTT Data 数理システム ML Data Science
NLP
Steve Reich J. S. Bach 犬飼いたい カジュアル面談お待ちしています
Data Scientist募集中
We are hiring! https://careers.beatrust.com/
s_tat1204
数理最適化
3
どんな論文?
● キーフレーズ抽出器の教師なし学習手法を提案
● テキスト中に複数回出てくるフレーズを教師フレーズとして使う
● 学習済みBERTのAttention Mapを重ね合わせて画像的に扱い、薄い CNNでキーフレーズかどうか推定
● BERTは最初の3層のみで十分。これにより Inferenceの計算量は1/4に
● もろもろ簡単なのに既存手法を超える精度を実現
https://github.com/xgeric/UCPhrase-exp
4
やりたいこと
学習に使える程度に高品質な学習用キーフレーズスパン( Silver Labels)を特定したい
A common practice -- 辞書マッチング 提案手法 -- Core Phrases
1. キーフレーズのリスト(辞書)を用意
2. テキスト中のフレーズが辞書に含まれていたら
キーフレーズとする
1. ドキュメント中に2回以上現れるフレーズを抽出
2. ストップワードで一部除去
良い へんなフレーズが混じらない
悪い 辞書にないフレーズを取りこぼす
良い 辞書いらずでテキスト適応的
悪い ノイジーなフレーズが混じる
5
Wiki Entityに [island effect] はあるが、[heat
island effect] はないので、辞書ベースだとキーフ
レーズに部分マッチしてしまう。
提案手法(Core Phrases)は辞書ベースの方法にくらべ、低頻度のキーフ
レーズ候補を中心に、多くのキーフレーズ候補を抽出できている。
Q. たくさん候補を抽出できているけど、ノイズだらけじゃないの?大丈夫なの?
A. 対象としたコーパスでは、 90%以上のキーフレーズは正しかった
 (Key Phrasesならこれでも良いかもしれないけど、 Key Wordsも抽出したかったらどうするんだろう)
Fortunately, since we collected core phrases from each document independently, such noisy labels will not spread and be amplified to the
entire corpus. In fact, among the tagged core phrases randomly sampled from two datasets, the overall proportion of high-quality labels
is over 90%. The large volume of reasonably high-quality silver labels provides a robust foundation for us to train a span classifier that learns
about general context patterns to distinguish noisy spans.
6
やりたいこと
学習済みBERTのAttention Mapの模様から、与えられたスパンがキーフレーズか否かを判定する
CNN Attention Mapを重ねたものを画像的にみて、CNNで対角線上の正方形領
域がキーフレーズかどうかを識別する ← LSTMよりこちらがメイン?
LSTM LSTMで水平方向に縮約後、さらに垂直方向にLSTMをかけ、それぞれの
ワードのTier-or-Break(連続するワードが同一キーワードに含まれるか)やBIO
(キーフレーズの始まり・途中・その他)タグを予測する
7
Q. Attention Mapってどう重ねるの?
A. 単純に重ねるだけ。しかも 12層RoBERTaだと、最初の3層だけでも十分だった
BERT系のモデルを実用する際にネックになるのはinference速度。
提案手法の場合、BERTはfine tuneしないし、しかも全12層のうち、
最初の3層しか使わないので、計算速度は4倍になる。
As the experimental results suggest, using 3 layers exhibits comparable
performance with the full model
8
Experiments -- 2 Corpus x 解像度の異なる3 Tasks
KP20k
CS系論文のtitle & abstract
KPTimes
New York Times + Japan Times
Task I. Corpus-level Phrase Ranking
入力コーパスからキーフレーズをランキングして出力。提案手法ではキーワードどうかの
予測確率をランキングスコアで使用。Top 5k, 50kのキーフレーズのprecisionで評価
Task II. Document-level Keyphrase Extraction
文書を要約するキーフレーズを抽出。抽出された候補のrecallと、TF-IDFでランキングさ
れたTop 10フレーズのF1スコアで評価
Task III. Phrase Tagging
文中のキーフレーズのタギング。precision, recall, F1スコアで評価
9
Experiments -- 他手法との比較
全般的に精度が良いが、とくに 解像度の高いタスク( I -> II -> III)ほど優位
教師ありの場合との比較がどうなのかは気になる
10
Experiments -- Ablation Study
① vs ② 候補フレーズ抽出において、 Wiki entityベースの辞書マッチ < Core Phrase(提案手法)
① vs ④/⑤、② vs ③ 特徴量としては、embedding < attention
①
②
③
④
⑤
11
Experiments -- Attention Map 3層 vs Full(12層)
Attention Mapは全層(12層)使わなくても最初の3層で十分
12
Experiments -- CNN vs LSTM
Attention Mapからのキーフレーズ推定は、 CNNでもLSTMでもどちらでもOK
※ Table3の①とKP Extractの数値ちょっと違うけど、抽出されるフレーズ数がモデルごとに異なるため、抽出数を
揃える処理を入れているせいらしい。 CNNのRec.、F1@10の数値の下がりっぷりを見る限り、 CNNのほうがLSTM
より抽出数が少ないのかも?
13
Experiments -- Examples
14
Experiments -- Probability Comparison
学習により、フレーズ候補がキーフレーズかどうかちゃんと識別できる様になっている。
15
どんな論文?
● キーフレーズ抽出器の教師なし学習手法を提案
● テキスト中に複数回出てくるフレーズを教師フレーズとして使う
● 学習済みBERTのAttention Mapを重ね合わせて画像的に扱い、薄い CNNでキーフレーズかどうか推定
● BERTは最初の3層のみで十分。これにより Inferenceの計算量は1/4に
● もろもろ簡単なのに既存手法を超える精度を実現
https://github.com/xgeric/UCPhrase-exp
16
We are hiring!
https://careers.beatrust.com/
Mission
人々の経験や強みを可視化して、自由に繋がり、協業・共創できる環境を作る

More Related Content

PDF
パターン認識と機械学習入門
PDF
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
PDF
自然言語処理向け データアノテーションとそのユースケース
PDF
機械学習モデルの判断根拠の説明
PDF
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
PDF
ECCV2020 Oral論文 完全読破(1/2)
PDF
Active Learning 入門
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
パターン認識と機械学習入門
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
自然言語処理向け データアノテーションとそのユースケース
機械学習モデルの判断根拠の説明
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
ECCV2020 Oral論文 完全読破(1/2)
Active Learning 入門
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜

What's hot (20)

PDF
数学で解き明かす深層学習の原理
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
協調フィルタリング入門
PDF
BERT入門
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
PDF
コンピュータビジョンの観点から見たAIの公平性
PDF
画像生成・生成モデル メタサーベイ
PDF
Graph Attention Network
PPTX
近年のHierarchical Vision Transformer
PDF
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
数学で解き明かす深層学習の原理
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
協調フィルタリング入門
BERT入門
【メタサーベイ】Vision and Language のトップ研究室/研究者
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【DL輪読会】時系列予測 Transfomers の精度向上手法
【論文紹介】How Powerful are Graph Neural Networks?
トピックモデルの評価指標 Perplexity とは何なのか?
コンピュータビジョンの観点から見たAIの公平性
画像生成・生成モデル メタサーベイ
Graph Attention Network
近年のHierarchical Vision Transformer
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
Ad

Similar to 2021 10-07 kdd2021読み会 uc phrase (20)

PPTX
Bert(transformer,attention)
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PDF
BERT+XLNet+RoBERTa
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
PDF
Deep nlp 4.2-4.3_0309
PDF
BERTology のススメ
PPTX
Deep Learning による視覚×言語融合の最前線
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
PDF
WWW2018 論文読み会 Web Search and Mining
PDF
Fast abstractive summarization with reinforce selected sentence rewriting
PDF
拡がるディープラーニングの活用
PDF
論文紹介:PaperRobot: Incremental Draft Generation of Scientific Idea
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
Attention-Based Recurrent Neural Network Models for Joint Intent Detection a...
PPTX
ACL読み会2017:Deep Keyphrase Generation
PPTX
A primer in bertology what we know about how bert works
 
PPTX
NLPにおけるAttention~Seq2Seq から BERTまで~
PDF
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
PPTX
視覚と対話の融合研究
PDF
20201010 kaggle tweet コンペの話
Bert(transformer,attention)
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
BERT+XLNet+RoBERTa
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
Deep nlp 4.2-4.3_0309
BERTology のススメ
Deep Learning による視覚×言語融合の最前線
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
WWW2018 論文読み会 Web Search and Mining
Fast abstractive summarization with reinforce selected sentence rewriting
拡がるディープラーニングの活用
論文紹介:PaperRobot: Incremental Draft Generation of Scientific Idea
最近のDeep Learning (NLP) 界隈におけるAttention事情
Attention-Based Recurrent Neural Network Models for Joint Intent Detection a...
ACL読み会2017:Deep Keyphrase Generation
A primer in bertology what we know about how bert works
 
NLPにおけるAttention~Seq2Seq から BERTまで~
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
視覚と対話の融合研究
20201010 kaggle tweet コンペの話
Ad

More from Tatsuya Shirakawa (14)

PDF
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
PDF
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
PDF
ICCV2019 report
PDF
Retail Face Analysis Inside-Out
PDF
データに内在する構造をみるための埋め込み手法
PDF
ヒトの機械学習
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PDF
Taskonomy: Disentangling Task Transfer Learning -- Scouty Meetup 2018 Feb., ...
PDF
Hyperbolic Neural Networks
PDF
Learning to Compose Domain-Specific Transformations for Data Augmentation
PDF
Icml2017 overview
PPTX
Poincare embeddings for Learning Hierarchical Representations
PDF
Dynamic filter networks
PDF
Improving Variational Inference with Inverse Autoregressive Flow
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
ICCV2019 report
Retail Face Analysis Inside-Out
データに内在する構造をみるための埋め込み手法
ヒトの機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Taskonomy: Disentangling Task Transfer Learning -- Scouty Meetup 2018 Feb., ...
Hyperbolic Neural Networks
Learning to Compose Domain-Specific Transformations for Data Augmentation
Icml2017 overview
Poincare embeddings for Learning Hierarchical Representations
Dynamic filter networks
Improving Variational Inference with Inverse Autoregressive Flow

2021 10-07 kdd2021読み会 uc phrase