A deep relevance model for zero shot document filtering

A Deep Relevance Model for
Zero-Shot Document Filtering
Chenliang Li, Wei Zhou, Feng Ji, Yu Duan, Haiqing Chen
（ACL 2018）
紹介：小町研 B4 本間広樹

Abstract
• ビッグデータの時代，短い応答時間で多様なトピックの集中的な
分析が急務
• 基本的なタスクとして，情報のフィルタリングが不可欠
• zero-shot 文書フィルタリングのための新しい深層関連モデル
DAZER を提案
zero-shot ：
一度も出てきていないデータ。学習データに含まれないもの

Abstract
• DAZER はカテゴリに関連した少数のシード語を取ることによっ
て，文書・カテゴリ間の関連性を推定
• DAZER は大規模な外部コーパスから事前学習された単語埋め込
みを用いて，単語埋め込み空間内の隠れ特徴のインタラクション
をモデル化することによって関連信号を抽出するように考案
• 関連信号は，ゲート付き畳み込みプロセスを介して抽出される
• ゲート機構は，どの畳み込みフィルタがカテゴリ依存の関連信号
を出力するかを制御
• 話題分類と感情分析の２つの文書コレクションに関する実験にお
いて，DAZER がSOTAの関連ランキングモデルを含む既存の代替
手法を大幅に上回ることを実証

Introduction
• 無関係な情報をフィルタリングしたい
• カテゴリは無限 → 手動で例を特定するのは無理
• 最近の研究：ラベリング作業の削減で有望な結果
→ ラベル付き文書無しで，データレス分類器は各カテゴリに関連
する単語（シード語）の小さな集合を使用してテキスト分類
• しかし，既存のデータレス分類器は文書フィルタリン
グを考慮していない
• 文書コレクションがカバーする各カテゴリのシード語
を提供する必要がある → 実行不可能なときがある
• zero-shot 文書フィルタリングのタスクに興味

Introduction
• zero-shot：ここでは対象カテゴリの例が学習フェーズ
では見えないこと
• zero-shot フィルタリングを簡単にするため，関心のあ
るカテゴリを表すために小さなシード語の集合を使用
• この方法は関心のあるカテゴリが動的でわかりにくい
場合に非常に有効
• 具体的には，zero-shot 文書フィルタリングのための新
しい深層関連性モデル DAZER を提案

Introduction
• 古典的な検索モデルは，単にクエリのキーワードマッ
チングに基づいて関連性を推定
→ これは概念的な関連性を補足していない
• 既存の深層関連性モデルは，単語埋め込み間のコサイ
ン類似度を利用
→ これも概念的な関連性を反映するには粗すぎる
• DAZER はカテゴリと埋め込み空間内の各単語間の隠れ
特徴のインタラクションに基づいて関連性信号を抽出
• DAZER は zero-shot 文書フィルタリングを行うはじめ
ての深層モデル

The architecture of DAZER
DAZERモデルのネットワーク構造
関連性信号抽出と関連性集約の2つの主要コンポーネントで構成

c : カテゴリー
① まず単語を埋め込み表現に変換
埋め込み表現は外部の大規模コーパスを用いて事前学習
② 概念的な関連性を補足するため，平均埋め込みを取る

言葉の構文的情報と意味的情報の両方が十分に含まれるため単語埋め込みは有用
例：
𝑖 番目の次元について計算された重み
カテゴリ – 単語間でも同様
2つの単語間の関連性
=
⨀ : 要素ごとの積

特定の次元における要素ご
との積の符号は，その次元
において2つの埋め込みが
同じ極性を持つかどうかを
示す→
𝑖 番目の次元について計算された重み
2つの単語間の関連性
=
⨀ : 要素ごとの積

要素間の2種類のインタラクションを使って文書中の単語の表現を補完
文書 𝑑 の各単語 𝑤 についてインタラクションベースの表現 𝐞 𝑤
𝑐
を導出
⨁ はベクトル結合

既存研究として，埋め込みオフセットは単語の意味階層を導出する際に使用さ
れている（Fu ら, 2014）
しかし，関連性推定のためにこれら2種類の特徴インタラクションを組み込ん
だ既存の研究は存在しない
⨁ はベクトル結合

：からの連結を指す
と
：𝑖 番目の単語に対して抽出された関連性信号に関する隠れ特徴
𝒌-max pooling を用いた畳み込み
文書 𝑑 およびカテゴリ 𝑐 におけるインタラクションベースの表現
𝑑 = (𝐞1
𝑐
, 𝐞2
𝑐
, … , 𝐞|𝑑|
𝑐
) を計算し，以下の畳み込み演算を適用
：重み行列と対応するバイアスベクトル

をフィルタ 𝑗 の 𝑘 個の最大値とすると，連結 𝐫𝑐,𝑑 を介してすべての 𝑚
個のフィルタによって抽出された全体的な関連性信号 𝐫 𝑑 を形成
𝒌-max pooling を用いた畳み込み
次いで，最もアクティブな k 個の特徴を得るために 𝑘-max pooling を適用

カテゴリ固有のゲーティング機構
特定の単語 𝑤 が与えられた場合，各カテゴリ 𝑐 のインタラクションベース表現
𝐞 𝑤
𝑐
は大きく異なりうる
そのため，特定の局所文脈に対して特定の畳込みフィルタから抽出された関連
性信号はカテゴリごとに明確に異なりうる
そして特定のカテゴリの関連性信号がフィルタの部分集合によって補足される
と仮定することは合理的

カテゴリ 𝑐 が与えられると，カテゴリ固有のゲートは以下のように
計算される
と：重み行列とバイアスベクトル
：シグモイド関数

ここで，𝐚 𝑐 は 𝑚 個のフィルタのオンオフスイッチとして機能
𝐚 𝑐,𝑗 → 1 ：カテゴリー 𝑐 に関連性があるものを最大限補足するために 𝑗 番目のフィル
ターをオンにする必要がある
𝐚 𝑐,𝑗 → 0 ：フィルターが無関係でオフになったことを示す

畳み込み演算とゲーティング機構のコラボレーションは最近提案されたGated
Linear Units (GLU) と同様
どのフィルタが関連性信号をカテゴリ依存的に取り込むか特定することを目的
実験で，このカテゴリに依存する設定が zero-shot フィルタリングのパフォー
マンスに大きなメリットをもたらすことを検証

関連性集約
関連するフィルタはカテゴリに依存するため，生の関連性信号 𝐫𝑐,𝑑 は何らかの
形でカテゴリに依存する
関連性に関する隠れ特徴は，非線形性を有する全結合層を介して作られる
と：重み行列とバイアスベクトル
全体的な関連性スコアは以下のように推定される
w ∈ ℝ𝑙 𝑎 と 𝑏 はパラメータで，バイアス

敵対的学習
隠れ特徴 𝐡 𝑐,𝑑 はカテゴリに依存しないことが期待される
ただし，カテゴリ固有の情報が 𝐡 𝑐,𝑑 で抽出された関連情報と混在しないという
保証はない
ここでは，訓練中にカテゴリ固有の情報が記憶されないようにするための敵対
的な学習機構を説明
それがないと，DAZER は未知のカテゴリに対応できない（詳細は省略）

Experiment
既存手法
• BM25 Model：キーワードマッチングに基づく広く知られた検索モデル
• DSSM：多層パーセプトロンを利用して，文書とクエリの両方の隠れた表
現を抽出し，表現ベクトルに基づいてcos類似度を計算
• DRMM：文書内の各単語と各クエリ語との間の意味関連スコアのヒスト
グラム情報に基づいて関連性を計算
• K-NRM：単語レベルのハード／ソフトマッチング信号に基づく関連性ラ
ンク付けのためのカーネルベースのニューラルモデル
• DeepRank：クエリ中心の文脈に基づくニューラル関連性ランキング付け
モデル
• Seed-based Support Vector Machines (SSVM)：学習文書にカテゴリを
つけることによって，シードドリブンの学習セットを構築し，文書フィル
タリングのためにsklearnによって実装された1クラスSVMを採用

シード語の影響
• 既存のデータレス文書分類において，シード語が少ないほど文書分
類性能が悪化することが認識されている
• すべての方法において，ほとんどのフィルタリングタスクで顕著な
パフォーマンスの低下が見られる
• シード関連のフィードバックを DAZER に組み込み，シード語不足
に取り組む予定
• 1つの可能な解決策は DAZER のアーキテクチャを充実させて，few-
shot の文書フィルタリングを可能にすること

Conclusion
• zero-shot 文書フィルタリングのための新しい深層関連
モデル DAZER を提案
• 概念的な関連性を補足し，未知のカテゴリーにうまく
一般化するため，ゲート付き畳み込みネットワークと
カテゴリー独立型の敵対的学習という2種類の機能の
インタラクションを考案
• 2つの異なるタスクで提案手法の優位性を検証
• 将来的には DAZER のアーキテクチャを充実させ，い
くつかのラベル付きの例を組み込むことで few-shot 文
書のフィルタリングを可能に

A deep relevance model for zero shot document filtering

More Related Content

More from 広樹本間 (8)