SlideShare a Scribd company logo
レコードリンケージに基づく
研究分野マッピングの導出	
蔵川圭 孫媛	
国立情報学研究所 	
1	
日本計算機統計学会第28回シンポジウム
2014年11月14日-15日 沖縄科学技術大学院大学(OIST)
発表の構成	
•  背景
–  研究評価
–  研究のインプットとアウトプット
–  共通の研究分野分類によるインプット・アウトプット評価
•  目的
–  科研費研究分野分類とWeb of Science分野分類のマッピング
•  アプローチ
–  科研費データベースとWoSデータベースから2つの分類の分
割表を構築する*
–  分割表から、誤差を考慮したマッピングテーブルを導出する
•  実際のデータを用いたマッピングの例示
•  結論と今後の展望	
2	
蔵川圭, 孫媛, 相澤彰子: 科研費研究分野とWeb of Scienceサブジェクトエリアのマッピン
グ. NIIテクニカル・レポート. NII-2014-002J, 174 pages (2014).
	
*
研究開発の投資効果の現状分析	
•  研究開発における戦略や政策の重要性
– 科学技術基本計画
– 研究開発戦略室
•  投資効果の現状分析
•  研究開発の投資効果とは、研究開発プロセ
スへのリソースのインプットに対するアウト
プット	
3
•  効果分析では、インプットとアウトプットのリソースに関
連した属性とそこから導かれる指標を様々な分類軸を
導入して観察する
研究のインプットとアウトプット	
•  研究開発プロセスへのリソースのインプットと
アウトプット
4	
研究活動	
インプット	
 アウトプット	
研究者
研究開発費
実験資材
など	
研究論文
特許
開発成果物
など	
O = RA(I)
分類	
分類	
分類	
国
機関
セクター
研究分野
など	
一致している必要がある
本研究の目的	
•  アウトプットの一つとして論文に着目
–  論文に関する情報源であるWeb of Science(WoS)データベー
スを取り上げる
•  引用指標
•  インパクトファクター
•  h-インデックス
•  など
•  分類軸として取り上げられることの多い研究分野に着目
–  日本においては、インプットを科研費の研究分野分類を用いて
分類して議論することが多い
–  WoSデータベースでは、固有のサブジェクトカテゴリで指標が
算出されている
•  科研費の研究分野分類とWoSサブジェクトカテゴリの対応
関係を示したマッピングを導出することを目的とする	
5
科研費研究分野分類と
Web of Scienceカテゴリの対応	
6	
論
文	
論
文	
論
文	
論
文	
論
文	
論
文	
論
文	
論
文	
論
文	
論
文	
学術
誌	
学術
誌
学術
誌
学術
誌
学術
誌
科研費研究分野分類	
…	
Web of Science Category	
…
研究
課題	
研究
課題	
研究
課題	
研究
課題	
研究
課題	
発表
論文	
発表
論文	
発表
論文	
発表
論文	
発表
論文	
発表
論文	
発表
論文
分割表作成のフレームワーク	
7	
科研費研究分野	
WoSカテゴリ
ESIリサーチフィールド(予定)	
研究課題	
実績報告書	
発表文献	
学術雑誌	
論文	
同一性判定する	
包含	
包含	
包含	
分類	
 分類	
マッピングをとる
レコードリンケージ	
•  たとえば、論文の同一性判定	
–  文献の表記と論文の書誌事項の記載が若干異なる
ために同一性を判定するには単純な文字列比較で
はできない	
–  大量の文献と書誌を比較するためには特別なアルゴ
リズムを構築して同一性判定する	
•  ここでは、以下の技術を用いた2段階プロセスで
同一性判定を行う	
–  相澤らによって開発された高速に同定候補を挙げる
i-Linkage
–  機械学習アルゴリズムの一つで2値分類器である
SVM(Support Vector Machine)
8
科研費研究分野とWoSカテゴリを2軸
とする分割表の作成	
9	
2種類のカウント法:整数カウントと分数カウント	
4系・10分野・67分科・284細目	
251サブジェクトカテゴリ
f11 f12 f13
f21 f22 f23
f11 f12 f13
fij
...,Bi,...,B3,B2,B1
科研費研究分野	
WoSカテゴリ
S1, S2, S3, . . . , Sj, . . .
10	
251WoSサブジェクトカテゴリ x 67科研費分科 (整数カウント)
i-Linkageによる書誌同定候補のブ
ロッキング	
•  同定候補の範囲を狭め、より高コスト高性能
なSVMによる同定判定を限定適用し、トータ
ルな計算コストを最小化	
– Top-Nによる足切り	
– Scoreによる足切り
11	
ソース書誌 1件	
i-Linkage	
クエリ	
レスポンス	
Client	
ターゲット書誌 Top-N件 with Score	
3,925,776件 	
173,940件
ブロッキングの性能分析(1/2)	
12	
EN	
0 50000 100000 150000
0.00.20.40.60.81.0
Top-5 scores of ranked query (sampling step ratio = 1/1000)
Rank (top score in top-5)
Score
TRUE
FALSE
ブロッキングの性能分析(2/2)	
13	
EN	
Exact-1 Exact-2 Exact-3 Exact-4 Exact-5
TRUE/FALSE count in Exact-K (sampling step ratio = 1/1000)
02004006008001000
395
608
3
985
1
976
0
964
0
950
T
F
SVM モデルの性能分析	
Training data set	
 True / False	
 Accuracy	
 Precision	
 Recall 	
 F-measure	
All	
 393 / 4489	
 98.8326 95.1755 90.3846 92.5095
Top-5 & score>0.29	
 333 / 330 93.6680 94.8397 92.4777 93.5875
Top-5 & score>0.28	
 339 / 397	
 94.4280 95.3560 92.6292 93.8427
Top-3 & score>0.276	
 342 / 341 93.9919 94.7439 93.2689 93.9147
Top-3 & score>0.27	
 344 / 380 94.4673 95.8109 92.4118 94.0384
Top-3 & score>0.264	
 350 / 411 94.2174 94.7868 92.8571 93.6511
Top-1 & score>0.16	
 387 / 395 95.0162 94.9245 95.1012 94.9804
Top-1 & score>0.1	
 389 / 565	
 95.9145 95.6311 94.3387 94.9600
Top-1 & score>0.09	
 389 / 585	
 95.7932 95.2667 94.3387 94.7375
14	
10分割交差検定, Kernel type = Linear	
英語文献 正解データ 4882点から抽出した場合
誤差を考慮した分野マッピング	
•  ある論文の科研費研究分野とWoSカテゴリへの関係を示すカテゴ
リ変数 のクロス集計の度数 は、ゼロ以上の値を持つポア
ソン分布型の観測度数
•  ポアソン分布を仮定すると、信頼区間を算出できるが、それ以上
の有為な関係を導きだしたい
•  そこで、科研費のある研究分野 ごとにWoSカテゴリ の度数
を降順に並べ替え、      
となるよう順序付けたWoSカテゴリ を定める
•  ランク順分布は、様々な自然現象の中で、Zipfの法則として観察さ
れるが、
•  本実験で観察された分布は、ランクの最大値が固定のため、観測
値としてスケールフリー性を示しつつもランク幅が固定された分布
関数を仮定して、モデルの当てはめを行うこととする	
15	
Bi, Sj fij
Bi
fi1, · · · , fij, · · · , fin f0
i1 > · · · > f0
ij > · · · > f0
in
S0
S
離散一般化ベータ分布(DGBD)	
•  Naumis, G.G., Cocho, G.: Tail universalities in rank
distributions as an algebraic problem: The beta-like function.
Phys. A Stat. Mech. its Appl. 387, 1, 84–96 (2008).
•  Martínez-Mekler, G. et al.: Universality of rank-ordering
distributions in the arts and sciences. PLoS One. 4, 3, e4791
(2009).
•  A discrete version of the continuous random variable
generalized beta distribution
–  The discrete generalized beta distribution (DGBD)
16	
,where is the rank value, its maximum value, a normalized constant
and two fitting components
r
(a, b)
KR
K ⌘
RX
r=1
ra
(R + 1 r)b
f(r) = K
(R r + 1)b
ra
1
2
3
4
5
6
7
8
9
1010
20
30
40
50
60
70
80
90
100100
200
300
400
500
600
700
800
900
10001000
0 50 100 150 200
Rank
Count
field
l1-01-総合・新領域系
17	
(a, b, R2
) = (0.060624, 0.737532, 0.993102)
R2
= 1 deviance(Mfitted)/
X
i
{yi ¯yi}2
1
2
3
4
5
6
7
8
9
1010
20
30
40
50
60
70
80
90
100100
200
300
400
500
600
700
800
900
10001000
2000
3000
4000
5000
6000
0 50 100 150 200
Rank
Count
field
l1-01-総合・新領域系
l1-02-人文社会系
l1-03-理工系
l1-04-生物系
18	
l1-01: (a, b, R2
) = (0.060624, 0.737532, 0.993102)
l1-02: (a, b, R2
) = (0.081280, 1.374165, 0.986827)
l1-03: (a, b, R2
) = (0.020089, 1.086945, 0.992140)
l1-04: (a, b, R2
) = (0.022946, 0.974362, 0.993961)
1
2
3
4
5
6
7
8
9
1010
20
30
40
50
60
70
80
90
100100
200
300
400
500
600
700
800
900
10001000
2000
3000
0 50 100 150 200
Rank
Count
field
l2-01-総合領域
l2-02-複合新領域
l2-03-人文学
l2-04-社会科学
l2-05-数物系科学
19	
l2-01: (a, b, R2
) = (0.093843, 0.851990, 0.990958)
l2-02: (a, b, R2
) = (0.041544, 1.201662, 0.989316)
l2-03: (a, b, R2
) = (0.172278, 1.888834, 0.970143)
l2-04: (a, b, R2
) = (0.069682, 1.581107, 0.983542)
l2-05: (a, b, R2
) = (0.083868, 1.302309, 0.992243)
1
2
3
4
5
6
7
8
9
1010
20
30
40
50
60
70
80
90
100100
200
300
400
500
600
700
800
900
10001000
2000
3000
0 50 100 150 200
Rank
Count
field
l2-01-総合領域
l2-02-複合新領域
l2-03-人文学
l2-04-社会科学
l2-05-数物系科学
l2-06-化学
l2-07-工学
l2-08-生物学
l2-09-農学
l2-10-医歯薬学
20	
l2-01:(a, b, R2
) = (0.093843, 0.851991, 0.990958)
l2-02:(a, b, R2
) = (0.041544, 1.201662, 0.989316)
l2-03:(a, b, R2
) = (0.172279, 1.888833, 0.970143)
l2-04:(a, b, R2
) = (0.069683, 1.581106, 0.983542)
l2-05:(a, b, R2
) = (0.083868, 1.302309, 0.992243)
l2-06:(a, b, R2
) = (0.026035, 2.035807, 0.993300)
l2-07:(a, b, R2
) = (0.046317, 1.111342, 0.989435)
l2-08:(a, b, R2
) = (0.115364, 1.267557, 0.990455)
l2-09:(a, b, R2
) = (0.002781, 1.696132, 0.990693)
l2-10:(a, b, R2
) = (0.014864, 1.092725, 0.993683)
結果と考察	
•  科研費研究分野分類の4系ごと、10分野ごとに251WoSカテゴリ
へのランク-頻度分布に対し、離散一般化ベータ分布DGBDを
フィッティングし、決定係数R2 = 0.99 – 0.97を得た
•  科研費研究分野 ごとの頻度の総数 の多い方がR2が
1.0に近い傾向がある
•  ランクの幅や分布形状は多様
•  観測値として同一頻度の分布は同一ランクであり、フィッティングし
たモデルとあわせて、マッピングテーブルをどのように構成するか
という問題は残る
•  Rに標準の非線形最小二乗ソルバーnlsよりロバストなnlmrtを用
いたが、パラメータ初期値の与え方によって最適解の導出できな
い場合があり、依然初期値設定に工夫が必要である	
21	
X
j
fijBi
結論と今後の展望	
•  科研費の研究分野分類とWoSサブジェクトカテゴリの対応関係を
示したマッピングを導出することを目的とし、
•  科研費報告書データベースとWoSデータベースに対し、レコードリ
ンケージの技術(i-LinkageおよびSVM)を用いて、2つの分野の分
割表を作成、
•  分割表から誤差を考慮した分野マッピングテーブル作成のために、
そのランク順分布が普遍性を持って現れると仮定して離散一般化
ベータ分布DGBDを当てはめ、決定係数R2=0.99-0.97で当てはま
る様子を見た。
•  今後は以下を検討する
–  例示した以外の分野でのランク-頻度分布のフィッティング
–  WoSデータベースを用いた機関評価に用いられるESI(Essential
Science Indicator)リサーチフィールドの22分野に対するフッティング
–  非線形最小二乗法におけるパラメータ初期値の与え方	
22

More Related Content

PPTX
レコードリンケージに基づく科研費分野-WoS分野マッピング
PPTX
離散一般化ベータ分布を仮定した研究分野マッピングの導出
PDF
20130811_dtk2013_研究データのオープンアクセス
PDF
研究の世界入門B 科学的方法
PDF
ベイズ統計入門
PDF
研究データの価値を再発見する:オープンサイエンスの実現に向けた基盤構築
PPTX
WAICとWBICのご紹介
PDF
20150611_海外事例に見るオープンサイエンス推進における図書館の役割
レコードリンケージに基づく科研費分野-WoS分野マッピング
離散一般化ベータ分布を仮定した研究分野マッピングの導出
20130811_dtk2013_研究データのオープンアクセス
研究の世界入門B 科学的方法
ベイズ統計入門
研究データの価値を再発見する:オープンサイエンスの実現に向けた基盤構築
WAICとWBICのご紹介
20150611_海外事例に見るオープンサイエンス推進における図書館の役割

Similar to レコードリンケージに基づく科研費分野-WoS分野マッピングの導出 (18)

PDF
Appendix document of Chapter 6 for Mining Text Data
PDF
第4回MachineLearningのための数学塾資料(浅川)
PPTX
Prml 1.3~1.6 ver3
PPTX
ベイズ統計学の概論的紹介
PDF
第4章 確率的学習---単純ベイズを使った分類
PDF
Stanコードの書き方 中級編
PDF
カテゴリカルデータの解析 (Kashiwa.R#3)
PDF
PRML 10.4 - 10.6
PDF
SIGIR2012勉強会 23 Learning to Rank
PDF
Cvpr2011 reading-tsubosaka
PDF
データライブラリアンに求められる能力と人材育成 - NIIオープンフォーラム(2015)
PPTX
研究オープンデータにおける大学と研究者の役割
PDF
20141211柏セミナー
PDF
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
PDF
Cluster Analysis at REQUIRE 26, 2016/10/01
PDF
確率モデルを使ったグラフクラスタリング
PDF
PRML輪読#2
PDF
ベイズ入門
Appendix document of Chapter 6 for Mining Text Data
第4回MachineLearningのための数学塾資料(浅川)
Prml 1.3~1.6 ver3
ベイズ統計学の概論的紹介
第4章 確率的学習---単純ベイズを使った分類
Stanコードの書き方 中級編
カテゴリカルデータの解析 (Kashiwa.R#3)
PRML 10.4 - 10.6
SIGIR2012勉強会 23 Learning to Rank
Cvpr2011 reading-tsubosaka
データライブラリアンに求められる能力と人材育成 - NIIオープンフォーラム(2015)
研究オープンデータにおける大学と研究者の役割
20141211柏セミナー
Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料
Cluster Analysis at REQUIRE 26, 2016/10/01
確率モデルを使ったグラフクラスタリング
PRML輪読#2
ベイズ入門
Ad

More from National Institute of Informatics (18)

PPTX
Application of a Novel Subject Classification Scheme for a Bibliographic Data...
PPTX
Applying a new subject classification scheme for a database by a data-driven ...
PPTX
Toward universal information access on the digital object cloud
PDF
Making data typing efforts or automatically detecting data types for automat...
PDF
Applying tensor decompositions to author name disambiguation of common Japane...
PPTX
Emerging domain agnostic functionalities on the handle-centered networks
PPTX
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
PPTX
研究者識別子の重要性とORCIDアップデート
PPTX
科研費分野-トピック分類マトリックスへの主成分分析の適用
PDF
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
PDF
機械学習を用いたWeb上の産学連携関連文書の抽出
PDF
科研費データベースの分野分類とトピック分類の比較分析
PDF
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
PPTX
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
PDF
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
PDF
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
PDF
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
PDF
ORCIDのプロトタイプシステムと著者ID関連技術の動向
Application of a Novel Subject Classification Scheme for a Bibliographic Data...
Applying a new subject classification scheme for a database by a data-driven ...
Toward universal information access on the digital object cloud
Making data typing efforts or automatically detecting data types for automat...
Applying tensor decompositions to author name disambiguation of common Japane...
Emerging domain agnostic functionalities on the handle-centered networks
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
研究者識別子の重要性とORCIDアップデート
科研費分野-トピック分類マトリックスへの主成分分析の適用
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
機械学習を用いたWeb上の産学連携関連文書の抽出
科研費データベースの分野分類とトピック分類の比較分析
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
ORCIDのプロトタイプシステムと著者ID関連技術の動向
Ad

Recently uploaded (8)

PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析

レコードリンケージに基づく科研費分野-WoS分野マッピングの導出