国会図書館サーチの概要

国会図書館サーチの概要
2011/05/16 大谷純

サービス概要
 国立国会図書館の新しい検索サービス

 国立国会図書館が所蔵する図書の全てを探すことが可能

 都道府県立図書館、政令指定都市の市立図書館の蔵書、
国立国会図書館デジタルアーカイブポータル（PORTA）が
収録している各種のデジタル情報も探すことが可能

 本格サービス開始は平成24年1月を予定。現在はプロトタ
イプ版

 対象データは約3000万（収集データは約5800万件）
※「国立国会図書館サーチ」についてより抜粋

システムの概要
PC・携帯

SRW
検索系Webアプリ SRU
横断検索（Enjuベース）
HTTP Open
Search

DB
Solr
Solr

検索・提供機能
（Ruby/Rails）

OAI-PMH
Solr
メタデータ
XML変換インデック
収集
ス生成
FTP

書誌同定
グループ差分抽出 DB更新
化

組織化機能
収集機能（Hadoop/HDFS）

システムの概要（収集機能）
PC・携帯

SRW
HTTP Open
Search

DB
Solr
Solr

（Ruby/Rails）

OAI-PMH
Solr
メタデータ
収集
ス生成
FTP

書誌同定
化

組織化機能

システムの概要（収集機能）
 横断検索
 リアルタイムに他のサービスへの検索を行う
 Enjuとの連携にはSRUを利用

 メタデータ収集機能
 国会図書館の所蔵する書誌のメタデータの収集
 他機関が提供しているメタデータの収集

システムの概要（組織化機能）
PC・携帯

SRW
HTTP Open
Search

DB
Solr
Solr

（Ruby/Rails）

OAI-PMH
Solr
メタデータ
収集
ス生成
FTP

書誌同定/
化

組織化機能

 XML変換
 収集したメタデータを統一的なXMLに変換
 以降の処理では必要に応じてXMLからデータを抜き出して利
用

 書誌同定/グループ化
 書誌同定
 複数の図書館から集めたメタデータには同じ書誌に関するデータ
が存在している。このデータを1つのデータに集約する
 グループ化
 同一書誌ではないが、関連のある書誌（例：ドラえもん1巻と2巻な
ど）をグルーピングする

 差分抽出
 変更のあったデータ（追加/更新/削除）を抽出

 Solrインデックス作成
 Solrのインデックスを作成
 SOLR-1301に機能追加したモジュールを利用

 DB更新
 差分抽出で出力された追加/更新/削除のデータをDBに反映

システムの概要（検索・提供機能）
PC・携帯

SRW
HTTP Open
Search

DB
Solr
Solr

（Ruby/Rails）

OAI-PMH
Solr
メタデータ
収集
ス生成
FTP

書誌同定
化

組織化機能

システムの概要（検索・提供機能）
 検索系Webアプリ（Enjuベース）
 多種多様な提供プロトコルを採用
 OAI-PMH、SRU/SRW、RSS、OpenSearchなど

 Solr＋DBによる書誌検索の提供
 翻訳機能の提供（日中韓英）
 外部サイト連携（カーリル、ブクログなど）
 スマートフォン、携帯への対応
 利用者登録機能
 連想キーワード機能（GETAssoc連携）

ENJUの改良点
 データの持ち方の変更
 1テーブルにXMLをそのまま登録
Enjuでは著者の管理なども行っているため正規化された
テーブル構成になっている。

 Sunspotの廃止（rsolrの利用）
 インデックス登録は全てHadoopで行う
シームレスにSolrに登録できるSunspotの利点が生きない。

 様々なSolrの機能を利用。様々なパラメータをハンドリング
する必要あり

国会図書館サーチでのSOLRの利用機能
 分散検索（Distributed Search）
 ドキュメント数が多いため
 グループ化表示（Field Collapsing）
 グループ化されたデータの表示
 クラスタリング
 Carrot2によるクラスタリング
 ファセット
 絞り込み候補の提供
 SOLR+Hadoop（SOLR-1301）
 Hadoop上でのインデックス作成
 マルチコア
 インデックスの切り替え

SOLR-1301の概要
 Hadoop上でインデックス作成
 入力データはHDFS上に配置
 Map/Reduce、HDFSの仕組みを利用
 Solrの設定にてスキーマを定義可能

 入力がCSV形式のサンプルプログラムが付属

 URL
https://issues.apache.org/jira/browse/SOLR-1301

SOLR-1301の概要
 SOLR-1301の流れ

1, Writable
HDFS 1,aaa,bbb…
2, Writable
HDFS
2,ddd,bbb…
Map Reduce
CSV
3,aaa,bbb…
1,aaa,bbb… 3, Writable
4,aaa,bbb…
2,ddd,bbb… 4, Writable
3,aaa,bbb…
4,aaa,bbb…
Map
5,ccc,yyy… 5,ccc,yyy…

5, Writable Reduce
Map

 Mapフェーズでドキュメントを抽出
 入力：CSVの1行
 出力：ID、MapWritable（Solrフィールド名、値）に変換（1ドキュメン
ト=1オブジェクト）

SOLR-1301の概要

1, Writable
HDFS 2, Writable
HDFS
3, Writable
Map Reduce

Map

4, Writable
Reduce
Map 5, Writable

 Reduceフェーズでローカルディスクにインデックス作成
 MapWritableをSolrInputDocumentに変換
 EmbeddedSolrServerを利用し、インデックス作成

SOLR-1301の概要

HDFS HDFS
Map Reduce

Map

Reduce
Map

 最後にHDFS上にインデックスをコピー

SOLR-1301の改修内容
 入力はXML
 XPathにてSolrインデックス対象フィールドのデータを
抽出

 Senの利用
 SenをHadoopの各ノードにインストールせずに利用出来る形
に修正

 FieldCollapsing対応
 CollapseのキーをReduceするときのキーに利用し、同一の
Collapseキーをもつドキュメントは同一Shardに登録される

国会図書館サーチの概要

More Related Content

Viewers also liked (20)

Similar to 国会図書館サーチの概要 (17)

More from Kosuke Tanabe (20)

国会図書館サーチの概要