Submit Search
国会図書館サーチの概要
2 likes
2,140 views
Kosuke Tanabe
第5回Solr勉強会での発表資料です。
Technology
Read more
1 of 17
Download now
Downloaded 39 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
More Related Content
PDF
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
kulibrarians
PDF
Introducing Spider 20101206(DTT#7)
Kentoku
PDF
GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみた
Tetsuo Yamabe
PDF
メタデータスキーマレジストリ MetaBridge
Mitsuharu Nagamori
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
PPTX
OData - Commerble
Hiroyuki Watanabe
PDF
HBase at Ameba
Toshihiro Suzuki
PDF
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
kulibrarians
Introducing Spider 20101206(DTT#7)
Kentoku
GMO プライベート DMP で ビッグデータ解析をするために アプリクラウドで Apache Spark の検証をしてみた
Tetsuo Yamabe
メタデータスキーマレジストリ MetaBridge
Mitsuharu Nagamori
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
OData - Commerble
Hiroyuki Watanabe
HBase at Ameba
Toshihiro Suzuki
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
Viewers also liked
(20)
PDF
AngularJSを通してDockerと触れ合った
pastelInc
PDF
AngularとWeb Audio APIはじめてみました
pastelInc
PPTX
Protractor로 web ui test 자동화 하기
GyeongSeok Seo
PDF
開発ライフサイクルから見たAngularJS
Mizuho Sakamaki
PDF
Linux Namespaces
Masami Ichikawa
PDF
サーバーサイドDartを試してみる
Satoshi KOBAYASHI
PDF
Angular+Dart=より快適なSPA開発
Satoshi KOBAYASHI
PDF
Windows Server 2016でコンテナを動かしてみた
Takashi Kanai
PDF
【dots. IT勉強会】開発環境のDocker化
Yuki Kanazawa
PDF
Docker로 서버 개발 편하게 하기
Dronix
PDF
Docker 활용법: dumpdocker
Jaehwa Park
PDF
RedmineとGitとスクラム
Takashi Okamoto
PDF
Enterprise Docker
Lee Ji Eun
PDF
Docker (Compose) 활용 - 개발 환경 구성하기
raccoony
PDF
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
akipii Oga
PDF
インフラエンジニアのためのRancherを使ったDocker運用入門
Masahito Zembutsu
PDF
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
Masahito Zembutsu
PDF
Angular 4がやってくる!? 新機能ダイジェスト
Masahiko Asai
PDF
Docker Swarm入門
Masahito Zembutsu
PDF
DockerでWordPressサイトを開発してみよう
mookjp
AngularJSを通してDockerと触れ合った
pastelInc
AngularとWeb Audio APIはじめてみました
pastelInc
Protractor로 web ui test 자동화 하기
GyeongSeok Seo
開発ライフサイクルから見たAngularJS
Mizuho Sakamaki
Linux Namespaces
Masami Ichikawa
サーバーサイドDartを試してみる
Satoshi KOBAYASHI
Angular+Dart=より快適なSPA開発
Satoshi KOBAYASHI
Windows Server 2016でコンテナを動かしてみた
Takashi Kanai
【dots. IT勉強会】開発環境のDocker化
Yuki Kanazawa
Docker로 서버 개발 편하게 하기
Dronix
Docker 활용법: dumpdocker
Jaehwa Park
RedmineとGitとスクラム
Takashi Okamoto
Enterprise Docker
Lee Ji Eun
Docker (Compose) 활용 - 개발 환경 구성하기
raccoony
第4回品川Redmine勉強会資料「チケット駆動開発のフレームワーク~現場の経験知からパターン言語へ(ベータ版)」
akipii Oga
インフラエンジニアのためのRancherを使ったDocker運用入門
Masahito Zembutsu
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
Masahito Zembutsu
Angular 4がやってくる!? 新機能ダイジェスト
Masahiko Asai
Docker Swarm入門
Masahito Zembutsu
DockerでWordPressサイトを開発してみよう
mookjp
Ad
Similar to 国会図書館サーチの概要
(17)
PPTX
Apache Solr 入門
順平 西本
PDF
Solrベースの全文検索サーバ Fess
Shinsuke Sugaya
PPT
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
Shun Shiramatsu
PDF
Linked Open Dataとは
Linked Open Dataチャレンジ実行委員会
ODP
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
Kosuke Tanabe
PPTX
RESTful Web API Design
Akinari Tsugo
PDF
図書館でAPIをスルメのように 味わうには
Takanori Hayashi
PDF
セマンテックウェブとRDFDB
Hirosuke Asano
PDF
全文検索入門
antibayesian 俺がS式だ
PDF
SPARQLアプリケーション開発
Toshiaki Katayama
PDF
BEAR.Sunday.meetup #0
Akihito Koriyama
PDF
Spark MLlib code reading ~optimization~
Kai Sasaki
PDF
Rails初心者レッスン lesson1 3rd edition
Goh Matsumoto
PPT
RubyとPost Gis
ngi group.
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
PPT
Erlang Web
Ngoc Dao
ODP
Next-L Enju 開発ワークショップ #8
Kosuke Tanabe
Apache Solr 入門
順平 西本
Solrベースの全文検索サーバ Fess
Shinsuke Sugaya
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
Shun Shiramatsu
Linked Open Dataとは
Linked Open Dataチャレンジ実行委員会
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
Kosuke Tanabe
RESTful Web API Design
Akinari Tsugo
図書館でAPIをスルメのように 味わうには
Takanori Hayashi
セマンテックウェブとRDFDB
Hirosuke Asano
全文検索入門
antibayesian 俺がS式だ
SPARQLアプリケーション開発
Toshiaki Katayama
BEAR.Sunday.meetup #0
Akihito Koriyama
Spark MLlib code reading ~optimization~
Kai Sasaki
Rails初心者レッスン lesson1 3rd edition
Goh Matsumoto
RubyとPost Gis
ngi group.
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
Erlang Web
Ngoc Dao
Next-L Enju 開発ワークショップ #8
Kosuke Tanabe
Ad
More from Kosuke Tanabe
(20)
PPTX
Next-L Enju ワークショップ #91
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #90
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #89
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #88
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #86
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #78
Kosuke Tanabe
PPTX
オープンソースの図書館システムNext-L Enjuのいまとこれから
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #75
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #76
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #74
Kosuke Tanabe
PPTX
nextlenju73
Kosuke Tanabe
PPTX
Next-L Enjuのご紹介(2018年版)
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #65
Kosuke Tanabe
PPTX
enju_ws_65
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #64
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #62
Kosuke Tanabe
PPTX
Next-L Enju ワークショップ #62
Kosuke Tanabe
PDF
Next-L Enju LRM
Kosuke Tanabe
PPTX
Enju ws 60
Kosuke Tanabe
PPTX
Next-L Enju 開発ワークショップ #59
Kosuke Tanabe
Next-L Enju ワークショップ #91
Kosuke Tanabe
Next-L Enju ワークショップ #90
Kosuke Tanabe
Next-L Enju ワークショップ #89
Kosuke Tanabe
Next-L Enju ワークショップ #88
Kosuke Tanabe
Next-L Enju ワークショップ #86
Kosuke Tanabe
Next-L Enju ワークショップ #78
Kosuke Tanabe
オープンソースの図書館システムNext-L Enjuのいまとこれから
Kosuke Tanabe
Next-L Enju ワークショップ #75
Kosuke Tanabe
Next-L Enju ワークショップ #76
Kosuke Tanabe
Next-L Enju ワークショップ #74
Kosuke Tanabe
nextlenju73
Kosuke Tanabe
Next-L Enjuのご紹介(2018年版)
Kosuke Tanabe
Next-L Enju ワークショップ #65
Kosuke Tanabe
enju_ws_65
Kosuke Tanabe
Next-L Enju ワークショップ #64
Kosuke Tanabe
Next-L Enju ワークショップ #62
Kosuke Tanabe
Next-L Enju ワークショップ #62
Kosuke Tanabe
Next-L Enju LRM
Kosuke Tanabe
Enju ws 60
Kosuke Tanabe
Next-L Enju 開発ワークショップ #59
Kosuke Tanabe
国会図書館サーチの概要
1.
国会図書館サーチの概要 2011/05/16
大谷 純
2.
サービス概要
国立国会図書館の新しい検索サービス 国立国会図書館が所蔵する図書の全てを探すことが可能 都道府県立図書館、政令指定都市の市立図書館の蔵書、 国立国会図書館デジタルアーカイブポータル(PORTA)が 収録している各種のデジタル情報も探すことが可能 本格サービス開始は平成24年1月を予定。現在はプロトタ イプ版 対象データは約3000万(収集データは約5800万件) ※「国立国会図書館サーチ」についてより抜粋
3.
システムの概要
PC・携帯 SRW 検索系Webアプリ SRU 横断検索 (Enjuベース) HTTP Open Search DB Solr Solr 検索・提供機能 (Ruby/Rails) OAI-PMH Solr メタデータ XML変換 インデック 収集 ス生成 FTP 書誌同定 グループ 差分抽出 DB更新 化 組織化機能 収集機能 (Hadoop/HDFS)
4.
システムの概要(収集機能)
PC・携帯 SRW 検索系Webアプリ SRU 横断検索 (Enjuベース) HTTP Open Search DB Solr Solr 検索・提供機能 (Ruby/Rails) OAI-PMH Solr メタデータ XML変換 インデック 収集 ス生成 FTP 書誌同定 グループ 差分抽出 DB更新 化 組織化機能 収集機能 (Hadoop/HDFS)
5.
システムの概要(収集機能)
横断検索 リアルタイムに他のサービスへの検索を行う Enjuとの連携にはSRUを利用 メタデータ収集機能 国会図書館の所蔵する書誌のメタデータの収集 他機関が提供しているメタデータの収集
6.
システムの概要(組織化機能)
PC・携帯 SRW 検索系Webアプリ SRU 横断検索 (Enjuベース) HTTP Open Search DB Solr Solr 検索・提供機能 (Ruby/Rails) OAI-PMH Solr メタデータ XML変換 インデック 収集 ス生成 FTP 書誌同定/ グループ 差分抽出 DB更新 化 組織化機能 収集機能 (Hadoop/HDFS)
7.
システムの概要(組織化機能)
XML変換 収集したメタデータを統一的なXMLに変換 以降の処理では必要に応じてXMLからデータを抜き出して利 用 書誌同定/グループ化 書誌同定 複数の図書館から集めたメタデータには同じ書誌に関するデータ が存在している。このデータを1つのデータに集約する グループ化 同一書誌ではないが、関連のある書誌(例:ドラえもん1巻と2巻な ど)をグルーピングする
8.
システムの概要(組織化機能)
差分抽出 変更のあったデータ(追加/更新/削除)を抽出 Solrインデックス作成 Solrのインデックスを作成 SOLR-1301に機能追加したモジュールを利用 DB更新 差分抽出で出力された追加/更新/削除のデータをDBに反映
9.
システムの概要(検索・提供機能)
PC・携帯 SRW 検索系Webアプリ SRU 横断検索 (Enjuベース) HTTP Open Search DB Solr Solr 検索・提供機能 (Ruby/Rails) OAI-PMH Solr メタデータ XML変換 インデック 収集 ス生成 FTP 書誌同定 グループ 差分抽出 DB更新 化 組織化機能 収集機能 (Hadoop/HDFS)
10.
システムの概要(検索・提供機能)
検索系Webアプリ(Enjuベース) 多種多様な提供プロトコルを採用 OAI-PMH、SRU/SRW、RSS、OpenSearchなど Solr+DBによる書誌検索の提供 翻訳機能の提供(日中韓英) 外部サイト連携(カーリル、ブクログなど) スマートフォン、携帯への対応 利用者登録機能 連想キーワード機能(GETAssoc連携)
11.
ENJUの改良点
データの持ち方の変更 1テーブルにXMLをそのまま登録 Enjuでは著者の管理なども行っているため正規化された テーブル構成になっている。 Sunspotの廃止(rsolrの利用) インデックス登録は全てHadoopで行う シームレスにSolrに登録できるSunspotの利点が生きない。 様々なSolrの機能を利用。様々なパラメータをハンドリング する必要あり
12.
国会図書館サーチでのSOLRの利用機能
分散検索(Distributed Search) ドキュメント数が多いため グループ化表示(Field Collapsing) グループ化されたデータの表示 クラスタリング Carrot2によるクラスタリング ファセット 絞り込み候補の提供 SOLR+Hadoop(SOLR-1301) Hadoop上でのインデックス作成 マルチコア インデックスの切り替え
13.
SOLR-1301の概要
Hadoop上でインデックス作成 入力データはHDFS上に配置 Map/Reduce、HDFSの仕組みを利用 Solrの設定にてスキーマを定義可能 入力がCSV形式のサンプルプログラムが付属 URL https://issues.apache.org/jira/browse/SOLR-1301
14.
SOLR-1301の概要
SOLR-1301の流れ 1, Writable HDFS 1,aaa,bbb… 2, Writable HDFS 2,ddd,bbb… Map Reduce CSV 3,aaa,bbb… 1,aaa,bbb… 3, Writable 4,aaa,bbb… 2,ddd,bbb… 4, Writable 3,aaa,bbb… 4,aaa,bbb… Map 5,ccc,yyy… 5,ccc,yyy… 5, Writable Reduce Map Mapフェーズでドキュメントを抽出 入力:CSVの1行 出力:ID、MapWritable(Solrフィールド名、値)に変換(1ドキュメン ト=1オブジェクト)
15.
SOLR-1301の概要
SOLR-1301の流れ 1, Writable HDFS 2, Writable HDFS 3, Writable Map Reduce Map 4, Writable Reduce Map 5, Writable Reduceフェーズでローカルディスクにインデックス作成 MapWritableをSolrInputDocumentに変換 EmbeddedSolrServerを利用し、インデックス作成
16.
SOLR-1301の概要
SOLR-1301の流れ HDFS HDFS Map Reduce Map Reduce Map 最後にHDFS上にインデックスをコピー
17.
SOLR-1301の改修内容 入力はXML XPathにてSolrインデックス対象フィールドのデータを
抽出 Senの利用 SenをHadoopの各ノードにインストールせずに利用出来る形 に修正 FieldCollapsing対応 CollapseのキーをReduceするときのキーに利用し、同一の Collapseキーをもつドキュメントは同一Shardに登録される
Download