SlideShare a Scribd company logo
日本語Linked Data Cloud
の現状
加藤文彦*1
,武田英明*2
,小出誠二*1
,大向一輝*2
*1
情報・システム研究機構,*2
国立情報学研究所
!
2014年度人工知能学会全国大会(第28回)
オーガナイズドセッション 「OS-19 Linked Dataとオントロジー」
1G5-OS-19b-7
2014-05-12
背景
• 数年前までは日本語のLinked
Dataは殆ど存在しなかった
• LOD cloud(2011-09-19版)
には国立国会図書館のみ
• SIGSWOやLODチャレンジ等
によって日本語のデータが増
加している
• 日本語における現状を把握し
たい
2
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
1. データ公開者が日本にいる人・組織等
2. 日本語ラベルあり
3. 1000トリプル以上
4. LOD CloudかJLDCのデータセットとの
RDFリンクが10以上
5. 参照解決可能,データダンプ,あるいは
SPARQLエンドポイントのいずれかに
よってデータセットを公開
JLDC: 日本語Linked Data Cloud
• 手動で各データセットのトリプ
ル数とRDFリンク数を調査
• 描画ツール: OmniGraffle
• 分類: LOD cloud参考に独断
• 採用基準に合致する場合は
LOD cloud内のデータセット
も明示
• 現状NDLのみ
採用基準
3
調査方法
• 対象: 主にSIGSWOやLODチャレンジ
• SPARQLエンドポイントがある場合
• トリプル数
• SELECT (COUNT(?s) AS ?c) { ?s ?p ?o }
• 一部のTripleStoreが自動的に追加するデータはそのまま含む
• 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測
• RDFリンク数
• 外部へリンクしているpredicateを調査
• 各predicate毎にobjectをFILTERしてCOUNT
• データダンプあるいは参照解決可能な場合
• データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査
4
JLDC: 2013-06-19
!
• 17データセット
• 2013-06-20 第2回オープ
ンデータ京都勉強会
• http://www.slideshare.net/
fumihiro/
20130620-23239372
5
JLDC: 2013-10-15
!
• 21データセット
• 分類変更
• 追加: RIHN, Earthquake
Archives Fukushima,
GeoLOD, Neji LOD
• LODIブログ
• http://linkedopendata.jp/?p=411
6
JLDC: 2014-03-10
!
• 27データセット
• 追加: Statdb, Senkyo, i-
Scover, Allie, LSD,
Michishiru
• 一部英語表記に合わせた
• 本原稿及びLODIブログ
• http://linkedopendata.jp/?p=486
7
8
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067
Government 3 5,415,553 54,351
Publication 11 (注)82,097,407 (注)1,238,166
UGC 1 140,554 1,994
Total 27 (注)375,788,956 (注)3,959,722
LOD cloud 295 31,634,213,770 503,998,829
注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分
2014-03-10版
9
分類 データセット数 トリプル数 外部リンク数
Industry 1 87,983 112
Geographic 2 63,98,759 15,869
Life Science 4 140,510,938 278,023
Cross-domain 3 108,000,143 1,651,140
Media 2 33,137,619 720,067
Government 3 5,415,553 54,351
Publication 12 (注)494,567,525 (注)14,225,715
UGC 0 0 0
Total 28 (注)788,118,520 (注)16,945,277
LOD cloud 295 31,634,213,770 503,998,829
注: CiNii Booksを除く
2014-05-12暫定版
採用外データセット例
• RDFリンクがない
• 該当例: Radiation LOD等多数
• RDFリンクが間違っている
• 該当例: アイドルLOD
• predicateがowl:seeAlso 且つリンク先がentity URIではない
• 調査時に利用できなかった
• 該当例: Yahoo!カテゴリLOD
10
LOD cloud基準を適用
27 → 13
11
1. (参照)解決可能なhttp(s) URIs
2. 良く利用される形式でのRDFデータの解
決
• content-negotiationかどうかは問わない
3. 1000トリプル以上
4. 既存のLOD cloudのデータセットとの
RDFリンクが50以上
5. RDFクローリングまたはRDFダンプ,あ
るいはSPARQLエンドポイントによって
データセット全体にアクセス可能
6. 認証なしかつ無料でアクセス可能
LOD cloud採用候補
採用基準
12
LOD cloud 採用外ポイント
• entity URIsが解決可能ではなく,SPARQLエンドポイント
を通して提供されている
• entity URIsが解決可能ではなく,RDFダンプとして提供さ
れている
• オリジナルのデータなしに既存のRDFデータセットのキャッ
シュ,コピーあるいは集約をしている
• クライアントのデータ入力に対してRDFを生成するサービス
• 他のデータセットとリンクされていない
13
LOD cloud調査方法
データ公開者にトリプル数や
外部リンク数等を自己申告さ
せて半自動生成
1.datahub (http://datahub.io) にデータセ
ット登録
2.登録内容をバリデータ(http://
validator.lod-cloud.net)に適合
3.LOD cloud作者に連絡
データセット公開者
• lodcloud groupに,適合するデータセッ
トを追加
• lodcloud groupからCKAN APIでデータ
取得してOmniGraffleファイルを生成
• VoID Generatorは公開されているが
OmniGraffleの部分は非公開
• https://github.com/lod-cloud/
datahub2void
• http://lod-cloud.net/data/void.ttl
LOD cloud作成者
14
基準外のデータセット数
LOD cloud基準
データセット数
(重複あり)
1 解決可能なhttp URIs 8
2 RDFデータの解決 9
3 1000トリプル以上 0
4 50以上のRDFリンク 4
5 データセット全体へのアクセス 2
6 認証なしかつ無料のアクセス 1
15
基準1及び2
• 該当例: i-Scover等
• (2014-05-19追記: i-Scoverは基準
を満たしているとの指摘を受けてい
ます.訂正を含んだ最新の図につい
ては近日公開予定です.)
• 殆どは1+2両方不足だが,青空文庫
LODは2のみ
• Linked Data4原則の2と3に相当
• 基準外だとただのRDFデータセット
LOD cloud基準
データセット
数(重複あり)
1
解決可能なhttp
URIs
8
2 RDFデータの解決 9
16
基準4
• 該当例: saveMLAK等
• 細かいデータセットを省く
ため
• リンクが多いから良いデー
タセットとは必ずしも限ら
ない
LOD cloud基準
データセット
数(重複あり)
4
50以上のRDFリ
ンク
4
17
基準5
• 該当例: CiNii, KAKEN
• 参照解決可能だがデータ全
体にアクセスするのは困難
• NIIのデータについては現在
収集して計測中
LOD cloud基準
データセット
数(重複あり)
5
データセット全体
へのアクセス
2
18
基準6
• 該当例: PinQA
• 正確にはLOD cloudの基準
ではなく,LOD cloudにお
けるオープンの定義
• 但しPinQAは2014年4月25
日にサービスが終了したた
めそもそもデータセットが
なくなった
LOD cloud基準
データセット
数(重複あり)
6
認証なしかつ無料
のアクセス
1
19
Future Work
• 調査中のデータセット
• データセット全体の取得: CiNii, KAKEN等
• 前回利用できなかったものの再調査
• 外部リンクがないデータセットを含んだ調査
• 調査作業の改善
• (データセット公開者へ)datahubへの登録やVoIDの提供を推奨
• JLDCのデータを整備してVoIDで公開
• 図生成の自動化
20
まとめ
• 日本語におけるLinked Dataの現状を調査して日本
語Linked Data Cloudを作成した
• 本家LOD cloudに採用される可能性を調査した
• データセット提供者には本家のバリデータを通して
基準を満たすのを推奨したい
21

More Related Content

PDF
LODを始めるにあたって「最初に試すとよい」ツールの紹介
PDF
Orb 仮想通貨・地域通貨ソリューション
PDF
第4回 AIツール入門講座 Linked Open Data入門
PDF
Linked Open Data勉強会2020 前編:LODの基礎・作成・公開
PDF
Linked Open Dataの基礎と これからの情報活用
PPTX
PDF
ガバメント分野におけるLODの活用例
PDF
Linked Open Data (LOD)の基礎講座
LODを始めるにあたって「最初に試すとよい」ツールの紹介
Orb 仮想通貨・地域通貨ソリューション
第4回 AIツール入門講座 Linked Open Data入門
Linked Open Data勉強会2020 前編:LODの基礎・作成・公開
Linked Open Dataの基礎と これからの情報活用
ガバメント分野におけるLODの活用例
Linked Open Data (LOD)の基礎講座

What's hot (20)

PDF
ナレッジグラフ/LOD利用技術の入門(後編)
PDF
第5回AIツール入門講座 Linked Open Dataの現状とその活用
PDF
「LODの概要」と 「LODとオープンデータに関する最新情報」
PPTX
情報の構造化@Linked Open Data連続講座(2014.6.2)
PPTX
WiredTigerを詳しく説明
PDF
SPARQLでオープンデータ活用!
PDF
LOD公開のレシピ(第3回LODとオントロジー勉強会)
PDF
Introduction of neo4j
PDF
LODを使ってみよう!
PDF
オープンデータカタログの先
PDF
OrientDBのご紹介 OSC2014 Tokyo/Fall LT
PPTX
DBpedia Japaneseとは?
PDF
Linked Data Cloudの話
PDF
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
PDF
LOD (Linked Open Data) の動向と今後の展望
PDF
LOD連続講義 第5回「LODの作り方・使い方」
PDF
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望
PDF
LODとメディア ニューヨークタイムズ最新事情
PDF
大阪市オープンデータポータルAPI(SPARQL)勉強会
ナレッジグラフ/LOD利用技術の入門(後編)
第5回AIツール入門講座 Linked Open Dataの現状とその活用
「LODの概要」と 「LODとオープンデータに関する最新情報」
情報の構造化@Linked Open Data連続講座(2014.6.2)
WiredTigerを詳しく説明
SPARQLでオープンデータ活用!
LOD公開のレシピ(第3回LODとオントロジー勉強会)
Introduction of neo4j
LODを使ってみよう!
オープンデータカタログの先
OrientDBのご紹介 OSC2014 Tokyo/Fall LT
DBpedia Japaneseとは?
Linked Data Cloudの話
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
LOD (Linked Open Data) の動向と今後の展望
LOD連続講義 第5回「LODの作り方・使い方」
Linked Open Data(LOD)を用いた オープンデータの活用事例と今後の展望
LODとメディア ニューヨークタイムズ最新事情
大阪市オープンデータポータルAPI(SPARQL)勉強会
Ad

Similar to 日本語Linked Data Cloudの現状 (20)

PDF
DBpedia Japanese
PDF
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
PPTX
工業分野におけるlinked open data活用に向けた取り組み
PDF
オープンデータの技術よりな話
PPTX
20151028koyama
PDF
オープンデータと Linked Open Data(LOD)@神戸R
PDF
「オープンなジオデータを考える」資料
PPTX
オープンデータをLOD化するデータソン in 高槻
PDF
Learn about ODF / ODFを見なおそう
PDF
オープンデータとLinked Open Data
PPTX
Linked Data in Japan/Semantic Conference In Japan 2010
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PPTX
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-
PDF
OpenDocument interoperability test workshop
PPTX
CDH4->5 update苦労話
PDF
Geonamesjp_0312
PPTX
LODで広がる オープンデータ活用の可能性
PDF
千代田区Excelデータの位置情報化
PDF
座談会資料(事前配布) 20161217
DBpedia Japanese
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
工業分野におけるlinked open data活用に向けた取り組み
オープンデータの技術よりな話
20151028koyama
オープンデータと Linked Open Data(LOD)@神戸R
「オープンなジオデータを考える」資料
オープンデータをLOD化するデータソン in 高槻
Learn about ODF / ODFを見なおそう
オープンデータとLinked Open Data
Linked Data in Japan/Semantic Conference In Japan 2010
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Linked Dataの基本原則 -LODを公開するときに知っておきたい基本技術-
OpenDocument interoperability test workshop
CDH4->5 update苦労話
Geonamesjp_0312
LODで広がる オープンデータ活用の可能性
千代田区Excelデータの位置情報化
座談会資料(事前配布) 20161217
Ad

More from Fumihiro Kato (20)

PDF
オープンなデータベースを利用した行動計画提案に関する研究
PDF
DBpedia Japanese
PDF
ウィキペディアタウン: 市民による地域情報化の一手法
PDF
DBpedia Japanese 運営の現状
PDF
シビックテック: インターネット時代の市民と行政の協働
PDF
Open Park Yokohama: 公園LODの試作
PDF
ウィキペディアタウン
PDF
DBpedia in the Japanese LOD cloud
PDF
Open Park Yokohama
PDF
データポータルソフトウェアCKAN
PDF
データカタログソフトウェア CKAN
PDF
LOD: Linked Open Data
PDF
スキーマとURI
PDF
CKAN日本語コミュニティの現状と課題
PDF
sgvizler
PDF
えほん関連検索
PDF
サーバサイドコース Sinatra + SPARQL 編
PDF
パートナーデータ紹介 NII, LODAC, 鯖江, OSM
PDF
オープンデータとその技術 - 学術情報サービスとオープンデータ
PDF
LODI紹介
オープンなデータベースを利用した行動計画提案に関する研究
DBpedia Japanese
ウィキペディアタウン: 市民による地域情報化の一手法
DBpedia Japanese 運営の現状
シビックテック: インターネット時代の市民と行政の協働
Open Park Yokohama: 公園LODの試作
ウィキペディアタウン
DBpedia in the Japanese LOD cloud
Open Park Yokohama
データポータルソフトウェアCKAN
データカタログソフトウェア CKAN
LOD: Linked Open Data
スキーマとURI
CKAN日本語コミュニティの現状と課題
sgvizler
えほん関連検索
サーバサイドコース Sinatra + SPARQL 編
パートナーデータ紹介 NII, LODAC, 鯖江, OSM
オープンデータとその技術 - 学術情報サービスとオープンデータ
LODI紹介

日本語Linked Data Cloudの現状

  • 2. 背景 • 数年前までは日本語のLinked Dataは殆ど存在しなかった • LOD cloud(2011-09-19版) には国立国会図書館のみ • SIGSWOやLODチャレンジ等 によって日本語のデータが増 加している • 日本語における現状を把握し たい 2 Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  • 3. 1. データ公開者が日本にいる人・組織等 2. 日本語ラベルあり 3. 1000トリプル以上 4. LOD CloudかJLDCのデータセットとの RDFリンクが10以上 5. 参照解決可能,データダンプ,あるいは SPARQLエンドポイントのいずれかに よってデータセットを公開 JLDC: 日本語Linked Data Cloud • 手動で各データセットのトリプ ル数とRDFリンク数を調査 • 描画ツール: OmniGraffle • 分類: LOD cloud参考に独断 • 採用基準に合致する場合は LOD cloud内のデータセット も明示 • 現状NDLのみ 採用基準 3
  • 4. 調査方法 • 対象: 主にSIGSWOやLODチャレンジ • SPARQLエンドポイントがある場合 • トリプル数 • SELECT (COUNT(?s) AS ?c) { ?s ?p ?o } • 一部のTripleStoreが自動的に追加するデータはそのまま含む • 同一エンドポイント上にGRAPHで複数データセットが含まれている場合はGRAPH指定して個別に計測 • RDFリンク数 • 外部へリンクしているpredicateを調査 • 各predicate毎にobjectをFILTERしてCOUNT • データダンプあるいは参照解決可能な場合 • データをダウンロードして手元でエンドポイントを立てた後に,上記の方法で調査 4
  • 5. JLDC: 2013-06-19 ! • 17データセット • 2013-06-20 第2回オープ ンデータ京都勉強会 • http://www.slideshare.net/ fumihiro/ 20130620-23239372 5
  • 6. JLDC: 2013-10-15 ! • 21データセット • 分類変更 • 追加: RIHN, Earthquake Archives Fukushima, GeoLOD, Neji LOD • LODIブログ • http://linkedopendata.jp/?p=411 6
  • 7. JLDC: 2014-03-10 ! • 27データセット • 追加: Statdb, Senkyo, i- Scover, Allie, LSD, Michishiru • 一部英語表記に合わせた • 本原稿及びLODIブログ • http://linkedopendata.jp/?p=486 7
  • 8. 8 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 11 (注)82,097,407 (注)1,238,166 UGC 1 140,554 1,994 Total 27 (注)375,788,956 (注)3,959,722 LOD cloud 295 31,634,213,770 503,998,829 注: Publicationのトリプル数及び外部リンク数はCiNii及びKAKENを除いた分 2014-03-10版
  • 9. 9 分類 データセット数 トリプル数 外部リンク数 Industry 1 87,983 112 Geographic 2 63,98,759 15,869 Life Science 4 140,510,938 278,023 Cross-domain 3 108,000,143 1,651,140 Media 2 33,137,619 720,067 Government 3 5,415,553 54,351 Publication 12 (注)494,567,525 (注)14,225,715 UGC 0 0 0 Total 28 (注)788,118,520 (注)16,945,277 LOD cloud 295 31,634,213,770 503,998,829 注: CiNii Booksを除く 2014-05-12暫定版
  • 10. 採用外データセット例 • RDFリンクがない • 該当例: Radiation LOD等多数 • RDFリンクが間違っている • 該当例: アイドルLOD • predicateがowl:seeAlso 且つリンク先がentity URIではない • 調査時に利用できなかった • 該当例: Yahoo!カテゴリLOD 10
  • 12. 1. (参照)解決可能なhttp(s) URIs 2. 良く利用される形式でのRDFデータの解 決 • content-negotiationかどうかは問わない 3. 1000トリプル以上 4. 既存のLOD cloudのデータセットとの RDFリンクが50以上 5. RDFクローリングまたはRDFダンプ,あ るいはSPARQLエンドポイントによって データセット全体にアクセス可能 6. 認証なしかつ無料でアクセス可能 LOD cloud採用候補 採用基準 12
  • 13. LOD cloud 採用外ポイント • entity URIsが解決可能ではなく,SPARQLエンドポイント を通して提供されている • entity URIsが解決可能ではなく,RDFダンプとして提供さ れている • オリジナルのデータなしに既存のRDFデータセットのキャッ シュ,コピーあるいは集約をしている • クライアントのデータ入力に対してRDFを生成するサービス • 他のデータセットとリンクされていない 13
  • 14. LOD cloud調査方法 データ公開者にトリプル数や 外部リンク数等を自己申告さ せて半自動生成 1.datahub (http://datahub.io) にデータセ ット登録 2.登録内容をバリデータ(http:// validator.lod-cloud.net)に適合 3.LOD cloud作者に連絡 データセット公開者 • lodcloud groupに,適合するデータセッ トを追加 • lodcloud groupからCKAN APIでデータ 取得してOmniGraffleファイルを生成 • VoID Generatorは公開されているが OmniGraffleの部分は非公開 • https://github.com/lod-cloud/ datahub2void • http://lod-cloud.net/data/void.ttl LOD cloud作成者 14
  • 15. 基準外のデータセット数 LOD cloud基準 データセット数 (重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 3 1000トリプル以上 0 4 50以上のRDFリンク 4 5 データセット全体へのアクセス 2 6 認証なしかつ無料のアクセス 1 15
  • 16. 基準1及び2 • 該当例: i-Scover等 • (2014-05-19追記: i-Scoverは基準 を満たしているとの指摘を受けてい ます.訂正を含んだ最新の図につい ては近日公開予定です.) • 殆どは1+2両方不足だが,青空文庫 LODは2のみ • Linked Data4原則の2と3に相当 • 基準外だとただのRDFデータセット LOD cloud基準 データセット 数(重複あり) 1 解決可能なhttp URIs 8 2 RDFデータの解決 9 16
  • 17. 基準4 • 該当例: saveMLAK等 • 細かいデータセットを省く ため • リンクが多いから良いデー タセットとは必ずしも限ら ない LOD cloud基準 データセット 数(重複あり) 4 50以上のRDFリ ンク 4 17
  • 18. 基準5 • 該当例: CiNii, KAKEN • 参照解決可能だがデータ全 体にアクセスするのは困難 • NIIのデータについては現在 収集して計測中 LOD cloud基準 データセット 数(重複あり) 5 データセット全体 へのアクセス 2 18
  • 19. 基準6 • 該当例: PinQA • 正確にはLOD cloudの基準 ではなく,LOD cloudにお けるオープンの定義 • 但しPinQAは2014年4月25 日にサービスが終了したた めそもそもデータセットが なくなった LOD cloud基準 データセット 数(重複あり) 6 認証なしかつ無料 のアクセス 1 19
  • 20. Future Work • 調査中のデータセット • データセット全体の取得: CiNii, KAKEN等 • 前回利用できなかったものの再調査 • 外部リンクがないデータセットを含んだ調査 • 調査作業の改善 • (データセット公開者へ)datahubへの登録やVoIDの提供を推奨 • JLDCのデータを整備してVoIDで公開 • 図生成の自動化 20
  • 21. まとめ • 日本語におけるLinked Dataの現状を調査して日本 語Linked Data Cloudを作成した • 本家LOD cloudに採用される可能性を調査した • データセット提供者には本家のバリデータを通して 基準を満たすのを推奨したい 21