SIG-SWO 鯖江 2012年10月5日




Linked Dataにおける識別子とスキー
              マ


           武田英明
       国立情報学研究所
        takeda@nii.ac.jp
                    Hideaki Takeda / National Institute of Informatics
どのようにして
コンピュータにデータを入れる?
• データをどのように記述するか?
 – 個別のデータの記述の仕方
  • スキーマ/クラス/概念 (Schema/Class/Concept)
 – データ記述間の関係
  • オントロジー/タキソノミー/シソーラス
    (Ontology/Taxonomy/Thesaurus)


• 個々のデータをどう参照するか?
 – 個別データの識別の仕方
  • 識別子(Identifier)
 – 識別子同士の関係
                      Hideaki Takeda / National Institute of Informatics
Architecture for the Semantic Web
   クラスの世界(Ontologies)
   インスタンスの世界
    (Linked Data)




        Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
                                       Hideaki Takeda / National Institute of Informatics
Layers of Semantic Web
• Ontology
   – クラスの記述
   – RDFS, OWL
   – ontology buildingの課題
       • Ontology buildingはそもそも難しい
           – 整合性、一貫性、論理性
       • オントロジー間の関係はもっと難しい


 Descriptions on classes
                                    Ontology

 インスタンスに関する記述
                                    Linked Data


                           Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
                                              Hideaki Takeda / National Institute of Informatics
Layers of Semantic Web
• Linked Data
   – 個物の記述
   – RDF + (RDFS, OWL)
   – いい点
       • 書きやすい(事実の記述)
       • リンクしやすい (事実間の関係)
   – よくない点
       • 複雑な構造は書きづらい
       • それでもクラス記述は必要 (-> ontology)
  Descriptions on classes
                                     Ontology

 Description on instances
                                     Linked Data


                            Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
                                               Hideaki Takeda / National Institute of Informatics
エンティティの識別子の重要性
• 全てのモノは識別可能でないといけない
• 人間は曖昧な識別子あるいは文脈があれ
  ば識別子なしでも識別可能
• Webにおけては、文脈はないか使えない。
• なので、全てのモノに識別子を与えない
  といけない




           Hideaki Takeda / National Institute of Informatics
識別子のシステム
• 能力は人間の情報処理の基本能力
 – 名付け:
  • 人の名前、ペットの名前、いろいろなものの名前
  • 数が多くなければOK
 – システマティックな識別子の必要
  • 大量のモノがあるとき
    – 電話番号、郵便番号、パスポート番号、製造番号、ISBN
• システマティックな識別子への要求仕様
 – 識別子は安定していて持続可能
 – 唯一性の保証
 – 識別子発行者が信頼でき持続可能


                 Hideaki Takeda / National Institute of Informatics
Webにおける識別子システム
• これまでの識別子システムの大きな差はない
• 違い
 – システムを超えた利用
 – 真に電子化

• Webにおける識別子システムへの要求仕様
 – 識別子は安定していて持続可能 (モノがなくなっ
   ても)
 – システムを超えて唯一性の保証
 – 識別子に関する記述が手に入ること
  • モノ経由では手に入らない!
 – 識別子発行者が信頼でき持続可能
                Hideaki Takeda / National Institute of Informatics
LODにおける解決法
• Webにおける識別子システムへの要求仕様
 – 識別子は安定していて持続可能
  • 個別の発行者に依存
 – システムを超えて唯一性の保証
  • URI
 – 識別子に関する記述が手に入ること
  • 参照解決可能なURI
 – 識別子発行者が信頼でき持続可能
  • Webがある限り


                 Hideaki Takeda / National Institute of Informatics
いつかの例
ISBN(International Standard Book Number)
 • 概要
   – 商用の書籍への唯一性のある番号付与
   – 13 数字
      • Prefix: 978 or 979 (EAN codeとの互換性のため)
      • Group(言語・国別グループ): 1から5文字
      • Publisher code:
      • Item number:
      • Check num: 1文字
   – 管理方法: 2層構造
      • National ISBN Agency – Publisher
 • 要求仕様との整合性
   –   1. (安定したID) たぶん
   –   2. (唯一ID) あり、しかしURIではない
   –   3. (参照解決可能) ない(amazonが代わり?)
   –   4. (信頼できる発行者) あり
                                Hideaki Takeda / National Institute of Informatics
いくつかの例
       DOI (Digital Object Identifier)
• 概要
  – 科学に関わるデジタルオブジェクトへの識別子(多くは論文)
  – An unfixed string: “prefix/suffix”
     • Prefix: 出版社に割り当て
     • Suffix: デジタルオブジェクトに割り当て
  – 管理: 3層構造
     • IDF (International DOI Foundation) – Registration Agency – 出版社
• 要求仕様との整合性
  – 1. (安定したID) OK
  – 2. (唯一ID) あり、URI
  – 3. (参照解決可能) オブジェクトページへの誘導(しかしメタデータではな
    い)
  – 4. (信頼できる発行者)OK



                                     Hideaki Takeda / National Institute of Informatics
いくつかの例
          Dbpedia (識別子として)
• 概要
  – A wikipedia page
  – wikipedia pageの名前が識別子
      • 手動で管理
           – Disambiguation page
           – Redirect page
• 要求仕様との整合性
  –   1. (安定したID) たぶん(でも消滅、名前変更、内容変更もあり)
  –   2. (唯一ID) あり、URI
  –   3. (参照解決可能) メタデータ(RDF)
  –   4. (信頼できる発行者)たぶん




                                   Hideaki Takeda / National Institute of Informatics
識別子間の関係
• 複数の識別子システムの共存
    – カバー範囲の違い
    – 観点の違い
   一つのモノが複数の識別子をもちうる
   異なる識別子システムの識別子間のマッピングが必
    要
   方法:特殊なプロパティ
       owl:sameAs, (rdfs:seeAlso, skos:exactMatch)
       http://sameas.org
   問題
       どうやって関係を発見するか
       owl:sameAsによる論理的不整合
       メンテナンス
                                    Hideaki Takeda / National Institute of Informatics
LOD Cloud
(Linking Open Data)




         Hideaki Takeda / National Institute of Informatics
識別子のまとめ
• 識別子はLODのコア
 – データの手に入りやすさ Data availability
 – データの一貫性 Data inconsistency
 – データの相互運用性 Data interoperability
• よい識別子システムを構築することは信
  頼でき持続可能なLODをつくることにつな
  がる



                  Hideaki Takeda / National Institute of Informatics
情報を構造化する
• 多様な情報構造化のレベル
 – キーワード、タグ Keywords, tags
    • 特徴を示すような自由に選んだ語、語句
 – 統制語彙 Controlled vocabulary
    • 語、規定された語句の集合
    • 例:国名リスト、名称典拠
 – 分類 Classification
    • エンティティを分類するシステム。多くは階層的。分類は意味を持たない
      ことも
 – タキソノミー Taxonomy
    • 分類のための階層的用語の体系。上位下位は通常は一般特殊関係
    • 例:議会図書館件名標目
 – シソーラスThesaurus
    • 意味の体系。タキソノミーより多くの関係: (hypersym, hyposym), synonym,
      antonym, homonym, holonym, meronym
 – オントロジー Ontology
    • 概念の体系。語句ではなくて概念が要素。もっと多くの関係。概念の定義
                           Hideaki Takeda / National Institute of Informatics
図書館学での例
• 図書館コミュニティは先駆者
• 分類 Classification
 – Universal Decimal Classification (UDC)
• 統制語彙         Controlled Vocabulary
 – 人名、組織、場所に関する典拠authority
    • Library of Congress : 8百万, MADS &SKOS
    • British Library: 2.6 百万, foaf & BIO (A vocabulary for biographical
      information)
    • 国立国会図書館: 1百万, foaf
    • Deutsche Nationalbibliothek (DNB, Germany): 1.8 & 1.3百万 (人名 & 組織),
    • Virtual International Authority File (VIAF): 4百万
• タキソノミー             Taxonomy
 – 件名標目 Subject Heading: LC, NDL,
    •   Library of Congress: MADS &SKOS
    •   British Library:
    •   National Diet Library (Japan): 0.1 百万, SKOS
    •   Deutsche Nationalbibliothek (DNB, Germany): 0.16 百万
                                   Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
UDC ELEMENT              DEFINITION
                                      UDC as Linked Data                                                                    SKOS TERM        UDC
                                                                                                                                             SUBPROPERTY

UDC number (notation)    UDC notation is combination of symbols (numerals, signs and letters) that represent a class, its   skos:notation    ---
                         position in the hierarchy and its relation to other classes. Notation is a language-independent
                         indexing term that enables mechanical sorting and filing of subjects. Also called 'UDC number'
                         and 'UDC classmark'
class identifier (URI)   A unique identifier assigned to each UDC class. It identifies the relationship between a class'    skos:Concept     ---
                         meaning and its notational representation
broader class (URI)      Superordinate class: the class hierarchically above the class in question                          skos:broader     ---
caption                  Verbal description of the class content                                                            skos:prefLabel   ---
including note           Extension of the caption containing verbal examples of the class content (usually a selection of   skos:note        udc:includingN
                         important terms that do not appear in the subdivision)                                                              ote
application note         Instructions for number building, further extension and specification of the class                 skos:note        udc:application
                                                                                                                                             Note
scope note               Note explaining the extent and the meaning of a UDC class. Used to resolve disambiguation or       skos:scopeNot    ---
                         to distinguish this class from other similar classes                                               e
examples                 Examples of combination are used to illustrate UDC class building i.e. complex subject             skos:example     ---
                         statements
see also reference       Indication of conceptual relationship between UDC classes from different hierarchies               skos:related     ---

                                              <skos:Concept rdf:about="http://udcdata.info/025553">
    69,000 records                            <skos:inScheme rdf:resource="http://udcdata.info/udc-schema"/>
    40 Languages                              <skos:broader rdf:resource="http://udcdata.info/025461"/>
                                              <skos:notation rdf:datatype="http://udcdata.info/UDCnotation">510.6</skos:notation>
                                                          <skos:prefLabel xml:lang="en">Mathematical logic</skos:prefLabel>
                                                          <skos:prefLabel xml:lang="ja">記号論理学</skos:prefLabel>
                                                          <skos:related rdf:resource="http://udcdata.info/000016"/>
http://udcdata.info/                          </skos:Concept>
                                                                       Hideaki Takeda / National Institute of Informatics
http://id.loc.gov/authorities/names/n79084664.html   <http://id.loc.gov/authorities/names/n79084664>
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
                                                                   <http://www.loc.gov/mads/rdf/v1#PersonalName> .
                                                     <http://id.loc.gov/authorities/names/n79084664>
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
                                                                   <http://www.loc.gov/mads/rdf/v1#Authority> .
                                                     <http://id.loc.gov/authorities/names/n79084664>
                                                                   <http://www.loc.gov/mads/rdf/v1#authoritativeLabel>
                                                                    "Natsume, Sōseki, 1867-1916"@en .
                                                     <http://id.loc.gov/authorities/names/n79084664>
                                                                   <http://www.loc.gov/mads/rdf/v1#elementList>
                                                                   _:bnode7authoritiesnamesn79084664 .
                                                     _:bnode7authoritiesnamesn79084664
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#first>
                                                                   _:bnode8authoritiesnamesn79084664 .
                                                     _:bnode7authoritiesnamesn79084664
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#rest>
                                                                   _:bnode010 .
                                                     _:bnode8authoritiesnamesn79084664
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
                                                                   <http://www.loc.gov/mads/rdf/v1#FullNameElement> .
                                                     _:bnode8authoritiesnamesn79084664
                                                                   <http://www.loc.gov/mads/rdf/v1#elementValue>
                                                                   "Natsume, Sōseki,"@en .
                                                     _:bnode010 <http://www.w3.org/1999/02/22-rdf-syntax-ns#first>
                                                                   _:bnode11authoritiesnamesn79084664 .
                                                     _:bnode010 <http://www.w3.org/1999/02/22-rdf-syntax-ns#rest>
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#nil> .
                                                     _:bnode11authoritiesnamesn79084664
                                                                   <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
                                                                   <http://www.loc.gov/mads/rdf/v1#DateNameElement> .
                                                                  Hideaki Takeda / National Institute of Informatics
http://id.loc.gov/authorities/subjects/sh85008180.html




                                                         Hideaki Takeda / National Institute of Informatics
http://data.bnf.fr/11932084/intelligence_artificielle/




                                            Hideaki Takeda / National Institute of Informatics
例:生物種とタクソン
• 概要
 – 生物種とタクソンの名前 (kingdom, divison, class, order, family, tribe,
   genus)
 – 文字列
     • 種は二名法
     • 領域毎の学界がタクソン名を管理
 – E.g., Papilo xuthus (Asian Swallowtail, ナミアゲハ,호랑나비)

• (IDとしてみたときの)要求仕様との整合性
 –   1. (安定したID) たぶん(でも消滅、名前変更、内容変更もあり)
 –   2. (唯一ID) 概ねあるが、実はそれほどない
 –   3. (参照解決可能) ない。
 –   4. (信頼できる発行者)たぶん



                              Hideaki Takeda / National Institute of Informatics
植物            藻類              菌類             動物
             分類群 Taxon
                                Plants         Algae           Fungi         Animals
ドメイン           Domain
 界            Kingdom
 門         Division/Phylum      -phyta        -phyta          -mycota
 亜門     Subdivision/Subphylum   -phytina     -phytina       -mycotina
 綱             Class            -opsida      -phyceae        -mycetes
 亜綱           Subclass           -idae      -phycidae       -mycetidae
 目             Order             -ales         -ales            -ales
 亜目           Suborder          -ineae        -ineae           -ineae
 上科          Superfamily         -acea         -acea           -acea          -oidea
 科             Family           -aceae        -aceae          -aceae           -idae
 亜科          Subfamily          -oideae       -oideae         -oideae          -inae
 族/連            Tribe            -eae           -eae            -eae            -ini
亜族/亜連         Subtribe           -inae         -inae           -inae            -ina
 属             Genus
 亜属           Subgenus
 種            Species
 亜種          Subspecies          Hideaki Takeda / National Institute of Informatics
情報構造化まとめ
• Keywords, tags/Controlled vocabulary
  /Classification/Taxonomy /Thesaurus/Ontology
  – 差異は明確でないし、また重要でない
  – より構造化の方向へ
  – 要求仕様は識別子システムと同じ
     •   安定していて持続可能
     •   システムを超えて唯一性の保証
     •   記述が手に入ること
     •   発行者が信頼でき持続可能


                        Hideaki Takeda / National Institute of Informatics
LODのためのスキーマ・語彙
• クラス/概念の記述
 – オントロジーにおける概念定義
 – 関係データベースのテーブルのスキーマ
 – オブジェクト指向プログラミングにおけるオブジェ
   クト定義
• セマンティックWebでのクラス定義
 – RDFS/OWLによるクラス記述
   • RDFS: 簡単なクラス定義
   • OWL: 記述論理に基づく
• Linked Dataにおけるクラス定義
 – 主にRDFSに基づく (例外: owl:sameAs)
 – 簡単な構造 (主にプロパティー値の組)
                      Hideaki Takeda / National Institute of Informatics
LODのためのスキーマ・語彙
• スキーマ共有の重要性
 – 相互運用性
 – 汎用アプリケーション
• よく使われるスキーマ
 – Dublin Core
 – FOAF (Friend-Of-A-Friend)
 – SKOS (Simple Knowledge Organization System)



                        Hideaki Takeda / National Institute of Informatics
Usage of Common Vocabularies
        Prefix                      Namespace                                    Used by

dc               http://purl.org/dc/elements/1.1/                             66 (31.88 %)
foaf             http://xmlns.com/foaf/0.1/                                   55 (26.57 %)
dcterms          http://purl.org/dc/terms/                                    38 (18.36 %)
skos             http://www.w3.org/2004/02/skos/core#                         29 (14.01 %)

akt              http://www.aktors.org/ontology/portal#                        17 (8.21 %)

geo              http://www.w3.org/2003/01/geo/wgs84_pos#                      14 (6.76 %)
mo               http://purl.org/ontology/mo/                                  13 (6.28 %)
bibo             http://purl.org/ontology/bibo/                                 8 (3.86 %)

vcard            http://www.w3.org/2006/vcard/ns#                               6 (2.90 %)

frbr             http://purl.org/vocab/frbr/core#                               5 (2.42 %)
sioc             http://rdfs.org/sioc/ns#                                       4 (1.93 %)
                               LDOW2011 Presentation, Christian Bizer (Freie Universität Berlin), 2011
                                         Hideaki Takeda / National Institute of Informatics
(Simple) Dublin Core
• 図書館コミュニティから                             • 15 elements
• DCMI (Dublin Core Metadata                     –   Title
  Initiative)による管理                               –   Creator
• (Simple) Dublin Core                           –   Subject
   –   たった15要素                                   –   Description
   –   Simple is best                            –   Publisher
   –   値域制約はない                                   –   Contributor
   –   http://purl.org/dc/elements/1.1/          –   Date
                                                 –   Type
                                                 –   Format
                                                 –   Identifier
                                                 –   Source
                                                 –   Language
                                                 –   Relation
                                                 –   Coverage
                                                 –   Rights




                                          Hideaki Takeda / National Institute of Informatics
dc terms
    • Qualified Dublin Core
             – 定義域と値域
             – より精緻な語彙
                • simple dcの拡張

Properties                    abstract , accessRights , accrualMethod , accrualPeriodicity , accrualPolicy , alternative , audience , available , bibliograp
                              hicCitation ,conformsTo , contributor , coverage , created , creator , date , dateAccepted , dateCopyrighted , dateSubmit
                              ted , description ,educationLevel , extent , format , hasFormat , hasPart , hasVersion , identifier , instructionalMethod , i
                              sFormatOf , isPartOf , isReferencedBy ,isReplacedBy , isRequiredBy , issued , isVersionOf , language , license , mediator ,
                              medium , modified , provenance , publisher , references ,relation , replaces , requires , rights , rightsHolder , source , sp
                              atial , subject , tableOfContents , temporal , title , type , valid
Properties in the             contributor , coverage , creator , date , description , format , identifier , language , publisher , relation , rights , source , s
/elements/1.1/namespace       ubject , title , type
Vocabulary Encoding Schemes   DCMIType , DDC , IMT , LCC , LCSH , MESH , NLM , TGN , UDC
Syntax Encoding Schemes       Box , ISO3166 , ISO639-2 , ISO639-3 , Period , Point , RFC1766 , RFC3066 , RFC4646 , RFC5646 , URI , W3CDTF

Classes                       Agent , AgentClass , BibliographicResource , FileFormat , Frequency , Jurisdiction , LicenseDocument , LinguisticSystem ,
                              Location ,LocationPeriodOrJurisdiction , MediaType , MediaTypeOrExtent , MethodOfAccrual , MethodOfInstruction , Pe
                              riodOfTime , PhysicalMedium ,PhysicalResource , Policy , ProvenanceStatement , RightsStatement , SizeOrDuration , Sta
                              ndard
DCMI Type Vocabulary          Collection , Dataset , Event , Image , InteractiveResource , MovingImage , PhysicalObject , Service , Software , Sound , Sti
                              llImage , Text
Terms related to the DCMI     memberOf , VocabularyEncodingScheme
Abstract Model                                                             Hideaki Takeda / National Institute of Informatics
Dcterms           subPropertyOf                 Domain            Range                      Dcterms               subPropertyOf                Domain            Range


contributor       dc:contributor                rdfs:Resource     dcterms:Agent              conformsTo            dc:relation, dcterms:relation rdfs:Resource    dcterms:Standard

                                                                                             hasFormat             dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
                  dc:creator,
creator                                         rdfs:Resource     dcterms:Agent
                  dcterms:contributor                                                        hasPart               dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
                                                                  dcterms:LocationPeriodOr
coverage          dc:coverage                   rdfs:Resource                                hasVersion            dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
                                                                  Jurisdiction
                  dc:coverage,                                                               isFormatOf            dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
spatial                                         rdfs:Resource     dcterms:Location
                  dcterms:coverage
                                                                                             isPartOf              dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
                  dc:coverage,
Temporal                                        rdfs:Resource     dcterms:PeriodOfTime
                  dcterms:coverage                                                           isReferencedBy        dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
Date              dc:date                       rdfs:Resource     rdfs:Literal
                                                                                             isReplacedBy          dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
Available         dc:date, dcterms:date         rdfs:Resource     rdfs:Literal

Created           dc:date, dcterms:date         rdfs:Resource     rdfs:Literal               isRequiredBy          dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource

dateAccepted      dc:date, dcterms:date         rdfs:Resource     rdfs:Literal               isVersionOf           dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource

dateCopyrighted dc:date, dcterms:date           rdfs:Resource     rdfs:Literal               References            dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource

dateSubmitted     dc:date, dcterms:date         rdfs:Resource     rdfs:Literal               Replaces              dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource

Issued            dc:date, dcterms:date         rdfs:Resource     rdfs:Literal               Requires              dc:relation, dcterms:relation rdfs:Resource    rdfs:Resource
Modified          dc:date, dcterms:date         rdfs:Resource     rdfs:Literal               Rights                dc:rights                    rdfs:Resource     dcterms:RightsStatement
                                                                                             accessRights          dc:rights, dcterms:rights    rdfs:Resource     dcterms:RightsStatement
Valid             dc:date, dcterms:date         rdfs:Resource     rdfs:Literal
                                                                                             License               dc:rights, dcterms:rights    rdfs:Resource     dcterms:LicenseDocument
description       dc:description                rdfs:Resource     rdfs:Resource              Subject               dc:subject                   rdfs:Resource     rdfs:Resource
                  dc:description,                                                            title                 dc:title                     rdfs:Resource     rdfs:Resourcerdfs:Literal
Abstract                                        rdfs:Resource     rdfs:Resource
                  dcterms:description                                                        alternative           dc:title, dcterms:title      rdfs:Resource     rdfs:Resourcerdfs:Literal
                  dc:description,                                                            type                  dc:type                      rdfs:Resource     rdfs:Class
tableOfContents                                 rdfs:Resource     rdfs:Resource
                  dcterms:description                                                        audience                                           rdfs:Resource     dcterms:AgentClass
                                                                  dcterms:MediaTypeOrExte    educationLevel        dcterms:audience             rdfs:Resource     dcterms:AgentClass
format            dc:format                     rdfs:Resource                                mediator              dcterms:audience             rdfs:Resource     dcterms:AgentClass
                                                                  nt
                                                                                                                                                dcmitype:Collec
extent            dc:format, dcterms:format     rdfs:Resource     dcterms:SizeOrDuration     accrualMethod                                                        dcterms:MethodOfAccrual
                                                                                                                                                tion
                                                dcterms:PhysicalR                                                                               dcmitype:Collec
Medium            dc:format, dcterms:format                        dcterms:PhysicalMedium    accrualPeriodicity                                                   dcterms:Frequency
                                                esource                                                                                         tion
Identifier         dc:identifier                rdfs:Resource      rdfs:Literal                                                                 dcmitype:Collec
                                                                                             accrualPolicy                                                        dcterms:Policy
bibliographicCitat dc:identifier,               dcterms:Bibliograp                                                                              tion
                                                                   rdfs:Literal
ion                dcterms:identifier           hicResource                                  instructionalMethod                                rdfs:Resource     dcterms:MethodOfInstructio
                                                                                             provenance                                         rdfs:Resource     dcterms:ProvenanceStatem
Language          dc:language                   rdfs:Resource     dcterms:LinguisticSystem
                                                                                             rightsHolder                                       rdfs:Resource     dcterms:Agent
Publisher         dc:publisher                  rdfs:Resource     dcterms:Agent
Relation          dc:relation                   rdfs:Resource     rdfs:Resource               http://dublincore.org/documents/dcmi-terms/
source            dc:source, dcterms:relation   rdfs:Resource     rdfs:Resource               Hideaki Takeda / National Institute of Informatics
                                                                                              http://www.kanzaki.com/docs/sw/dc-domain-range.html
The Friend of a Friend (FOAF)
    • 人と人の関係のメタデータ
    • 自主的なプロジェクト
Classes:
 | Agent | Document | Group | Image | LabelProperty |
OnlineAccount | OnlineChatAccount |
OnlineEcommerceAccount | OnlineGamingAccount |
Organization | Person | PersonalProfileDocument | Project |
                                                                     @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
Properties:                                                          @prefix foaf: <http://xmlns.com/foaf/0.1/> .
 | account | accountName | accountServiceHomepage | age | @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
aimChatID | based_near | birthday | currentProject |
                                                                     <#JW>
depiction | depicts | dnaChecksum | familyName |                       a foaf:Person ;
family_name | firstName | focus | fundedBy | geekcode |                foaf:name "Jimmy Wales" ;
                                                                       foaf:mbox <mailto:jwales@bomis.com> ;
gender | givenName | givenname | holdsAccount |                        foaf:homepage <http://www.jimmywales.com/> ;
homepage | icqChatID | img | interest | isPrimaryTopicOf |             foaf:nick "Jimbo" ;
                                                                       foaf:depiction
jabberID | knows | lastName | logo | made | maker | mbox | <http://www.jimmywales.com/aus_img_small.jpg> ;
mbox_sha1sum | member | membershipClass | msnChatID                    foaf:interest <http://www.wikimedia.org> ;
                                                                       foaf:knows [
| myersBriggs | name | nick | openid | page | pastProject |               a foaf:Person ;
phone | plan | primaryTopic | publications |                              foaf:name "Angela Beesley"
                                                                       ].
schoolHomepage | sha1 | skypeID | status | surname | theme
| thumbnail | tipjar | title | topic | topic_interest | weblog |     <http://www.wikimedia.org>
workInfoHomepage | workplaceHomepage | yahooChatID | Takeda /"Wikipedia" . Institute of Informatics
                                                              Hideaki
                                                                       rdfs:label
                                                                                   National
SKOS (Simple Knowledge Organization
              System)
• タキソノミーに関するメタデータ
  – 概念の階層的構造
    • 件名標目のようなタキソノミーにために設計
    • 上位下位関係はクラス・サブクラス関係とは一致
      しない
• W3C Recommendation 18 August 2009




                     Hideaki Takeda / National Institute of Informatics
SKOS (Simple Knowledge Organization
              System)
• SKOS Core (hierarchical concept structure)
  – skos:semanticRelation
  – skos:broaderTransitive
                                       subPropertyOf
  – skos:narrowerTransitive
  – skos:broader
  – skos:narrower
  – skos:related
  – skos:preflabel
  – skos:altlabel
  – skos:hiddenlabel
                           Hideaki Takeda / National Institute of Informatics
SKOS (Simple Knowledge Organization
              System)
• SKOS Mapping
  – skos:mappingRelation
  – skos:closeMatch
                                        subPropertyOf
  – skos:exactMatch
  – skos:broadMatch
  – skos:narrowMatch
  – skos:relatedMatch



                           Hideaki Takeda / National Institute of Informatics
Linked Open Vocabulary (LOV)
• 語彙流通のためのプラットフォーム
  – スキーマの登録
  – スキーマの検索
• http://labs.mondeca.com/dataset/lov/

• MetaBridge (日本)
  – http://www.metabridge.jp/



                         Hideaki Takeda / National Institute of Informatics
X




Hideaki Takeda / National Institute of Informatics
More Info.
• http://www.w3.org/2005/Incubator/lld/wiki/V
  ocabulary_and_Dataset




                       Hideaki Takeda / National Institute of Informatics
スキーマ・語彙のまとめ
• いくつかの有名なスキーマ
 – DC, DC terms, FOAF, SKOS …
• もっと多い専門的スキーマ
 – CIDOC CRM
 – PRISM
 –…
• 再利用を強く推奨
 – LOV

                        Hideaki Takeda / National Institute of Informatics
まとめ
• 3つの層
 – オントロジー/シソーラス/タキソノミー
   (Ontology/Thesaurus/Taxonomy)
 – スキーマ (Schema)
 – 識別子 (Identification)
• トップダウンではない、むしろ今はボトム
  アップ
• それぞれの層は役割が違う
• しかし、その層の価値だけを追求するのでは
  なくて、よいつながりを考慮すべき
                   Hideaki Takeda / National Institute of Informatics

More Related Content

PDF
LODを使ってみよう!
PDF
Rdf入門handout
PDF
スキーマとURI
PDF
理解して使いこなすDjangoのForm機能(2021 Django Congress発表資料)
PPTX
セマンティック・ウェブのためのRdf owl入門解説.ch5
PDF
第7回 Linked Data 勉強会 @yayamamo
PPTX
PDF
Linked Open Data勉強会2020 前編:LODの基礎・作成・公開
LODを使ってみよう!
Rdf入門handout
スキーマとURI
理解して使いこなすDjangoのForm機能(2021 Django Congress発表資料)
セマンティック・ウェブのためのRdf owl入門解説.ch5
第7回 Linked Data 勉強会 @yayamamo
Linked Open Data勉強会2020 前編:LODの基礎・作成・公開

What's hot (20)

PPTX
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
PPTX
DBpedia Japaneseとは?
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PPTX
関数型・オブジェクト指向 宗教戦争に疲れたなたに送るGo言語入門
PDF
ナレッジグラフ/LOD利用技術の入門(後編)
PDF
SPARQLでオープンデータ活用!
PDF
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
PPTX
PDF
RDF Semantic Graph「RDF 超入門」
PDF
SPARQL入門
PDF
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
PDF
ソーシャルゲーム案件におけるDB分割のPHP実装
PPTX
SPARQLによるLODの検索@第4回LODとオントロジー勉強会-
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PDF
PostgreSQLの関数属性を知ろう
PDF
イミュータブルデータモデルの極意
PDF
Wikidataを編集してみよう!
KEY
やはりお前らのMVCは間違っている
PDF
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
DBpedia Japaneseとは?
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
関数型・オブジェクト指向 宗教戦争に疲れたなたに送るGo言語入門
ナレッジグラフ/LOD利用技術の入門(後編)
SPARQLでオープンデータ活用!
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
RDF Semantic Graph「RDF 超入門」
SPARQL入門
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
ソーシャルゲーム案件におけるDB分割のPHP実装
SPARQLによるLODの検索@第4回LODとオントロジー勉強会-
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQLの関数属性を知ろう
イミュータブルデータモデルの極意
Wikidataを編集してみよう!
やはりお前らのMVCは間違っている
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
Ad

Similar to 識別子とスキーマ (20)

PDF
ICDE2012勉強会:Social Media
PDF
ORCIDのプロトタイプシステムと著者ID関連技術の動向
PPTX
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
PPTX
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
PDF
DBpedia Japanese
PDF
セマンテックウェブとRDFDB
PPTX
DOIって何?(図書館総合展2012版)
PDF
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
PDF
Code4Lib 2013 報告会
PDF
リサーチ・ナビ検索システムの技術
PDF
実はとても面白い...Documentation library
PDF
オントロジー工学に基づく 知識の体系化と利用
PDF
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
PDF
LOD技術の概要と LinkData.orgを用いたLOD公開
PPTX
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
PPTX
リンクリゾルバの仕組み
PPTX
ポータル研修 201208 天野_発表用
PDF
ナレッジグラフ入門
ICDE2012勉強会:Social Media
ORCIDのプロトタイプシステムと著者ID関連技術の動向
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
DBpedia Japanese
セマンテックウェブとRDFDB
DOIって何?(図書館総合展2012版)
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
Code4Lib 2013 報告会
リサーチ・ナビ検索システムの技術
実はとても面白い...Documentation library
オントロジー工学に基づく 知識の体系化と利用
20021127 ku-librarians勉強会 #38 : Where can I go? : OpenURLによる状況判断型リンク(SFXを中心として)
LOD技術の概要と LinkData.orgを用いたLOD公開
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
リンクリゾルバの仕組み
ポータル研修 201208 天野_発表用
ナレッジグラフ入門
Ad

More from National Institute of Informatics (NII) (20)

PPTX
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
PPTX
趙簡単LOD入門 〜デジタル庁をデジタル化する〜
PPTX
PPTX
セマンティックWeb技術を用いた農業分野の標準語彙の構築
PPTX
研究オープンデータにおける大学と研究者の役割
PDF
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
PPTX
Presenting and Preserving the Change in Taxonomic Knowledge for Linked Data
PPTX
Crop vocabulary (CVO): Core vocabulary of crop names
PPTX
ORCIDとオープンサイエンス
PPTX
How to build ontologies - a case study of Agriculture Activity Ontology
PPTX
LODとオープンデータ (DBpediaとIMIの周辺を中心に)
PPTX
Working with Global Infrastructure at a National Level
PPTX
Activities of JaLC as a national service
PPTX
Development and Application of Agriculture Ontologies
PPTX
Design Process of Agriculture Ontologies
PPTX
AIの未来 ~技術と社会の関係のダイナミクス~
PPTX
Towards Knowledge-Enabled Society
PPTX
研究データ利活用に関する国内活動及び国際動向について
PPTX
オープンサイエンスとオープンデータ
PPTX
研究データ利活用協議会(仮)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜 (改訂版)
趙簡単LOD入門 〜デジタル庁をデジタル化する〜
セマンティックWeb技術を用いた農業分野の標準語彙の構築
研究オープンデータにおける大学と研究者の役割
NII研究100連発 ウェブと人工知能の融合 -人間の創造性を刺激するコンピュータ
Presenting and Preserving the Change in Taxonomic Knowledge for Linked Data
Crop vocabulary (CVO): Core vocabulary of crop names
ORCIDとオープンサイエンス
How to build ontologies - a case study of Agriculture Activity Ontology
LODとオープンデータ (DBpediaとIMIの周辺を中心に)
Working with Global Infrastructure at a National Level
Activities of JaLC as a national service
Development and Application of Agriculture Ontologies
Design Process of Agriculture Ontologies
AIの未来 ~技術と社会の関係のダイナミクス~
Towards Knowledge-Enabled Society
研究データ利活用に関する国内活動及び国際動向について
オープンサイエンスとオープンデータ
研究データ利活用協議会(仮)

識別子とスキーマ

  • 1. SIG-SWO 鯖江 2012年10月5日 Linked Dataにおける識別子とスキー マ 武田英明 国立情報学研究所 takeda@nii.ac.jp Hideaki Takeda / National Institute of Informatics
  • 2. どのようにして コンピュータにデータを入れる? • データをどのように記述するか? – 個別のデータの記述の仕方 • スキーマ/クラス/概念 (Schema/Class/Concept) – データ記述間の関係 • オントロジー/タキソノミー/シソーラス (Ontology/Taxonomy/Thesaurus) • 個々のデータをどう参照するか? – 個別データの識別の仕方 • 識別子(Identifier) – 識別子同士の関係 Hideaki Takeda / National Institute of Informatics
  • 3. Architecture for the Semantic Web  クラスの世界(Ontologies)  インスタンスの世界 (Linked Data) Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics
  • 4. Layers of Semantic Web • Ontology – クラスの記述 – RDFS, OWL – ontology buildingの課題 • Ontology buildingはそもそも難しい – 整合性、一貫性、論理性 • オントロジー間の関係はもっと難しい Descriptions on classes Ontology インスタンスに関する記述 Linked Data Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics
  • 5. Layers of Semantic Web • Linked Data – 個物の記述 – RDF + (RDFS, OWL) – いい点 • 書きやすい(事実の記述) • リンクしやすい (事実間の関係) – よくない点 • 複雑な構造は書きづらい • それでもクラス記述は必要 (-> ontology) Descriptions on classes Ontology Description on instances Linked Data Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics
  • 6. エンティティの識別子の重要性 • 全てのモノは識別可能でないといけない • 人間は曖昧な識別子あるいは文脈があれ ば識別子なしでも識別可能 • Webにおけては、文脈はないか使えない。 • なので、全てのモノに識別子を与えない といけない Hideaki Takeda / National Institute of Informatics
  • 7. 識別子のシステム • 能力は人間の情報処理の基本能力 – 名付け: • 人の名前、ペットの名前、いろいろなものの名前 • 数が多くなければOK – システマティックな識別子の必要 • 大量のモノがあるとき – 電話番号、郵便番号、パスポート番号、製造番号、ISBN • システマティックな識別子への要求仕様 – 識別子は安定していて持続可能 – 唯一性の保証 – 識別子発行者が信頼でき持続可能 Hideaki Takeda / National Institute of Informatics
  • 8. Webにおける識別子システム • これまでの識別子システムの大きな差はない • 違い – システムを超えた利用 – 真に電子化 • Webにおける識別子システムへの要求仕様 – 識別子は安定していて持続可能 (モノがなくなっ ても) – システムを超えて唯一性の保証 – 識別子に関する記述が手に入ること • モノ経由では手に入らない! – 識別子発行者が信頼でき持続可能 Hideaki Takeda / National Institute of Informatics
  • 9. LODにおける解決法 • Webにおける識別子システムへの要求仕様 – 識別子は安定していて持続可能 • 個別の発行者に依存 – システムを超えて唯一性の保証 • URI – 識別子に関する記述が手に入ること • 参照解決可能なURI – 識別子発行者が信頼でき持続可能 • Webがある限り Hideaki Takeda / National Institute of Informatics
  • 10. いつかの例 ISBN(International Standard Book Number) • 概要 – 商用の書籍への唯一性のある番号付与 – 13 数字 • Prefix: 978 or 979 (EAN codeとの互換性のため) • Group(言語・国別グループ): 1から5文字 • Publisher code: • Item number: • Check num: 1文字 – 管理方法: 2層構造 • National ISBN Agency – Publisher • 要求仕様との整合性 – 1. (安定したID) たぶん – 2. (唯一ID) あり、しかしURIではない – 3. (参照解決可能) ない(amazonが代わり?) – 4. (信頼できる発行者) あり Hideaki Takeda / National Institute of Informatics
  • 11. いくつかの例 DOI (Digital Object Identifier) • 概要 – 科学に関わるデジタルオブジェクトへの識別子(多くは論文) – An unfixed string: “prefix/suffix” • Prefix: 出版社に割り当て • Suffix: デジタルオブジェクトに割り当て – 管理: 3層構造 • IDF (International DOI Foundation) – Registration Agency – 出版社 • 要求仕様との整合性 – 1. (安定したID) OK – 2. (唯一ID) あり、URI – 3. (参照解決可能) オブジェクトページへの誘導(しかしメタデータではな い) – 4. (信頼できる発行者)OK Hideaki Takeda / National Institute of Informatics
  • 12. いくつかの例 Dbpedia (識別子として) • 概要 – A wikipedia page – wikipedia pageの名前が識別子 • 手動で管理 – Disambiguation page – Redirect page • 要求仕様との整合性 – 1. (安定したID) たぶん(でも消滅、名前変更、内容変更もあり) – 2. (唯一ID) あり、URI – 3. (参照解決可能) メタデータ(RDF) – 4. (信頼できる発行者)たぶん Hideaki Takeda / National Institute of Informatics
  • 13. 識別子間の関係 • 複数の識別子システムの共存 – カバー範囲の違い – 観点の違い  一つのモノが複数の識別子をもちうる  異なる識別子システムの識別子間のマッピングが必 要  方法:特殊なプロパティ  owl:sameAs, (rdfs:seeAlso, skos:exactMatch)  http://sameas.org  問題  どうやって関係を発見するか  owl:sameAsによる論理的不整合  メンテナンス Hideaki Takeda / National Institute of Informatics
  • 14. LOD Cloud (Linking Open Data) Hideaki Takeda / National Institute of Informatics
  • 15. 識別子のまとめ • 識別子はLODのコア – データの手に入りやすさ Data availability – データの一貫性 Data inconsistency – データの相互運用性 Data interoperability • よい識別子システムを構築することは信 頼でき持続可能なLODをつくることにつな がる Hideaki Takeda / National Institute of Informatics
  • 16. 情報を構造化する • 多様な情報構造化のレベル – キーワード、タグ Keywords, tags • 特徴を示すような自由に選んだ語、語句 – 統制語彙 Controlled vocabulary • 語、規定された語句の集合 • 例:国名リスト、名称典拠 – 分類 Classification • エンティティを分類するシステム。多くは階層的。分類は意味を持たない ことも – タキソノミー Taxonomy • 分類のための階層的用語の体系。上位下位は通常は一般特殊関係 • 例:議会図書館件名標目 – シソーラスThesaurus • 意味の体系。タキソノミーより多くの関係: (hypersym, hyposym), synonym, antonym, homonym, holonym, meronym – オントロジー Ontology • 概念の体系。語句ではなくて概念が要素。もっと多くの関係。概念の定義 Hideaki Takeda / National Institute of Informatics
  • 17. 図書館学での例 • 図書館コミュニティは先駆者 • 分類 Classification – Universal Decimal Classification (UDC) • 統制語彙 Controlled Vocabulary – 人名、組織、場所に関する典拠authority • Library of Congress : 8百万, MADS &SKOS • British Library: 2.6 百万, foaf & BIO (A vocabulary for biographical information) • 国立国会図書館: 1百万, foaf • Deutsche Nationalbibliothek (DNB, Germany): 1.8 & 1.3百万 (人名 & 組織), • Virtual International Authority File (VIAF): 4百万 • タキソノミー Taxonomy – 件名標目 Subject Heading: LC, NDL, • Library of Congress: MADS &SKOS • British Library: • National Diet Library (Japan): 0.1 百万, SKOS • Deutsche Nationalbibliothek (DNB, Germany): 0.16 百万 Hideaki Takeda / National Institute of Informatics
  • 18. Hideaki Takeda / National Institute of Informatics
  • 19. Hideaki Takeda / National Institute of Informatics
  • 20. UDC ELEMENT DEFINITION UDC as Linked Data SKOS TERM UDC SUBPROPERTY UDC number (notation) UDC notation is combination of symbols (numerals, signs and letters) that represent a class, its skos:notation --- position in the hierarchy and its relation to other classes. Notation is a language-independent indexing term that enables mechanical sorting and filing of subjects. Also called 'UDC number' and 'UDC classmark' class identifier (URI) A unique identifier assigned to each UDC class. It identifies the relationship between a class' skos:Concept --- meaning and its notational representation broader class (URI) Superordinate class: the class hierarchically above the class in question skos:broader --- caption Verbal description of the class content skos:prefLabel --- including note Extension of the caption containing verbal examples of the class content (usually a selection of skos:note udc:includingN important terms that do not appear in the subdivision) ote application note Instructions for number building, further extension and specification of the class skos:note udc:application Note scope note Note explaining the extent and the meaning of a UDC class. Used to resolve disambiguation or skos:scopeNot --- to distinguish this class from other similar classes e examples Examples of combination are used to illustrate UDC class building i.e. complex subject skos:example --- statements see also reference Indication of conceptual relationship between UDC classes from different hierarchies skos:related --- <skos:Concept rdf:about="http://udcdata.info/025553"> 69,000 records <skos:inScheme rdf:resource="http://udcdata.info/udc-schema"/> 40 Languages <skos:broader rdf:resource="http://udcdata.info/025461"/> <skos:notation rdf:datatype="http://udcdata.info/UDCnotation">510.6</skos:notation> <skos:prefLabel xml:lang="en">Mathematical logic</skos:prefLabel> <skos:prefLabel xml:lang="ja">記号論理学</skos:prefLabel> <skos:related rdf:resource="http://udcdata.info/000016"/> http://udcdata.info/ </skos:Concept> Hideaki Takeda / National Institute of Informatics
  • 21. http://id.loc.gov/authorities/names/n79084664.html <http://id.loc.gov/authorities/names/n79084664> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.loc.gov/mads/rdf/v1#PersonalName> . <http://id.loc.gov/authorities/names/n79084664> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.loc.gov/mads/rdf/v1#Authority> . <http://id.loc.gov/authorities/names/n79084664> <http://www.loc.gov/mads/rdf/v1#authoritativeLabel> "Natsume, Sōseki, 1867-1916"@en . <http://id.loc.gov/authorities/names/n79084664> <http://www.loc.gov/mads/rdf/v1#elementList> _:bnode7authoritiesnamesn79084664 . _:bnode7authoritiesnamesn79084664 <http://www.w3.org/1999/02/22-rdf-syntax-ns#first> _:bnode8authoritiesnamesn79084664 . _:bnode7authoritiesnamesn79084664 <http://www.w3.org/1999/02/22-rdf-syntax-ns#rest> _:bnode010 . _:bnode8authoritiesnamesn79084664 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.loc.gov/mads/rdf/v1#FullNameElement> . _:bnode8authoritiesnamesn79084664 <http://www.loc.gov/mads/rdf/v1#elementValue> "Natsume, Sōseki,"@en . _:bnode010 <http://www.w3.org/1999/02/22-rdf-syntax-ns#first> _:bnode11authoritiesnamesn79084664 . _:bnode010 <http://www.w3.org/1999/02/22-rdf-syntax-ns#rest> <http://www.w3.org/1999/02/22-rdf-syntax-ns#nil> . _:bnode11authoritiesnamesn79084664 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.loc.gov/mads/rdf/v1#DateNameElement> . Hideaki Takeda / National Institute of Informatics
  • 22. http://id.loc.gov/authorities/subjects/sh85008180.html Hideaki Takeda / National Institute of Informatics
  • 23. http://data.bnf.fr/11932084/intelligence_artificielle/ Hideaki Takeda / National Institute of Informatics
  • 24. 例:生物種とタクソン • 概要 – 生物種とタクソンの名前 (kingdom, divison, class, order, family, tribe, genus) – 文字列 • 種は二名法 • 領域毎の学界がタクソン名を管理 – E.g., Papilo xuthus (Asian Swallowtail, ナミアゲハ,호랑나비) • (IDとしてみたときの)要求仕様との整合性 – 1. (安定したID) たぶん(でも消滅、名前変更、内容変更もあり) – 2. (唯一ID) 概ねあるが、実はそれほどない – 3. (参照解決可能) ない。 – 4. (信頼できる発行者)たぶん Hideaki Takeda / National Institute of Informatics
  • 25. 植物 藻類 菌類 動物 分類群 Taxon Plants Algae Fungi Animals ドメイン Domain 界 Kingdom 門 Division/Phylum -phyta -phyta -mycota 亜門 Subdivision/Subphylum -phytina -phytina -mycotina 綱 Class -opsida -phyceae -mycetes 亜綱 Subclass -idae -phycidae -mycetidae 目 Order -ales -ales -ales 亜目 Suborder -ineae -ineae -ineae 上科 Superfamily -acea -acea -acea -oidea 科 Family -aceae -aceae -aceae -idae 亜科 Subfamily -oideae -oideae -oideae -inae 族/連 Tribe -eae -eae -eae -ini 亜族/亜連 Subtribe -inae -inae -inae -ina 属 Genus 亜属 Subgenus 種 Species 亜種 Subspecies Hideaki Takeda / National Institute of Informatics
  • 26. 情報構造化まとめ • Keywords, tags/Controlled vocabulary /Classification/Taxonomy /Thesaurus/Ontology – 差異は明確でないし、また重要でない – より構造化の方向へ – 要求仕様は識別子システムと同じ • 安定していて持続可能 • システムを超えて唯一性の保証 • 記述が手に入ること • 発行者が信頼でき持続可能 Hideaki Takeda / National Institute of Informatics
  • 27. LODのためのスキーマ・語彙 • クラス/概念の記述 – オントロジーにおける概念定義 – 関係データベースのテーブルのスキーマ – オブジェクト指向プログラミングにおけるオブジェ クト定義 • セマンティックWebでのクラス定義 – RDFS/OWLによるクラス記述 • RDFS: 簡単なクラス定義 • OWL: 記述論理に基づく • Linked Dataにおけるクラス定義 – 主にRDFSに基づく (例外: owl:sameAs) – 簡単な構造 (主にプロパティー値の組) Hideaki Takeda / National Institute of Informatics
  • 28. LODのためのスキーマ・語彙 • スキーマ共有の重要性 – 相互運用性 – 汎用アプリケーション • よく使われるスキーマ – Dublin Core – FOAF (Friend-Of-A-Friend) – SKOS (Simple Knowledge Organization System) Hideaki Takeda / National Institute of Informatics
  • 29. Usage of Common Vocabularies Prefix Namespace Used by dc http://purl.org/dc/elements/1.1/ 66 (31.88 %) foaf http://xmlns.com/foaf/0.1/ 55 (26.57 %) dcterms http://purl.org/dc/terms/ 38 (18.36 %) skos http://www.w3.org/2004/02/skos/core# 29 (14.01 %) akt http://www.aktors.org/ontology/portal# 17 (8.21 %) geo http://www.w3.org/2003/01/geo/wgs84_pos# 14 (6.76 %) mo http://purl.org/ontology/mo/ 13 (6.28 %) bibo http://purl.org/ontology/bibo/ 8 (3.86 %) vcard http://www.w3.org/2006/vcard/ns# 6 (2.90 %) frbr http://purl.org/vocab/frbr/core# 5 (2.42 %) sioc http://rdfs.org/sioc/ns# 4 (1.93 %) LDOW2011 Presentation, Christian Bizer (Freie Universität Berlin), 2011 Hideaki Takeda / National Institute of Informatics
  • 30. (Simple) Dublin Core • 図書館コミュニティから • 15 elements • DCMI (Dublin Core Metadata – Title Initiative)による管理 – Creator • (Simple) Dublin Core – Subject – たった15要素 – Description – Simple is best – Publisher – 値域制約はない – Contributor – http://purl.org/dc/elements/1.1/ – Date – Type – Format – Identifier – Source – Language – Relation – Coverage – Rights Hideaki Takeda / National Institute of Informatics
  • 31. dc terms • Qualified Dublin Core – 定義域と値域 – より精緻な語彙 • simple dcの拡張 Properties abstract , accessRights , accrualMethod , accrualPeriodicity , accrualPolicy , alternative , audience , available , bibliograp hicCitation ,conformsTo , contributor , coverage , created , creator , date , dateAccepted , dateCopyrighted , dateSubmit ted , description ,educationLevel , extent , format , hasFormat , hasPart , hasVersion , identifier , instructionalMethod , i sFormatOf , isPartOf , isReferencedBy ,isReplacedBy , isRequiredBy , issued , isVersionOf , language , license , mediator , medium , modified , provenance , publisher , references ,relation , replaces , requires , rights , rightsHolder , source , sp atial , subject , tableOfContents , temporal , title , type , valid Properties in the contributor , coverage , creator , date , description , format , identifier , language , publisher , relation , rights , source , s /elements/1.1/namespace ubject , title , type Vocabulary Encoding Schemes DCMIType , DDC , IMT , LCC , LCSH , MESH , NLM , TGN , UDC Syntax Encoding Schemes Box , ISO3166 , ISO639-2 , ISO639-3 , Period , Point , RFC1766 , RFC3066 , RFC4646 , RFC5646 , URI , W3CDTF Classes Agent , AgentClass , BibliographicResource , FileFormat , Frequency , Jurisdiction , LicenseDocument , LinguisticSystem , Location ,LocationPeriodOrJurisdiction , MediaType , MediaTypeOrExtent , MethodOfAccrual , MethodOfInstruction , Pe riodOfTime , PhysicalMedium ,PhysicalResource , Policy , ProvenanceStatement , RightsStatement , SizeOrDuration , Sta ndard DCMI Type Vocabulary Collection , Dataset , Event , Image , InteractiveResource , MovingImage , PhysicalObject , Service , Software , Sound , Sti llImage , Text Terms related to the DCMI memberOf , VocabularyEncodingScheme Abstract Model Hideaki Takeda / National Institute of Informatics
  • 32. Dcterms subPropertyOf Domain Range Dcterms subPropertyOf Domain Range contributor dc:contributor rdfs:Resource dcterms:Agent conformsTo dc:relation, dcterms:relation rdfs:Resource dcterms:Standard hasFormat dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dc:creator, creator rdfs:Resource dcterms:Agent dcterms:contributor hasPart dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dcterms:LocationPeriodOr coverage dc:coverage rdfs:Resource hasVersion dc:relation, dcterms:relation rdfs:Resource rdfs:Resource Jurisdiction dc:coverage, isFormatOf dc:relation, dcterms:relation rdfs:Resource rdfs:Resource spatial rdfs:Resource dcterms:Location dcterms:coverage isPartOf dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dc:coverage, Temporal rdfs:Resource dcterms:PeriodOfTime dcterms:coverage isReferencedBy dc:relation, dcterms:relation rdfs:Resource rdfs:Resource Date dc:date rdfs:Resource rdfs:Literal isReplacedBy dc:relation, dcterms:relation rdfs:Resource rdfs:Resource Available dc:date, dcterms:date rdfs:Resource rdfs:Literal Created dc:date, dcterms:date rdfs:Resource rdfs:Literal isRequiredBy dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dateAccepted dc:date, dcterms:date rdfs:Resource rdfs:Literal isVersionOf dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dateCopyrighted dc:date, dcterms:date rdfs:Resource rdfs:Literal References dc:relation, dcterms:relation rdfs:Resource rdfs:Resource dateSubmitted dc:date, dcterms:date rdfs:Resource rdfs:Literal Replaces dc:relation, dcterms:relation rdfs:Resource rdfs:Resource Issued dc:date, dcterms:date rdfs:Resource rdfs:Literal Requires dc:relation, dcterms:relation rdfs:Resource rdfs:Resource Modified dc:date, dcterms:date rdfs:Resource rdfs:Literal Rights dc:rights rdfs:Resource dcterms:RightsStatement accessRights dc:rights, dcterms:rights rdfs:Resource dcterms:RightsStatement Valid dc:date, dcterms:date rdfs:Resource rdfs:Literal License dc:rights, dcterms:rights rdfs:Resource dcterms:LicenseDocument description dc:description rdfs:Resource rdfs:Resource Subject dc:subject rdfs:Resource rdfs:Resource dc:description, title dc:title rdfs:Resource rdfs:Resourcerdfs:Literal Abstract rdfs:Resource rdfs:Resource dcterms:description alternative dc:title, dcterms:title rdfs:Resource rdfs:Resourcerdfs:Literal dc:description, type dc:type rdfs:Resource rdfs:Class tableOfContents rdfs:Resource rdfs:Resource dcterms:description audience rdfs:Resource dcterms:AgentClass dcterms:MediaTypeOrExte educationLevel dcterms:audience rdfs:Resource dcterms:AgentClass format dc:format rdfs:Resource mediator dcterms:audience rdfs:Resource dcterms:AgentClass nt dcmitype:Collec extent dc:format, dcterms:format rdfs:Resource dcterms:SizeOrDuration accrualMethod dcterms:MethodOfAccrual tion dcterms:PhysicalR dcmitype:Collec Medium dc:format, dcterms:format dcterms:PhysicalMedium accrualPeriodicity dcterms:Frequency esource tion Identifier dc:identifier rdfs:Resource rdfs:Literal dcmitype:Collec accrualPolicy dcterms:Policy bibliographicCitat dc:identifier, dcterms:Bibliograp tion rdfs:Literal ion dcterms:identifier hicResource instructionalMethod rdfs:Resource dcterms:MethodOfInstructio provenance rdfs:Resource dcterms:ProvenanceStatem Language dc:language rdfs:Resource dcterms:LinguisticSystem rightsHolder rdfs:Resource dcterms:Agent Publisher dc:publisher rdfs:Resource dcterms:Agent Relation dc:relation rdfs:Resource rdfs:Resource http://dublincore.org/documents/dcmi-terms/ source dc:source, dcterms:relation rdfs:Resource rdfs:Resource Hideaki Takeda / National Institute of Informatics http://www.kanzaki.com/docs/sw/dc-domain-range.html
  • 33. The Friend of a Friend (FOAF) • 人と人の関係のメタデータ • 自主的なプロジェクト Classes: | Agent | Document | Group | Image | LabelProperty | OnlineAccount | OnlineChatAccount | OnlineEcommerceAccount | OnlineGamingAccount | Organization | Person | PersonalProfileDocument | Project | @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . Properties: @prefix foaf: <http://xmlns.com/foaf/0.1/> . | account | accountName | accountServiceHomepage | age | @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . aimChatID | based_near | birthday | currentProject | <#JW> depiction | depicts | dnaChecksum | familyName | a foaf:Person ; family_name | firstName | focus | fundedBy | geekcode | foaf:name "Jimmy Wales" ; foaf:mbox <mailto:jwales@bomis.com> ; gender | givenName | givenname | holdsAccount | foaf:homepage <http://www.jimmywales.com/> ; homepage | icqChatID | img | interest | isPrimaryTopicOf | foaf:nick "Jimbo" ; foaf:depiction jabberID | knows | lastName | logo | made | maker | mbox | <http://www.jimmywales.com/aus_img_small.jpg> ; mbox_sha1sum | member | membershipClass | msnChatID foaf:interest <http://www.wikimedia.org> ; foaf:knows [ | myersBriggs | name | nick | openid | page | pastProject | a foaf:Person ; phone | plan | primaryTopic | publications | foaf:name "Angela Beesley" ]. schoolHomepage | sha1 | skypeID | status | surname | theme | thumbnail | tipjar | title | topic | topic_interest | weblog | <http://www.wikimedia.org> workInfoHomepage | workplaceHomepage | yahooChatID | Takeda /"Wikipedia" . Institute of Informatics Hideaki rdfs:label National
  • 34. SKOS (Simple Knowledge Organization System) • タキソノミーに関するメタデータ – 概念の階層的構造 • 件名標目のようなタキソノミーにために設計 • 上位下位関係はクラス・サブクラス関係とは一致 しない • W3C Recommendation 18 August 2009 Hideaki Takeda / National Institute of Informatics
  • 35. SKOS (Simple Knowledge Organization System) • SKOS Core (hierarchical concept structure) – skos:semanticRelation – skos:broaderTransitive subPropertyOf – skos:narrowerTransitive – skos:broader – skos:narrower – skos:related – skos:preflabel – skos:altlabel – skos:hiddenlabel Hideaki Takeda / National Institute of Informatics
  • 36. SKOS (Simple Knowledge Organization System) • SKOS Mapping – skos:mappingRelation – skos:closeMatch subPropertyOf – skos:exactMatch – skos:broadMatch – skos:narrowMatch – skos:relatedMatch Hideaki Takeda / National Institute of Informatics
  • 37. Linked Open Vocabulary (LOV) • 語彙流通のためのプラットフォーム – スキーマの登録 – スキーマの検索 • http://labs.mondeca.com/dataset/lov/ • MetaBridge (日本) – http://www.metabridge.jp/ Hideaki Takeda / National Institute of Informatics
  • 38. X Hideaki Takeda / National Institute of Informatics
  • 39. More Info. • http://www.w3.org/2005/Incubator/lld/wiki/V ocabulary_and_Dataset Hideaki Takeda / National Institute of Informatics
  • 40. スキーマ・語彙のまとめ • いくつかの有名なスキーマ – DC, DC terms, FOAF, SKOS … • もっと多い専門的スキーマ – CIDOC CRM – PRISM –… • 再利用を強く推奨 – LOV Hideaki Takeda / National Institute of Informatics
  • 41. まとめ • 3つの層 – オントロジー/シソーラス/タキソノミー (Ontology/Thesaurus/Taxonomy) – スキーマ (Schema) – 識別子 (Identification) • トップダウンではない、むしろ今はボトム アップ • それぞれの層は役割が違う • しかし、その層の価値だけを追求するのでは なくて、よいつながりを考慮すべき Hideaki Takeda / National Institute of Informatics