SlideShare ist ein Scribd-Unternehmen logo
Tools, offene Daten, Vokabulare 
und Anwendungsszenarien für 
semi-automatische 
Metadatengenerierung 
Felix Sasaki 
DFKI / W3C Fellow 
Sasaki – Markupforum 2014 
1
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
2
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
3
Metadaten 
• Häufige Anwendung im Publikationsbereich: 
Indexierung 
Sasaki – Markupforum 2014 
– Automatisch 
– Manuell 
– Kombiniert 
4
Metadaten 
• Häufige Anwendung im Publikationsbereich: 
Indexierung 
• Standardisierte Vokabulare für manuelle 
Indexierung 
– Bibliothek: Gemeinschaftliche Normdatei 
– Verlage, Buchhändler, ....: ONIX 
Sasaki – Markupforum 2014 
5
Anwendungsszenario: 
Suche erleichtern 
• „Finde alle Bücher über Stuttgart“ 
• „Stuttgart“ abbildbar auf Metadaten in 
bibliothekarischen Normdaten 
– DNB http://d-nb.info/gnd/4058282-6 
– LOC 
http://id.loc.gov/authorities/names/n79110280 
– VIAF http://viaf.org/viaf/153084910/ 
– ... 
Sasaki – Markupforum 2014 
6
WAS HABEN GEGENWÄRTIGE 
METADATENANWENDUNGEN 
GEMEINSAM? 
Sasaki – Markupforum 2014 
7
Metadaten = Containerlabel 
Sasaki – Markupforum 2014 
http://viaf.org/viaf/153084910/ 
8 
http://d-nb.info/gnd/4058282-6 
http://id.loc.gov/authorities/names/n79110280
Metadaten – der nächste Schritt: 
Vom Container in die Inhalte 
Sasaki – Markupforum 2014 
9
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
10
Schritt 1: Automatische 
Erkennung von Eigennamen 
• <p>Welcome to Stuttgart.</p> 
Output (als ITS 2.0 “Text Analysis” Markup) 
Sasaki – Markupforum 2014 
Input 
• <p>Welcome to <span its-ta-ident-ref=" 
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 
11
Schritt 2: Anreicherung der Inhalte 
durch Zugriff auf DBpedia via SPARQL 
Nutzt DBpedia URIs aus Schritt 1. 
Beispielabfrage, prüft ob Entität ein Ort (place) ist 
• SELECT ?wikiURI ... 
WHERE{ http://dbpedia.org/resource/Stuttgart 
rdf:type <http://schema.org/Place>.... } 
Sasaki – Markupforum 2014 
12
Schritt 3: Generierung von Schema.org 
Markup und Inhalten 
• Teil 1: SPARQL Query Ausgabe und 
• Teil 2: Dokument 
• <p>Welcome to <span its-ta-ident-ref=" 
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> 
Output: Dokument mit Schema.org Markup 
Sasaki – Markupforum 2014 
Input 
• <p>Welcome to 
<span ... Itemscope="" 
itemtype="http://schema.org/Place"> 
… Stuttgart</span>! Population: 600038</p> 
13
Outputtest mit 
„Structured Data Testing Tool“ 
http://www.google.com/webmasters/tools/richsnippets 
Sasaki – Markupforum 2014 
14
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
15
1) Tooling für Content Authors 
• Beispiel oXygen Editor Modifikation 
• Informationsquellen aus dem Web holen 
– Autor muss Quellen und Abfragen auswählen 
können 
– Strukturgenerierung muss konfigurierbar sein 
Sasaki – Markupforum 2014 
16
1) Tooling für Content Authors 
• Abfrage von Datenquellen macht Inhalte 
dynamisch – Inhalte werden intelligent und 
„fragen die Datenquellen ab“ 
– Beispiel: Einwohnerzahl für Orte aus DBpedia 
Sasaki – Markupforum 2014 
17
1) Tooling für Content Authors 
• Abfrage von Datenquellen macht Inhalte 
dynamisch – Inhalte werden intelligent und 
„fragen die Datenquellen ab“ 
– Beispiel: Geburtsdatum für Personen aus DBpedia 
Sasaki – Markupforum 2014 
18
2) Wissen um 
Datenquellen und Technologien 
• Technologien In a Nutshell 
– RDF um Daten zu repräsentieren 
– SPARQL zur Abfrage 
– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu 
Speichern > Link zur Linked Data Cloud 
• Relevante Datenquellen 
– Allgemein: DBpedia 
– Speziell: Abhängig von der Domäne + dem Anwendungsfall 
– (Potential): die eigenen, angereicherten Inhalte selbst  
– Beispiel: Reiseführer über Stuttgart 
Sasaki – Markupforum 2014 
19
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
20
WAS IST LINKED DATA? 
KURZEINFÜHRUNG … 
Sasaki – Markupforum 2014 
21
Bausteine für das Web 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
22
Inhalt 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
23
Links (oder “Identifier”) 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
24
Einfach: “Finde alle Seiten mit Links zu 
http://creativecommons.org/licenses/by/3.0/“ 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
25 
✔
Noch schwierig: “Finde alle Inhalte die unter 
einer Creative Commons Lizenz stehen“ 
<p>All content on this site is licensed under 
<a 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
26 
?
Linked Data = 
maschinenlesbare Information im Web 
<p>All content on this site is licensed under 
<a property="http://creativecommons.org/ns#license" 
href="http://creativecommons.org/licenses/by/3.0/"> 
a Creative Commons License</a>. </p> 
Sasaki – Markupforum 2014 
27 
?
Linked Data = 
maschinenlesbare Information im Web 
Web der 
Dokumente Web der Daten 
Sasaki – Markupforum 2014 
28
AUFGABEN & TECHNOLOGIEN 
Sasaki – Markupforum 2014 
29
Aufgaben … 
Linked Data erzeugen 
Linked Data Vokabulare definieren 
Abfrage 
Sasaki – Markupforum 2014 
30
Technologien 
• Linked Data erzeugen: 
RDF (Resource Description Framework) 
• Vokabulare definieren: RDFS, SKOS, OWL (für 
komplexe wissensbasierte Modellierung - 
Ontologien) 
• Abfrage: SPARQL 
Sasaki – Markupforum 2014 
31
Linked Data = RDF „Aussagen“ 
Referenz zu einer Lizenz als RDF Aussage (Visualisierung): 
Sasaki – Markupforum 2014 
32 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/
Turtle Syntax 
Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: 
Sasaki – Markupforum 2014 
33 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/ 
@prefix cc: <http://creativecommons.org/ns#>. 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
<http://www.w3.org/Talks/2014/1114-sasaki-metadata/> 
cc:license 
<http://creativecommons.org/licenses/by/3.0/>.
RDF Aussagen … 
Sasaki – Markupforum 2014 
34 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/ns#license 
http://creativecommons.org/licenses/by/3.0/
… auf der Basis von 
Vokabularien 
cc:license rdf:Type rdf:Property 
Sasaki – Markupforum 2014 
35 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
http://creativecommons.org/licenses/by/3.0/ 
ex:Presentations 
rdf:Type 
RDF Schema 
- Definition von Classes (example “Presentations”) und properties (like “cc:license”) 
OWL (Web Ontology Language) 
- Definition weiterer (logischer) Constraints für Vokabulare 
SKOS 
- Beschreibung von Thesauri, Taxonomien, Klassifikationen
Query - SPARQL 
• Query Sprache für RDF 
• Muster in Linkstrukturen 
• Z.B. „Finde Präsentationen mit CC ... Lizenz“ 
Ergebnis: 
http://www.w3.org/Talks/2014/1114-sasaki-metadata/ 
PREFIX cc: <http://creativecommons.org/ns#> 
SELECT ?presentation WHERE { 
?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. 
} 
Sasaki – Markupforum 2014 
36
SPARQL Abfrage mit Dbpedia: „Personen die in 
Stuttgart vor 1900 geboren wurden“: 
http://tinyurl.com/dbpedia-bsp 
Sasaki – Markupforum 2014 
37
Q/A in Suchmaschinen heute 
Sasaki – Markupforum 2014 
38 
Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
Potential: Q/A selbstgemacht 
• Suche traditional 
– Volltextindexierung, Linkgewichtung 
• Metadaten heute 
– Zugang zu Containern 
• Metadaten morgen: Linked Data 
– Neue Anwendungsszenarien, z.B. 
Q/A selbst gemacht  
Sasaki – Markupforum 2014 
39
Wiederholung: 
Metadaten = Containerlabel 
Sasaki – Markupforum 2014 
http://viaf.org/viaf/153084910/ 
40 
http://d-nb.info/gnd/4058282-6 
http://id.loc.gov/authorities/names/n79110280
Potential: Buchproduktionsprozess für 
Anwendung „Q/A via Metadaten in Inhalten“ 
Sasaki – Markupforum 2014 
41
Potential: Buchauslieferung = Inhalte + Anreicherung 
Sasaki – Markupforum 2014 
42
Potential: Buchauslieferung = Inhalte + Anreicherung + 
Service Linked Data Abfrage über die Anreicherungen! 
Sasaki – Markupforum 2014 
43 
Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ 
• Ergebnis ist anders als Abfrage gegenüber DBpedia 
 „Gustav Schwab“ 
• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich 
• Linked Data Anreicherung + Anfragen: spezifisch für Markt 
 Reiseführer, Technische Dokumentation, ...
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
44
Linked Data 1/3 
Sasaki – Markupforum 2014
Linked Data 2/3 
Sasaki – Markupforum 2014 
Linked Open Data Cloud
Linked Data 2/3 
Umfasst DNB, Library of Congress Subject Headings, VIAF, ... 
Sasaki – Markupforum 2014 
Linked Open Data Cloud
Linked Data 3/3 
Linguistic Linked Open Data Cloud 
Sasaki – Markupforum 2014
Linked Open Data Clouds – 
Datensätze und Themen 
Linked Open Data Linguistic 
Sasaki – Markupforum 2014 
Linked Open Data 
Öffentliche Daten 183 18.05% 
Publikations(Meta)daten 96 9.47% 
Medizin, Biologie 83 8.19% 
User-generated Content 48 4.73% 
Domänenübergreifend 41 4.04% 
Multimedia 22 2.17% 
Geoinformationen 21 2.07% 
Soziales Web 520 51.28% 
Total 1014 
Lexika 
Thesauri 
Einzelsprachlich 
Mehrsprachig 
…
Überblick 
• Metadaten: Was und warum? 
• Demo zu neuen Metadaten: 
Tooling für Inhaltsanreicherung 
• Was fehlt für Content Authors? 
• Was ist Linked Data? – Kurzeinführung ... 
• Offene Datenquellen im Web 
• Nächste Schritte 
Sasaki – Markupforum 2014 
50
Nächste Schritte 
(und Herausforderungen) 
• Datenquellen finden 
– Zugangspunkt 
http://datahub.io/dataset?tags=lod 
• Datenqualität 
• Vereinfachen: Linked Data erzeugen 
– Z.B. CSV als Linked Data verarbeiten 
• Linked Data Tooling zur Inhaltsanreicherung in 
Authoring Prozesse einbauen 
• Abfrage + Services für Endnutzer bereit stellen 
Sasaki – Markupforum 2014 
51
Einstieg/Loslegen 
W3C LD4LT (Linked Data for Language Technology) Community 
Group 
• http://www.w3.org/community/ld4lt/ 
• https://www.w3.org/community/ld4lt/join 
• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities 
• Teilnahme ist frei  
LIDER: EU Projekt, November 2013 – Oktober 2015 
• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data 
Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen 
• Anwendungsszenarien und Anforderungen von … Ihnen 
Sasaki – Markupforum 2014
Zusammenfassung 
• Metadaten zur Anreicherung von Inhalten ist möglich 
• Prototypen Tools für Content Authors existieren 
• Externe, offene Linked Data Datenquellen wie DBpedia 
sind wichtiger Bestandteil der Anreicherung 
• Angereicherte Inhalte können Basis für neue 
Anwendungen wie SEO sein 
• Angereicherte Inhalte können selbst zur Datenquelle 
werden und neue Anwendungen wie (mehrsprachige) 
Q/A Services erlauben 
• Nächste Schritte u.a.: Bereitstellung einfacher 
Toolkomponenten für die Markupwelt  
Sasaki – Markupforum 2014 
53
Tools, offene Daten, Vokabulare 
und Anwendungsszenarien für 
semi-automatische 
Metadatengenerierung 
Felix Sasaki 
DFKI / W3C Fellow 
Sasaki – Markupforum 2014 
54

Weitere ähnliche Inhalte

PPT
Linked Open (Library) Data
PDF
schema.org und Bibliotheken
PDF
Rare Book - by chattampi swamikal - Banned in Kerala for Christian Religious ...
PDF
Convegno “ Stress, molestie lavorative e organizzative del lavoro: aspetti pr...
PPT
Como Planejar sua Campanha Promocional com Brindes | Apresentação 2 de 3
PPTX
Pensar, sentir, necesitar
PDF
Laying Down the Groundwork for Financial Stability for Architecture & Enginee...
PPTX
CUIDAPP - Cuida tu Ciudad - PITCH
Linked Open (Library) Data
schema.org und Bibliotheken
Rare Book - by chattampi swamikal - Banned in Kerala for Christian Religious ...
Convegno “ Stress, molestie lavorative e organizzative del lavoro: aspetti pr...
Como Planejar sua Campanha Promocional com Brindes | Apresentação 2 de 3
Pensar, sentir, necesitar
Laying Down the Groundwork for Financial Stability for Architecture & Enginee...
CUIDAPP - Cuida tu Ciudad - PITCH

Andere mochten auch (7)

PPTX
Eyjafjardara svak 2017_03_23
PPTX
利用規約 The policy about commercial use
PPTX
Pros y contras de que mi hijo tenga un perro
PPT
What Rockstars Can Teach You About Kicking Ass With Social Media
PDF
Spark Summit EU talk by Shay Nativ and Dvir Volk
PDF
プログラミング Coq
PDF
Convocatoria Guardavida Eventual
Eyjafjardara svak 2017_03_23
利用規約 The policy about commercial use
Pros y contras de que mi hijo tenga un perro
What Rockstars Can Teach You About Kicking Ass With Social Media
Spark Summit EU talk by Shay Nativ and Dvir Volk
プログラミング Coq
Convocatoria Guardavida Eventual
Anzeige

Ähnlich wie 1114 sasaki-metadata (20)

PDF
16. DINI-Jahrestagung: Linked Data und Repositorien
PDF
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
PPT
Linked Open Data in der Bibliothekswelt
PDF
Semantic Web in Bibliotheken mal praktisch
PDF
DSpace und das Semantic Web
PPTX
Normdaten - die Aggregatoren im Web
PDF
"Warum Metadaten? Ein Plädoyer und mehr …" - webtechcon 2011 Präsentation
PDF
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
PDF
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
PDF
Einbindung von Linked Data in existierende Bibliotheksanswendungen
PDF
Präsentation social semantic web
PDF
Überblick Semantic Web
PPTX
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
PDF
Web 3.0
PDF
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
PDF
Alfresco Day Vienna 2016: Entwickeln mit Alfresco
PDF
Sitzung 10
ODP
Einführung in das Semantic Web
PDF
Sitzung 11
PDF
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
16. DINI-Jahrestagung: Linked Data und Repositorien
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Linked Open Data in der Bibliothekswelt
Semantic Web in Bibliotheken mal praktisch
DSpace und das Semantic Web
Normdaten - die Aggregatoren im Web
"Warum Metadaten? Ein Plädoyer und mehr …" - webtechcon 2011 Präsentation
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Präsentation social semantic web
Überblick Semantic Web
WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF
Web 3.0
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Alfresco Day Vienna 2016: Entwickeln mit Alfresco
Sitzung 10
Einführung in das Semantic Web
Sitzung 11
Linked Open Data - Eine Perspektive für die Bibliothekswelt?
Anzeige

Mehr von Felix Sasaki (14)

PDF
Thb tag-des-offenen-fensters-2021-sasaki-graphdatenbanken
PDF
XML Seminar
PDF
Sasaki Presentation at EVA 2016
PPTX
Linked data-tooling-xml
PPTX
Sasaki datathon-madrid-2015
PPTX
Freme at feisgiltt 2015 freme & linked data & localisers
PPTX
Freme at feisgiltt 2015 freme use cases
PPTX
Sasaki practical-linked-data
PPTX
Its2 ontology-localization
PPTX
Sasaki ins-netz-gegangen-20111117
PDF
Sasaki markupforum2011
PPTX
Sasaki webtechcon2010
PPTX
Mlw sasaki-20101027
PDF
HTML5 - presentation at W3C-Tag 2009
Thb tag-des-offenen-fensters-2021-sasaki-graphdatenbanken
XML Seminar
Sasaki Presentation at EVA 2016
Linked data-tooling-xml
Sasaki datathon-madrid-2015
Freme at feisgiltt 2015 freme & linked data & localisers
Freme at feisgiltt 2015 freme use cases
Sasaki practical-linked-data
Its2 ontology-localization
Sasaki ins-netz-gegangen-20111117
Sasaki markupforum2011
Sasaki webtechcon2010
Mlw sasaki-20101027
HTML5 - presentation at W3C-Tag 2009

1114 sasaki-metadata

  • 1. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 1
  • 2. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 2
  • 3. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 3
  • 4. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung Sasaki – Markupforum 2014 – Automatisch – Manuell – Kombiniert 4
  • 5. Metadaten • Häufige Anwendung im Publikationsbereich: Indexierung • Standardisierte Vokabulare für manuelle Indexierung – Bibliothek: Gemeinschaftliche Normdatei – Verlage, Buchhändler, ....: ONIX Sasaki – Markupforum 2014 5
  • 6. Anwendungsszenario: Suche erleichtern • „Finde alle Bücher über Stuttgart“ • „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten – DNB http://d-nb.info/gnd/4058282-6 – LOC http://id.loc.gov/authorities/names/n79110280 – VIAF http://viaf.org/viaf/153084910/ – ... Sasaki – Markupforum 2014 6
  • 7. WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGEN GEMEINSAM? Sasaki – Markupforum 2014 7
  • 8. Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 8 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  • 9. Metadaten – der nächste Schritt: Vom Container in die Inhalte Sasaki – Markupforum 2014 9
  • 10. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 10
  • 11. Schritt 1: Automatische Erkennung von Eigennamen • <p>Welcome to Stuttgart.</p> Output (als ITS 2.0 “Text Analysis” Markup) Sasaki – Markupforum 2014 Input • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p> 11
  • 12. Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL Nutzt DBpedia URIs aus Schritt 1. Beispielabfrage, prüft ob Entität ein Ort (place) ist • SELECT ?wikiURI ... WHERE{ http://dbpedia.org/resource/Stuttgart rdf:type <http://schema.org/Place>.... } Sasaki – Markupforum 2014 12
  • 13. Schritt 3: Generierung von Schema.org Markup und Inhalten • Teil 1: SPARQL Query Ausgabe und • Teil 2: Dokument • <p>Welcome to <span its-ta-ident-ref=" http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p> Output: Dokument mit Schema.org Markup Sasaki – Markupforum 2014 Input • <p>Welcome to <span ... Itemscope="" itemtype="http://schema.org/Place"> … Stuttgart</span>! Population: 600038</p> 13
  • 14. Outputtest mit „Structured Data Testing Tool“ http://www.google.com/webmasters/tools/richsnippets Sasaki – Markupforum 2014 14
  • 15. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 15
  • 16. 1) Tooling für Content Authors • Beispiel oXygen Editor Modifikation • Informationsquellen aus dem Web holen – Autor muss Quellen und Abfragen auswählen können – Strukturgenerierung muss konfigurierbar sein Sasaki – Markupforum 2014 16
  • 17. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Einwohnerzahl für Orte aus DBpedia Sasaki – Markupforum 2014 17
  • 18. 1) Tooling für Content Authors • Abfrage von Datenquellen macht Inhalte dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“ – Beispiel: Geburtsdatum für Personen aus DBpedia Sasaki – Markupforum 2014 18
  • 19. 2) Wissen um Datenquellen und Technologien • Technologien In a Nutshell – RDF um Daten zu repräsentieren – SPARQL zur Abfrage – ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud • Relevante Datenquellen – Allgemein: DBpedia – Speziell: Abhängig von der Domäne + dem Anwendungsfall – (Potential): die eigenen, angereicherten Inhalte selbst  – Beispiel: Reiseführer über Stuttgart Sasaki – Markupforum 2014 19
  • 20. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 20
  • 21. WAS IST LINKED DATA? KURZEINFÜHRUNG … Sasaki – Markupforum 2014 21
  • 22. Bausteine für das Web <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 22
  • 23. Inhalt <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 23
  • 24. Links (oder “Identifier”) <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 24
  • 25. Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 25 ✔
  • 26. Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“ <p>All content on this site is licensed under <a href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 26 ?
  • 27. Linked Data = maschinenlesbare Information im Web <p>All content on this site is licensed under <a property="http://creativecommons.org/ns#license" href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License</a>. </p> Sasaki – Markupforum 2014 27 ?
  • 28. Linked Data = maschinenlesbare Information im Web Web der Dokumente Web der Daten Sasaki – Markupforum 2014 28
  • 29. AUFGABEN & TECHNOLOGIEN Sasaki – Markupforum 2014 29
  • 30. Aufgaben … Linked Data erzeugen Linked Data Vokabulare definieren Abfrage Sasaki – Markupforum 2014 30
  • 31. Technologien • Linked Data erzeugen: RDF (Resource Description Framework) • Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung - Ontologien) • Abfrage: SPARQL Sasaki – Markupforum 2014 31
  • 32. Linked Data = RDF „Aussagen“ Referenz zu einer Lizenz als RDF Aussage (Visualisierung): Sasaki – Markupforum 2014 32 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  • 33. Turtle Syntax Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax: Sasaki – Markupforum 2014 33 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/ @prefix cc: <http://creativecommons.org/ns#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. <http://www.w3.org/Talks/2014/1114-sasaki-metadata/> cc:license <http://creativecommons.org/licenses/by/3.0/>.
  • 34. RDF Aussagen … Sasaki – Markupforum 2014 34 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/ns#license http://creativecommons.org/licenses/by/3.0/
  • 35. … auf der Basis von Vokabularien cc:license rdf:Type rdf:Property Sasaki – Markupforum 2014 35 http://www.w3.org/Talks/2014/1114-sasaki-metadata/ http://creativecommons.org/licenses/by/3.0/ ex:Presentations rdf:Type RDF Schema - Definition von Classes (example “Presentations”) und properties (like “cc:license”) OWL (Web Ontology Language) - Definition weiterer (logischer) Constraints für Vokabulare SKOS - Beschreibung von Thesauri, Taxonomien, Klassifikationen
  • 36. Query - SPARQL • Query Sprache für RDF • Muster in Linkstrukturen • Z.B. „Finde Präsentationen mit CC ... Lizenz“ Ergebnis: http://www.w3.org/Talks/2014/1114-sasaki-metadata/ PREFIX cc: <http://creativecommons.org/ns#> SELECT ?presentation WHERE { ?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>. } Sasaki – Markupforum 2014 36
  • 37. SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“: http://tinyurl.com/dbpedia-bsp Sasaki – Markupforum 2014 37
  • 38. Q/A in Suchmaschinen heute Sasaki – Markupforum 2014 38 Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
  • 39. Potential: Q/A selbstgemacht • Suche traditional – Volltextindexierung, Linkgewichtung • Metadaten heute – Zugang zu Containern • Metadaten morgen: Linked Data – Neue Anwendungsszenarien, z.B. Q/A selbst gemacht  Sasaki – Markupforum 2014 39
  • 40. Wiederholung: Metadaten = Containerlabel Sasaki – Markupforum 2014 http://viaf.org/viaf/153084910/ 40 http://d-nb.info/gnd/4058282-6 http://id.loc.gov/authorities/names/n79110280
  • 41. Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“ Sasaki – Markupforum 2014 41
  • 42. Potential: Buchauslieferung = Inhalte + Anreicherung Sasaki – Markupforum 2014 42
  • 43. Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen! Sasaki – Markupforum 2014 43 Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“ • Ergebnis ist anders als Abfrage gegenüber DBpedia  „Gustav Schwab“ • Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich • Linked Data Anreicherung + Anfragen: spezifisch für Markt  Reiseführer, Technische Dokumentation, ...
  • 44. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 44
  • 45. Linked Data 1/3 Sasaki – Markupforum 2014
  • 46. Linked Data 2/3 Sasaki – Markupforum 2014 Linked Open Data Cloud
  • 47. Linked Data 2/3 Umfasst DNB, Library of Congress Subject Headings, VIAF, ... Sasaki – Markupforum 2014 Linked Open Data Cloud
  • 48. Linked Data 3/3 Linguistic Linked Open Data Cloud Sasaki – Markupforum 2014
  • 49. Linked Open Data Clouds – Datensätze und Themen Linked Open Data Linguistic Sasaki – Markupforum 2014 Linked Open Data Öffentliche Daten 183 18.05% Publikations(Meta)daten 96 9.47% Medizin, Biologie 83 8.19% User-generated Content 48 4.73% Domänenübergreifend 41 4.04% Multimedia 22 2.17% Geoinformationen 21 2.07% Soziales Web 520 51.28% Total 1014 Lexika Thesauri Einzelsprachlich Mehrsprachig …
  • 50. Überblick • Metadaten: Was und warum? • Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung • Was fehlt für Content Authors? • Was ist Linked Data? – Kurzeinführung ... • Offene Datenquellen im Web • Nächste Schritte Sasaki – Markupforum 2014 50
  • 51. Nächste Schritte (und Herausforderungen) • Datenquellen finden – Zugangspunkt http://datahub.io/dataset?tags=lod • Datenqualität • Vereinfachen: Linked Data erzeugen – Z.B. CSV als Linked Data verarbeiten • Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen • Abfrage + Services für Endnutzer bereit stellen Sasaki – Markupforum 2014 51
  • 52. Einstieg/Loslegen W3C LD4LT (Linked Data for Language Technology) Community Group • http://www.w3.org/community/ld4lt/ • https://www.w3.org/community/ld4lt/join • https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities • Teilnahme ist frei  LIDER: EU Projekt, November 2013 – Oktober 2015 • Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen • Anwendungsszenarien und Anforderungen von … Ihnen Sasaki – Markupforum 2014
  • 53. Zusammenfassung • Metadaten zur Anreicherung von Inhalten ist möglich • Prototypen Tools für Content Authors existieren • Externe, offene Linked Data Datenquellen wie DBpedia sind wichtiger Bestandteil der Anreicherung • Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein • Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben • Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt  Sasaki – Markupforum 2014 53
  • 54. Tools, offene Daten, Vokabulare und Anwendungsszenarien für semi-automatische Metadatengenerierung Felix Sasaki DFKI / W3C Fellow Sasaki – Markupforum 2014 54

Hinweis der Redaktion

  • #9: Die Metadaten gehen nicht in die Inhalte Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt
  • #10: Auszeichnung bzw. Anreicherung von Inhalten mit Metadaten Objektbezogene Metadaten (ONIX, GND, VIAF, ...) müssen nicht weggeworfen werden, können aber der Inhaltsanreicherung dienen Ziel Neue Anwendungsszenarien Verknüpfung mit weiteren Datenquellen
  • #36: Note: for most of the things RDFS is enough
  • #41: Die Metadaten gehen nicht in die Inhalte Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt