SlideShare una empresa de Scribd logo
De documentos a datos 
9ª jornada de usuarios Ex-Libris 2014 
30 de septiembre de 2014 
Christian Sifaqui
Introducción 
Algunos conceptos
Introducción 
Web 
Repleta de información 
Orientada al ser humano: 
para comprender el contenido de una 
página 
para relacionar contenidos dentro de una 
página (textos, imágenes, videos, etc.)
Introducción 
Originalmente la web 
fue creada para 
compartir 
“documentos”
Introducción 
Estándares: 
Documento  “Bolsa” de palabras 
Links entre documentos 
Palabras y enlaces como el centro del 
universo 
Lenguajes y protocolos: 
HTML y HTTP
Introducción 
Lo que “entiende” Lo que “entiende” 
un programa un ser humano
Introducción 
Web 
Buscadores actuales funcionan bien, 
pero orientados al keyword 
Análisis de palabras y textos 
Análisis de los enlaces 
¿y la semántica? 
Ejemplo: “diputados o senadores cuyos 
hermanos hayan sido jueces”
Introducción 
Soluciones 
• ad hoc: usar métodos de IA para 
analizar la información no 
estructurada existente en la Web 
• a priori: estructurar la información en 
la Web para facilitar el análisis 
automático  Web Semántica
Introducción 
Estándares
Introducción 
Estándares 
Grafos 
Árboles
Introducción 
Tablas Árboles Grafos 
--------------------- ------------- ------------- 
BD relacional XML RDF 
SQL XQUERY SPARQL
Introducción 
Datos abiertos (open data) 
es un idea que impulsa la publicación 
de datos de forma libre y asequible a 
cualquier persona, para que sean 
usados y republicados sin 
restricciones de ningún tipo
Introducción 
Datos enlazados (linked data): 
es usar la web para conectar datos 
que no estaban relacionados 
previamente. Usa algunas de las 
mejores prácticas de la Web 
Semántica
Introducción 
Modelo web clásica 
Use HTTP 
Use URI 
Use HTML 
Navegue y siga links 
Buscador: proveedor lo hace por usted
Introducción 
Modelo datos abiertos 
Publique datos en formatos estándares para 
que sean asequibles 
Indique licencias 
Y nada más
Introducción 
Modelo datos enlazados 
Use URIs para expresar “cosas” 
Use HTTP URIs para que estas “cosas” 
puedan ser referenciadas por personas y 
programas 
Proporcione información útil acerca de la 
“cosa” (cuando se acceda a la URI) 
usando estándares como RDF o SPARQL 
Incluya enlaces a otras “cosas” (usando sus 
URIs)
Introducción 
Esquema de las 5 estrellas 
★ coloque sus cosas en la web en cualquier formato 
bajo una licencia abierta 
★★ coloque sus cosas como datos estructurados, por 
ejemplo, Excel en vez de una imagen escaneada 
★★★ utilice formatos no propietarios, por ejemplo, CSV 
en vez de Excel 
★★★★ use URIs para expresar cosas, de tal manera que 
las personas puedan referirse a sus cosas 
★★★★★ enlace sus datos a otros datos para proveer 
contexto
Ejemplos 
Buenos ejemplos: 
http://datos.gob.cl (septiembre 2011) 
http://datos.bcn.cl (mayo 2011) 
http://data.worldbank.org/ (abril 2010) 
http://data.gov.uk/ (enero 2010) 
http://www.data.gov/ (mayo 2009)
Ejemplos 
Mal ejemplo: 
http://opendata.congreso.cl/ (julio 2014)
Ejemplos 
Mal ejemplo: 
http://opendata.congreso.cl/ (julio 2014) 
No hay licencia explícita 
No hay manuales 
Usa diversas variedades de tecnologías 
(algunas ya arcaicas) 
No hay posibilidad de contacto 
Estamos en Chile… ¿porqué “opendata”?
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Algunos detalles 
Pero la web originalmente fue 
concebida para documentos… 
¿cómo llegar a una web de 
datos?
Algunos detalles 
Algunos caminos: 
Agregar metadatos a los documentos, y que 
estos metadatos estén en el modelo de 
datos enlazados, o 
Crear sitios especiales con datos 
descriptivos acorde al modelo de datos 
enlazados, o 
Crear documentos con marcas semánticas y 
que estas marcas estén acorde al modelo 
de datos enlazados, u 
Otra manera
Algunos detalles 
Lo que se quiere es que el 
significado de la información 
pueda ser procesada 
algorítmicamente 
Ejemplo: 
El <Río>Mapocho</Río> es el principal curso 
de agua de <Ciudad>Santiago</Ciudad>.
Algunos detalles 
Una forma de lograr lo anterior es 
mediante la “representación del 
conocimiento”
Algunos detalles 
Lógica: proporciona la estructura formal 
para formular reglas, permitiendo que 
los algoritmos puedan obtener 
inferencias 
Ontología: define los objetos, que 
existen en un dominio particular 
Computabilidad: es una propiedad de 
una base de conocimientos, que 
permite que sea efectiva/real
Algunos detalles 
Ontologías: son representaciones, 
de un conjunto de conceptos y 
las relaciones entre ellos en un 
dominio determinado, 
lingüísticamente precisas y 
estructuradas formalmente
Algunos detalles 
Las ontologías se utilizan como 
medio de estructuración de la 
información y para el intercambio 
de datos
SStrtriningg 
Artista 
Obra 
produce 
producida_por 
talla 
Escultor Escultura 
tallado_por 
pinta 
Pintor Cuadro 
Técnica 
Museo 
Cubista Flamenca 
SStrtriningg 
SStrtriningg 
SStrtriningg 
SStrtriningg 
nombre 
nombre 
nombre 
utiliza 
pintado_por 
expuesta_en 
nombre 
apellido
Algunos detalles 
Conceptos, clases 
Tipos 
Instancias 
Relaciones 
Herencia 
Axiomas
PPaabblolo 
GGaarrççoonn à à l ala p pipipee 
pinta 
PPicicaassssoo utiliza 
talla 
nombre 
apellido 
nombre ÓÓleleoo s soobbrree l ileiennzzoo 
TTiziziaiannoo 
VVeecceelllili 
nombre 
apellido 
utiliza 
pinta FFuuggaa i nin E Eggitittoto nombre 
MMigiguueel lÁ Ánnggeell 
BBuuoonnaarrrrootit i 
nombre 
apellido 
MMuusseeoo d deel lH Heerrmmitiataggee 
JJoovveenn e enn c cuucclillillalass 
expuesta_en 
nombre 
expuesta_en 
nombre 
Pintor:I1 
nombre 
Cuadro:I2 
Pintor:I4 
Escultor:I7 
Técnica:I3 
Cuadro:I5 
Museo:I6 
Escultura:I8
Algunos detalles 
Lenguajes para ontologías: 
RDF-Schema (extiende RDF con un 
vocabulario de esquema y permite 
inferencias) 
OWL (añade mayor expresividad) 
DAML+OIL 
Topic Maps 
F-Logic 
WSML 
KIF 
…
Algunos detalles 
RDF 
Resource Description Framework (1998) 
Descripción de recursos 
Recurso = identificado por una URI 
Se basa en tripletas 
Sujeto  Predicado Objeto
Algunos detalles 
Tripletas RDF 
Sujeto 
•URI 
•Nodo anónimo 
Sujeto 
•URI 
•Nodo anónimo 
Predicado 
•URI 
Predicado 
•URI 
Objeto 
•URI 
•Literal 
•Nodo anónimo 
Objeto 
•URI 
•Literal 
•Nodo anónimo 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l iltieteraral l
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l iltieteraral l
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l iltieteraral l 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
Tiene como 
nombre/etiqueta 
Tiene como 
nombre/etiqueta 
“Cardiff High 
School” 
“Cardiff High 
School”
Algunos detalles 
Tripletas RDF 
UUnn c cooleleggioio Tiene como 
Tiene como 
nombre/etiqueta 
nombre/etiqueta 
UUnn l iltieteraral l 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
Tiene como 
nombre/etiqueta 
Tiene como 
nombre/etiqueta 
“Cardiff High 
School” 
“Cardiff High 
School” 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
http://education.d 
ata.gov.uk/id/sch 
ool/401874 
http://www.w3.org 
/2000/01/rdf-schema# 
http://www.w3.org 
/2000/01/rdf-schema# 
label 
label 
“Cardiff High 
School” 
“Cardiff High 
School”
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Ejemplo 
LeyChile, liberado en 2008 
Idea: añadirle datos abiertos enlazados 
(linked open data) 
- http://dl.acm.org/citation.cfm?id=2063529 
- h 
ttp://conference.ifla.org/conference/past/ifla78/214-
Ejemplo 
Paso 1: 
Use URIs para expresar “cosas” 
¿Cómo definir estas URIs? 
Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000 
¿Decretos? 
Se requiere: número, fecha y organismo 
Decreto 341 del 11 de noviembre de 2008 del Ministerio de 
Educación 
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
Ejemplo 
Pero las normas tienen modificaciones, 
por lo que la norma podría verse como 
una fuente bibliográfica y así sería 
posible de aplicar FRBR para obtener 
el recurso, o una versión actualizada o 
una manifestación específica en algún 
formato especial
Ejemplo 
Paso 3: 
Recurso 
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 
Versión original 
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 
Última versión 
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
Ejemplo 
Ontología
Ejemplo 
Paso 4: 
Relaciones a otros datasets: países 
(tratados internacionales) 
DBPedia, Geonames 
Reutilizar vocabularios/ontologías 
SKOS, DC, FOAF, DBPedia, ORG
Ejemplo 
Consulta compleja usando SPARQL 
Encontrar todas las normas emitidas por una municipalidad 
entre los años 1995 y 2000, pero que fueron modificadas 
después del año 2005 
PREFIX dc: <http://purl.org/dc/elements/1.1/> 
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> 
PREFIX dc: <http://purl.org/dc/elements/1.1/> 
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> 
SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? 
Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? 
Fecha_modificacion 
WHERE { 
?norm n:createdBy ?creator . 
?creator n:hasName ?creatorName . 
?norm dc:title ?normTitle . 
?norm n:publishDate ?pubDate . 
?norm n:isModifiedBy ?otherNorm . 
?otherNorm n:publishDate ?pubDateOther . 
FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) 
FILTER (?pubDate > xsd:date("1995") && 
SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? 
Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? 
Fecha_modificacion 
WHERE { 
?norm n:createdBy ?creator . 
?creator n:hasName ?creatorName . 
?norm dc:title ?normTitle . 
?norm n:publishDate ?pubDate . 
?norm n:isModifiedBy ?otherNorm . 
?otherNorm n:publishDate ?pubDateOther . 
FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) 
FILTER (?pubDate > xsd:date("1995") && 
?pubDate < xsd:date("2000") && 
?pubDateOther > xsd:date("2005")) 
?pubDate < xsd:date("2000") && 
?pubDateOther > xsd:date("2005")) 
} 
ORDER BY (?pubDate) 
} 
ORDER BY (?pubDate)
Ejemplo 
Visualizaciones
Ejemplo 
Visualizaciones
Ejemplo (si hay tiempo) 
Reseñas biográficas
Ejemplo (si hay tiempo) 
Reseñas biográficas
Ejemplo (si hay tiempo) 
http://datos.bcn.cl/recurso/persona/2376
Ejemplo (si hay tiempo) 
Visualizaciones
Ejemplo (si hay tiempo) 
Visualizaciones
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Bibliotecas 
Kungliga biblioteket 
https://github.com/libris/librisxl/ 
http://librisbloggen.kb.se/ 
https://twitter.com/librisnytt 
http://devkat.libris.kb.se/ usuario test password test 
Library of Congress 
British Library 
Bibliothèque nationale de France 
Deutsche Nationalbibliothek 
Biblioteca Nacional de España 
BIBFRAME http://www.loc.gov/bibframe/
Bibliotecas 
Library data cannot be used in a Linked Data environment 
without having Uniform Resource Identifiers (URIs) both for 
specific resources and for library-standard concepts. The 
official owners of resource data and standards should 
assign URIs as soon as possible, since application 
developers and other users of such data will not delay their 
activities, but are more likely to assign URIs themselves, 
outside of the owning institution. When owners are not able 
to assign URIs in good time, they should seek partners for 
this work or delegate the assignment and maintenance of 
URIs to others in order to avoid the proliferation of URIs for 
the same thing and to encourage the re-use of URIs already 
assigned. 
Agencies responsible for the creation of catalog records and 
other metadata, such as national bibliographies, are the 
logical organizations to take a leading role in creating URIs 
for their described resources.
Bibliotecas 
Bibliotecas ofrecen/ofrecerán su acervo 
en datos abiertos enlazados desde el 
punto de vista bibliográfico
Bibliotecas 
Oferta de acervo desde el punto de 
vista literario 
SSaararahh B Baartrltelettt,t ,2 2001100
Bibliotecas 
Pablo Neruda 
http://datos.bcn.cl/recurso/persona/2559 
http://id.worldcat.org/fast/34660 
http://dbpedia.org/page/Pablo_Neruda 
https://www.freebase.com/m/066c_ 
http://viaf.org/viaf/95126958/ 
http://d-nb.info/gnd/118587005 
http://www.idref.fr/027337960
Finalmente 
Dos mundos 
• Mundo de documentos  para el ser 
humano 
• Mundo de datos  para las máquinas
¿Futuro? 
Documentos 
• OCR 
• aplicación de algoritmos Named-entity 
Recognition 
• enlaces a ontologías 
• Ejemplos: 
• proyecto Historia de la Ley y Labor 
Parlamentaria 
• proyecto sentencias Corte Suprema
Referencias 
http://users.dcc.uchile.cl/~cgutierr/sw/ 
http://manzanamecanica.org/2014/07/open_data_en_el_congres 
o_chileno_lo_bueno_lo_malo_y_lo_feo.html 
http://de.wikipedia.org/wiki/Ontologie_(Informatik) 
http://www.slideshare.net/der42 
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

Más contenido relacionado

PPTX
Charla II Congreso de Bibliotecas Universitarias y Especializadas
PPT
Introduccion a OpenData
PPTX
Datos abiertos enlazados: situación actual y perspectivas
PPT
Introduccion - Curso Ontologías
PPTX
Introducción a la Web Semántica
PPT
Participación de la BCN en la Global Legislative Hackathon 2016.
PPTX
Como publicar datos: hacia los datos abiertos enlazados
PPTX
Curs 1.6. Dades Enllaçades (14/02)
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Introduccion a OpenData
Datos abiertos enlazados: situación actual y perspectivas
Introduccion - Curso Ontologías
Introducción a la Web Semántica
Participación de la BCN en la Global Legislative Hackathon 2016.
Como publicar datos: hacia los datos abiertos enlazados
Curs 1.6. Dades Enllaçades (14/02)

La actualidad más candente (20)

PPT
Web of data y los repositorios institucionales
PPTX
2017 Tendencias en informática
PDF
Curs 1.6. Datos enlazados (2h) OpenDataLab
PDF
El web semàntic: més enllà d’una extensió del web actual?
PDF
Introducción a Linked Data [esp]
PDF
Curs 2.5 Dades enllaçades
PDF
Curs 2.5 Datos Enlazados
DOCX
Web mining
PPTX
Introducción a Web Mining
KEY
Web semántica y linked data la web como bd
PPTX
Metodos d busqueda 2
PPTX
Metodos d busqueda 3
PPT
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
PPTX
Exposicion tema 2
ODP
Aplicaciones de la web semántica
PDF
Linked Data en España
DOCX
Antecedentes históricos de la base de datos
PPTX
Tutorial Web Semantica Morelia
PPTX
Datos vinculados bibliotecarios la web 3.0 en las bibliotecas
PDF
Red Ontologías Hércules – ROH
Web of data y los repositorios institucionales
2017 Tendencias en informática
Curs 1.6. Datos enlazados (2h) OpenDataLab
El web semàntic: més enllà d’una extensió del web actual?
Introducción a Linked Data [esp]
Curs 2.5 Dades enllaçades
Curs 2.5 Datos Enlazados
Web mining
Introducción a Web Mining
Web semántica y linked data la web como bd
Metodos d busqueda 2
Metodos d busqueda 3
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
Exposicion tema 2
Aplicaciones de la web semántica
Linked Data en España
Antecedentes históricos de la base de datos
Tutorial Web Semantica Morelia
Datos vinculados bibliotecarios la web 3.0 en las bibliotecas
Red Ontologías Hércules – ROH
Publicidad

Destacado (20)

PDF
Veille economie numerique 270611
PPT
El pediatra informatizado
PDF
Politique et internet : les pires ennemis ? (La Lettre du cadre, 2007)
PPT
Sondage Followers @careerssocgen
PPTX
22.cancer piel melanoma definitivo
ODP
Presentación de la fase final del concurso universitario de software libre gr...
PPS
Pierre et Claude : un duo dynamique
PDF
1po oel kle_50_f
PPTX
Semana 10
PDF
Le programme de la Coupe du monde féminine de rugby
PPS
Abrazote
PDF
Tester pivote iterer
PPT
23.cayre marzo 5 2011
DOCX
Oratoria juridica
PDF
SAINT-WITZ DEMAIN #3
PDF
Slideshare noel altics
PDF
17 3 Agustin Marquez
PDF
Depliant vote-commune-plus-de-mille-habitants
PDF
ALTICS_Etude-EyeTracking-SKI
Veille economie numerique 270611
El pediatra informatizado
Politique et internet : les pires ennemis ? (La Lettre du cadre, 2007)
Sondage Followers @careerssocgen
22.cancer piel melanoma definitivo
Presentación de la fase final del concurso universitario de software libre gr...
Pierre et Claude : un duo dynamique
1po oel kle_50_f
Semana 10
Le programme de la Coupe du monde féminine de rugby
Abrazote
Tester pivote iterer
23.cayre marzo 5 2011
Oratoria juridica
SAINT-WITZ DEMAIN #3
Slideshare noel altics
17 3 Agustin Marquez
Depliant vote-commune-plus-de-mille-habitants
ALTICS_Etude-EyeTracking-SKI
Publicidad

Similar a Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014 (20)

PPT
Charla Biblioteca Nacional, 24 de julio de 2014
PPTX
Linked Open Data - Datos Abiertos Enlazados
PPTX
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...
PPTX
Ontologías
PDF
Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)
DOCX
Tesis junio
PPTX
Ontologia ECTS
PDF
Ontologías
DOC
Anotaciones semanticas recursos
PPT
Web semanticasidar 03
PPT
Websemanticasidar03
PPT
Websemanticasidar03
PPT
Web 3.0
PPT
Websemanticasidar03
PPTX
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
PDF
Retos y oportunidades en Archivos y Gestión documental ante la Web Semántica....
PPTX
Ontologias con Bases de Datos
PPT
Ontologia Ecst
PPTX
Apresentação - II Jornada Nacional de Investigación - ULADECH - Peru
PDF
Web Semantica
Charla Biblioteca Nacional, 24 de julio de 2014
Linked Open Data - Datos Abiertos Enlazados
IX Encuentros de Centros de Documentación de Arte Contemporáneo en Artium - O...
Ontologías
Interoperabilidad semántica y re-uso de datos en la Web (HackEc15)
Tesis junio
Ontologia ECTS
Ontologías
Anotaciones semanticas recursos
Web semanticasidar 03
Websemanticasidar03
Websemanticasidar03
Web 3.0
Websemanticasidar03
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión documental ante la Web Semántica....
Ontologias con Bases de Datos
Ontologia Ecst
Apresentação - II Jornada Nacional de Investigación - ULADECH - Peru
Web Semantica

Más de Christian Sifaqui (20)

PPT
Charla a funcionarios BCN
PPT
Charla a alumnos de la UCINF
PPT
Presentación mesa redonda
PPT
Presentación para U. La Serena
PPT
Collecter 04
PPT
Presentación para USM
PPT
Charla SEC, 19 de diciembre de 2013
PPT
Charla a Consejo para la Transparencia, 27 de noviembre de 2013
PPTX
Informática jurídica y tendencias de los sistemas de información de leyes
PPTX
Taller Acceso a la Información y Archivos, Buenos Aires, 8-9 Octubre 2013
PPTX
Conferencia Datos Abiertos Regionales, Montevideo, 2013
PPT
Gestión digital de la información, iSummit Loxa 2012
PPT
IFLA Power to the people, 16.08.2012
PPT
IFLA Semantic Web at the BCN, 15.08.2012
PPT
Encuentro open data, 12 de julio de 2012
PPT
Charla UCV, 15 de mayo de 2012
PPT
Seminario "Uso de TICs en la Enseñanza de la Historia y el Patrimonio Cultura...
PPT
Seminario Cepal, martes 24 de abril de 2012
PPT
Charla y mesa redonda 19 diciembre 2011
PPT
Lex school 2011
Charla a funcionarios BCN
Charla a alumnos de la UCINF
Presentación mesa redonda
Presentación para U. La Serena
Collecter 04
Presentación para USM
Charla SEC, 19 de diciembre de 2013
Charla a Consejo para la Transparencia, 27 de noviembre de 2013
Informática jurídica y tendencias de los sistemas de información de leyes
Taller Acceso a la Información y Archivos, Buenos Aires, 8-9 Octubre 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013
Gestión digital de la información, iSummit Loxa 2012
IFLA Power to the people, 16.08.2012
IFLA Semantic Web at the BCN, 15.08.2012
Encuentro open data, 12 de julio de 2012
Charla UCV, 15 de mayo de 2012
Seminario "Uso de TICs en la Enseñanza de la Historia y el Patrimonio Cultura...
Seminario Cepal, martes 24 de abril de 2012
Charla y mesa redonda 19 diciembre 2011
Lex school 2011

Último (20)

PPTX
Historia Inteligencia Artificial Ana Romero.pptx
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
DOCX
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
DOCX
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
PPTX
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
PDF
capacitación de aire acondicionado Bgh r 410
PDF
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
PPTX
El uso de las TIC en la vida cotidiana..
PPTX
modulo seguimiento 1 para iniciantes del
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
MANUAL de recursos humanos para ODOO.pdf
PDF
Diapositiva proyecto de vida, materia catedra
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PDF
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf
Historia Inteligencia Artificial Ana Romero.pptx
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
Distribucion de frecuencia exel (1).pdf
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
capacitación de aire acondicionado Bgh r 410
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
El uso de las TIC en la vida cotidiana..
modulo seguimiento 1 para iniciantes del
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
Estrategia de Apoyo de Daylin Castaño (5).pdf
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
MANUAL de recursos humanos para ODOO.pdf
Diapositiva proyecto de vida, materia catedra
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf

Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

  • 1. De documentos a datos 9ª jornada de usuarios Ex-Libris 2014 30 de septiembre de 2014 Christian Sifaqui
  • 3. Introducción Web Repleta de información Orientada al ser humano: para comprender el contenido de una página para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  • 4. Introducción Originalmente la web fue creada para compartir “documentos”
  • 5. Introducción Estándares: Documento  “Bolsa” de palabras Links entre documentos Palabras y enlaces como el centro del universo Lenguajes y protocolos: HTML y HTTP
  • 6. Introducción Lo que “entiende” Lo que “entiende” un programa un ser humano
  • 7. Introducción Web Buscadores actuales funcionan bien, pero orientados al keyword Análisis de palabras y textos Análisis de los enlaces ¿y la semántica? Ejemplo: “diputados o senadores cuyos hermanos hayan sido jueces”
  • 8. Introducción Soluciones • ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  • 11. Introducción Tablas Árboles Grafos --------------------- ------------- ------------- BD relacional XML RDF SQL XQUERY SPARQL
  • 12. Introducción Datos abiertos (open data) es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo
  • 13. Introducción Datos enlazados (linked data): es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  • 14. Introducción Modelo web clásica Use HTTP Use URI Use HTML Navegue y siga links Buscador: proveedor lo hace por usted
  • 15. Introducción Modelo datos abiertos Publique datos en formatos estándares para que sean asequibles Indique licencias Y nada más
  • 16. Introducción Modelo datos enlazados Use URIs para expresar “cosas” Use HTTP URIs para que estas “cosas” puedan ser referenciadas por personas y programas Proporcione información útil acerca de la “cosa” (cuando se acceda a la URI) usando estándares como RDF o SPARQL Incluya enlaces a otras “cosas” (usando sus URIs)
  • 17. Introducción Esquema de las 5 estrellas ★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta ★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada ★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel ★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas ★★★★★ enlace sus datos a otros datos para proveer contexto
  • 18. Ejemplos Buenos ejemplos: http://datos.gob.cl (septiembre 2011) http://datos.bcn.cl (mayo 2011) http://data.worldbank.org/ (abril 2010) http://data.gov.uk/ (enero 2010) http://www.data.gov/ (mayo 2009)
  • 19. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014)
  • 20. Ejemplos Mal ejemplo: http://opendata.congreso.cl/ (julio 2014) No hay licencia explícita No hay manuales Usa diversas variedades de tecnologías (algunas ya arcaicas) No hay posibilidad de contacto Estamos en Chile… ¿porqué “opendata”?
  • 22. Algunos detalles Pero la web originalmente fue concebida para documentos… ¿cómo llegar a una web de datos?
  • 23. Algunos detalles Algunos caminos: Agregar metadatos a los documentos, y que estos metadatos estén en el modelo de datos enlazados, o Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u Otra manera
  • 24. Algunos detalles Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente Ejemplo: El <Río>Mapocho</Río> es el principal curso de agua de <Ciudad>Santiago</Ciudad>.
  • 25. Algunos detalles Una forma de lograr lo anterior es mediante la “representación del conocimiento”
  • 26. Algunos detalles Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias Ontología: define los objetos, que existen en un dominio particular Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real
  • 27. Algunos detalles Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente
  • 28. Algunos detalles Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos
  • 29. SStrtriningg Artista Obra produce producida_por talla Escultor Escultura tallado_por pinta Pintor Cuadro Técnica Museo Cubista Flamenca SStrtriningg SStrtriningg SStrtriningg SStrtriningg nombre nombre nombre utiliza pintado_por expuesta_en nombre apellido
  • 30. Algunos detalles Conceptos, clases Tipos Instancias Relaciones Herencia Axiomas
  • 31. PPaabblolo GGaarrççoonn à à l ala p pipipee pinta PPicicaassssoo utiliza talla nombre apellido nombre ÓÓleleoo s soobbrree l ileiennzzoo TTiziziaiannoo VVeecceelllili nombre apellido utiliza pinta FFuuggaa i nin E Eggitittoto nombre MMigiguueel lÁ Ánnggeell BBuuoonnaarrrrootit i nombre apellido MMuusseeoo d deel lH Heerrmmitiataggee JJoovveenn e enn c cuucclillillalass expuesta_en nombre expuesta_en nombre Pintor:I1 nombre Cuadro:I2 Pintor:I4 Escultor:I7 Técnica:I3 Cuadro:I5 Museo:I6 Escultura:I8
  • 32. Algunos detalles Lenguajes para ontologías: RDF-Schema (extiende RDF con un vocabulario de esquema y permite inferencias) OWL (añade mayor expresividad) DAML+OIL Topic Maps F-Logic WSML KIF …
  • 33. Algunos detalles RDF Resource Description Framework (1998) Descripción de recursos Recurso = identificado por una URI Se basa en tripletas Sujeto  Predicado Objeto
  • 34. Algunos detalles Tripletas RDF Sujeto •URI •Nodo anónimo Sujeto •URI •Nodo anónimo Predicado •URI Predicado •URI Objeto •URI •Literal •Nodo anónimo Objeto •URI •Literal •Nodo anónimo UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  • 35. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l
  • 36. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School”
  • 37. Algunos detalles Tripletas RDF UUnn c cooleleggioio Tiene como Tiene como nombre/etiqueta nombre/etiqueta UUnn l iltieteraral l http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 Tiene como nombre/etiqueta Tiene como nombre/etiqueta “Cardiff High School” “Cardiff High School” http://education.d ata.gov.uk/id/sch ool/401874 http://education.d ata.gov.uk/id/sch ool/401874 http://www.w3.org /2000/01/rdf-schema# http://www.w3.org /2000/01/rdf-schema# label label “Cardiff High School” “Cardiff High School”
  • 39. Ejemplo LeyChile, liberado en 2008 Idea: añadirle datos abiertos enlazados (linked open data) - http://dl.acm.org/citation.cfm?id=2063529 - h ttp://conference.ifla.org/conference/past/ifla78/214-
  • 40. Ejemplo Paso 1: Use URIs para expresar “cosas” ¿Cómo definir estas URIs? Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000 ¿Decretos? Se requiere: número, fecha y organismo Decreto 341 del 11 de noviembre de 2008 del Ministerio de Educación http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341
  • 41. Ejemplo Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial
  • 42. Ejemplo Paso 3: Recurso http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341 Versión original http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07 Última versión http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20
  • 44. Ejemplo Paso 4: Relaciones a otros datasets: países (tratados internacionales) DBPedia, Geonames Reutilizar vocabularios/ontologías SKOS, DC, FOAF, DBPedia, ORG
  • 45. Ejemplo Consulta compleja usando SPARQL Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion WHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) } ORDER BY (?pubDate) } ORDER BY (?pubDate)
  • 48. Ejemplo (si hay tiempo) Reseñas biográficas
  • 49. Ejemplo (si hay tiempo) Reseñas biográficas
  • 50. Ejemplo (si hay tiempo) http://datos.bcn.cl/recurso/persona/2376
  • 51. Ejemplo (si hay tiempo) Visualizaciones
  • 52. Ejemplo (si hay tiempo) Visualizaciones
  • 54. Bibliotecas Kungliga biblioteket https://github.com/libris/librisxl/ http://librisbloggen.kb.se/ https://twitter.com/librisnytt http://devkat.libris.kb.se/ usuario test password test Library of Congress British Library Bibliothèque nationale de France Deutsche Nationalbibliothek Biblioteca Nacional de España BIBFRAME http://www.loc.gov/bibframe/
  • 55. Bibliotecas Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned. Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.
  • 56. Bibliotecas Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico
  • 57. Bibliotecas Oferta de acervo desde el punto de vista literario SSaararahh B Baartrltelettt,t ,2 2001100
  • 58. Bibliotecas Pablo Neruda http://datos.bcn.cl/recurso/persona/2559 http://id.worldcat.org/fast/34660 http://dbpedia.org/page/Pablo_Neruda https://www.freebase.com/m/066c_ http://viaf.org/viaf/95126958/ http://d-nb.info/gnd/118587005 http://www.idref.fr/027337960
  • 59. Finalmente Dos mundos • Mundo de documentos  para el ser humano • Mundo de datos  para las máquinas
  • 60. ¿Futuro? Documentos • OCR • aplicación de algoritmos Named-entity Recognition • enlaces a ontologías • Ejemplos: • proyecto Historia de la Ley y Labor Parlamentaria • proyecto sentencias Corte Suprema
  • 61. Referencias http://users.dcc.uchile.cl/~cgutierr/sw/ http://manzanamecanica.org/2014/07/open_data_en_el_congres o_chileno_lo_bueno_lo_malo_y_lo_feo.html http://de.wikipedia.org/wiki/Ontologie_(Informatik) http://www.slideshare.net/der42 http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/