Web Semántica
(el rol de las bibliotecas)
Claudio Gutierrez
DCC, Universidad de Chile
Agenda
1. Web Semántica: visión clásica
• Web
• Web Semántica
2. Web Semántica: nueva perspectiva
• Web Semántica
• Linked Data
• Open Data
El problema…
“una divinidad que delira”
– J. L. Borges, La Biblioteca Total, 1939.
“abundancia torrencial”,
“el libro enfurecido”
– J. Ortega y Gasset, Misión del Bibliotecario, 1935
Nuestro entorno: K, M, G
KILO: mil (2^10)
Memoria celular
Texto (email, documento)
MEGA: millón (2^20)
Libro, Fotografía
GIGA: mil millones (2^30)
Memoria RAM, Buen video
(Este es nuestro mundo…)
Poniéndonos serios…: TB
TERA: un billón 10^12 2^{40}
-- Biblioteca del Congreso (USA): 160 TB
-- Discos de 1TB (2007)
-- Tráfico diario de Internet (100 TB)
-- Wikipedia: 6 Terabyte dump (2010)
--3-D movie Monsters Vs Aliens (necesitó 100 TB
disco)
No es escala humana. Pero, lo maneja hoy cualquier
empresa/experimento que se respete
Futuro inmediato: PB
PETA : mil billones 10^15 2^50
– Internet Archive (3 PB) (crece a 100 TB por mes)
– Google procesa 24 petabytes de datos cada día
– 1/2 PB: filmar la vida de una persona (100 años
en alta definición).
– Facebook tiene 60 mil millones de imágenes, esto
es 1,5PB.
– Rapidshare dispone de una capacidad de
almacenamiento de varios petabytes.
– AT&T transfiere alrededor de 19 petabytes de
datos al día.
– Los experimentos del LHC (Large Hadron
Collider) producirán 15 petabytes de datos al año.
Futuro próximo: EXA, Z
EXA: millón de billones
10^18 (2^60)
Todas las palabras
que se han hablado:
aprox. 5 EXB texto
(42 zb digitalizadas.
Internet ocupa entre 100 y 200
exabytes
El premio del Sultán en el ajedrez:
2^64: casi 1 EXB
Zetta 10^21 (2^70)
El universo digital (todos los
datos o archivos
almacenados digitalm.)
alcanza 1,2 millones de
petabytes, o 1,2 zettabytes.
Para 2020 será 30 veces más
grande de lo que es hoy
(aprox. 35 zb)
El problema
• Hay demasiada información
• Más aun: se produce torrencialmente
• No sólo las “masas”, sino que los sensores
Necesita arquitectura que considere:
– Que todos son potenciales productores
– Que todos son potenciales consumidores
– Que escale a volúmenes “infinitos”
Solución del siglo xxi
Crear un espacio de información
universal: la Web (Tim Berners-Lee, 1990)
Principio básico:
–Todos pueden publicar
–Todos pueden leer
La Web (en 3 minutos)
Espacio de información universal:
– “pizarrón universal” donde todos pueden
publicar y todos pueden leer
Nota: la Web no es Internet:
– Internet: Red física,
protocolos intercambio de
paquetes: TCP/IP
– Web: Red Lógica,
protocolos de intercambio de
info: HTML, HTTP, URI
Web semantica
La Web: principios de diseño
1. Independencia de Dispositivo
2. Independencia de software
3. Internacionalización
4. Multimedia
5. Accesibilidad
6. Ritmo y razón
7. Calidad
8. Independencia de escala
La Web: problemas
1. Información poco comprensible
– Enlaces no tienen semántica
– Metadatos inexistentes o subutilizados
2. Procesamiento al nivel sintáctico
Resultado:
-- difícil de automatizar
-- imposible de razonar
Solución: Web Semántica
Hipótesis: Procesar información a escala
planetaria necesitará automatización
⇒ Máquinas deben “entender”
⇒ Desarrollar semántica automática
“La Web Semántica es una
Web donde la información
sea entendible y usable
tanto por humanos como
por computadores.”
--Tim Berners-Lee
La Web Semántica:
Arquitectura
¿Un proyecto viable?
• Pocos resultados después de 10 años
• ¿demasiado optimista?
Una Web Semántica más modesta:
–Enlazar datos (Linked Data)
–Publicar datos (Open Data)
Etapa 0: el computador
ATOMOS
Objetos materiales
Trabajo manual
Intensivo en energía
Productos con servicio
Centralizado
Estructuras jerárquicas
Ciencia clásica
BITS
Objetos virtuales
Trabajo intelectual
Intensivo en información
Servicios con productos
Distribuído
Estructuras planas
Nuevo paradigma
Etapa 1: computadores
interconectados: INTERNET
Etapa 2: documentos
interconectados: WEB
Etapa 2: WEB
• Enlaces (links) entre documentos
• “Palabras” (secuencias de caracteres) y
enlaces como el centro del universo
•Lenguajes y protocolos:
– HTTP (protocolo para escribir y leer)
– HTML (lenguaje para la pizarra)
– URI (identificadores únicos)
Etapa 2: debilidades
• Información está aislada
– pocos y malos enlaces
• Los datos no están accesibles
– se publican sólo documentos
En términos prácticos:
–Torrente, diluvio de (malos) datos
nos ahoga
–Se están formando islas privadas
–No se puede “razonar” sobre la
información
Etapa 3: datos
interconectados
Lo que ven las
máquinas hoy
Lo que ven
los humanos
Agregar semántica mínima
Etapa 3: Web de Datos
• La información como datos
• Los datos enlazados como red
• Los datos públicos y abiertos
Tecnologías claves:
–RDF y SPARQL
–Estrategia: Linked Data
–Filosofía: Open data
Artefactos de datos
Bases de Datos
Desktops
Dataspaces
Bibliotecas
Archivos
Web clásica
Web semántica
Web de Datos
Data Gov
Open Data
Estático Dinámico
abiertocerrado
Linked data
Desafíos
1. Cómo publicar: formatos, metadatos,
temporalidad, persistencia, privacidad
2. Cómo enlazar: protocolos, escalabilidad,
mantenibilidad, semántica
3. Cómo consultar / navegar: distribución,
relaciones, rankeo, deducción
4. Cómo integrar: todas las anteriores…
Rol de Bibliotecas: algunas
preguntas
• En un mundo de información abierta: ¿cuáles
son los límites?
• Enlazar: ¿con quién? ¿cómo?
• ¿Sólo organizar o también publicar?
– ¿Quiénes serán responsables de publicación de
datos por Facultad?
• ¿Catalogación central o folksonomías?
(mi tesis: Open Data cambiará radicalmente el
rol y sentido de las bibliotecas)

Más contenido relacionado

PPT
Internet
PPT
Conferencia Web2 Jueves31 0800
PPT
En búsqueda de una web más inteligente (Cristobal Cobo R.)
PPTX
La historia del desarrollo del internet
PPTX
La historia del desarrollo del internet
PDF
No es 2.0 todo lo que reluce
PPT
Planeta WEB 2.0
PPT
Internet y la www: la historia
Internet
Conferencia Web2 Jueves31 0800
En búsqueda de una web más inteligente (Cristobal Cobo R.)
La historia del desarrollo del internet
La historia del desarrollo del internet
No es 2.0 todo lo que reluce
Planeta WEB 2.0
Internet y la www: la historia

La actualidad más candente (18)

PPTX
Presentacion de la historia del internet
PDF
Evolucion del comercio electronico.
PPTX
PPTX
La internet sory marcela y karen arteaga 11 5
DOCX
Textode analogias
PPTX
Presentacion power point
PPTX
Informática y comunicación
ODP
inventos
PPTX
Practica 2 del 3 la red de internet
DOCX
Actividad evaluada de nticx
PPTX
Informática y comunicación
PPTX
Universidad autónoma de los andes
PPTX
Informática y comunicación
PPTX
Ayudamemongolaa jajaja (1)
DOCX
Practica de word
PPT
Trabajo Final De Informatik
PPT
Trabajo Final De Informatik
PPT
C:\Fakepath\Internet
Presentacion de la historia del internet
Evolucion del comercio electronico.
La internet sory marcela y karen arteaga 11 5
Textode analogias
Presentacion power point
Informática y comunicación
inventos
Practica 2 del 3 la red de internet
Actividad evaluada de nticx
Informática y comunicación
Universidad autónoma de los andes
Informática y comunicación
Ayudamemongolaa jajaja (1)
Practica de word
Trabajo Final De Informatik
Trabajo Final De Informatik
C:\Fakepath\Internet
Publicidad

Similar a Web semantica (20)

ODP
Informática 4º ESO IES Carmen Conde
PPTX
Taller 1 michelle o mishel c_stalin m
PPT
Internet
PPTX
De paso por la red. El Día de Internet.
DOCX
PDF
Tech tuesday Big data with horton works
PPTX
Historia de la internet
PPTX
Historia de internet
PDF
Jóvenes, tecnología y educación (1a)
PPTX
El Internet
PPTX
Estructura de la comunicacion en internet
PPTX
Antecedentes del periodismo cibernético
PDF
Examen 10 a dayana internet y redes
DOC
La aldea global
PPT
Historia de internet (2008)
PPT
Historia Internet
PDF
Internet
ODP
Apuntes maria carmen conde informatica cuarto
PPT
Power Laws
Informática 4º ESO IES Carmen Conde
Taller 1 michelle o mishel c_stalin m
Internet
De paso por la red. El Día de Internet.
Tech tuesday Big data with horton works
Historia de la internet
Historia de internet
Jóvenes, tecnología y educación (1a)
El Internet
Estructura de la comunicacion en internet
Antecedentes del periodismo cibernético
Examen 10 a dayana internet y redes
La aldea global
Historia de internet (2008)
Historia Internet
Internet
Apuntes maria carmen conde informatica cuarto
Power Laws
Publicidad

Más de Sistema de Servicios de Información y Bibliotecas SISIB (20)

PDF
El marketing es mucho más que el signo $. Es una disciplina científica que ta...
PDF
Ciencias y humanidades: PNAS y University of Chicago Press
PDF
PDF
Personalización de servicios de descubrimiento: Que el servicio sea tuyo
PDF
Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...
PDF
Últimas tendencias en Bibliotecas Digitales según Springer Nature
PDF
Today's forecast for your campus: BLUEcloud
PDF
Biblioteca virtual para personas con discapacidad
PDF
La biblioteca como centro de innovación para el aprendizaje
PDF
Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l...
PDF
Analítica web: Métricas clave para entender a nuestros usuarios
PDF
Datos abiertos enlazados: Experiencia en la Universidad de Chile
PDF
El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...
PDF
Indexing repositories: Pitfalls & best practices
PDF
Envisioning the possibilities: Educational trends and information literacy in...
PDF
Microdata y SEO: Para qué queremos tener datos estructurados hoy
PDF
Los servicios de publicación desarrollados por las bibliotecas universitarias
PDF
Mapas patrimoniales en la Biblioteca Nacional de Chile
PDF
Trends for Academic and Research Libraries – Learning with ALA’s Center for t...
PDF
Nueva generación de sistemas de gestión de bibliotecas
El marketing es mucho más que el signo $. Es una disciplina científica que ta...
Ciencias y humanidades: PNAS y University of Chicago Press
Personalización de servicios de descubrimiento: Que el servicio sea tuyo
Cómo producir un colaboratorio. Relevancia de la sistematización y reflexibil...
Últimas tendencias en Bibliotecas Digitales según Springer Nature
Today's forecast for your campus: BLUEcloud
Biblioteca virtual para personas con discapacidad
La biblioteca como centro de innovación para el aprendizaje
Impacto de la integración de las TIC’s a través del proyecto Tecnoaulas en l...
Analítica web: Métricas clave para entender a nuestros usuarios
Datos abiertos enlazados: Experiencia en la Universidad de Chile
El proyecto LEARN y la gestión de datos de investigación: Avances y desafíos ...
Indexing repositories: Pitfalls & best practices
Envisioning the possibilities: Educational trends and information literacy in...
Microdata y SEO: Para qué queremos tener datos estructurados hoy
Los servicios de publicación desarrollados por las bibliotecas universitarias
Mapas patrimoniales en la Biblioteca Nacional de Chile
Trends for Academic and Research Libraries – Learning with ALA’s Center for t...
Nueva generación de sistemas de gestión de bibliotecas

Último (20)

PDF
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
PDF
informe tipos de Informatica perfiles profesionales _pdf
PDF
2.0 Introduccion a processing, y como obtenerlo
PPTX
RESUMENES JULIO - QUIRÓFANO HOSPITAL GENERAL PUYO.pptx
PDF
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
PPTX
Clase 3 del silabo-gestion y control financiero
PDF
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
PDF
Manual del Gobierno Escolar -MINEDUC.pdf
DOCX
Programa_Sintetico_Fase_4.docx 3° Y 4°..
PDF
La lluvia sabe por qué: una historia sobre amistad, resiliencia y esperanza e...
PDF
IPERC...................................
PDF
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
PDF
Ernst Cassirer - Antropologia Filosofica.pdf
DOCX
PLANES DE área ciencias naturales y aplicadas
PDF
Modelo Educativo SUB 2023versión final.pdf
DOC
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
PDF
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
PDF
Nadie puede salvarte excepto Tú - Madame Rouge Ccesa007.pdf
PDF
CURRICULAR DE PRIMARIA santa ursula..pdf
PDF
Jodorowsky, Alejandro - Manual de Psicomagia.pdf
Los10 Mandamientos de la Actitud Mental Positiva Ccesa007.pdf
informe tipos de Informatica perfiles profesionales _pdf
2.0 Introduccion a processing, y como obtenerlo
RESUMENES JULIO - QUIRÓFANO HOSPITAL GENERAL PUYO.pptx
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
Clase 3 del silabo-gestion y control financiero
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
Manual del Gobierno Escolar -MINEDUC.pdf
Programa_Sintetico_Fase_4.docx 3° Y 4°..
La lluvia sabe por qué: una historia sobre amistad, resiliencia y esperanza e...
IPERC...................................
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
Ernst Cassirer - Antropologia Filosofica.pdf
PLANES DE área ciencias naturales y aplicadas
Modelo Educativo SUB 2023versión final.pdf
4°_GRADO_-_SESIONES_DEL_11_AL_15_DE_AGOSTO.doc
Texto Digital Los Miserables - Victor Hugo Ccesa007.pdf
Nadie puede salvarte excepto Tú - Madame Rouge Ccesa007.pdf
CURRICULAR DE PRIMARIA santa ursula..pdf
Jodorowsky, Alejandro - Manual de Psicomagia.pdf

Web semantica

  • 1. Web Semántica (el rol de las bibliotecas) Claudio Gutierrez DCC, Universidad de Chile
  • 2. Agenda 1. Web Semántica: visión clásica • Web • Web Semántica 2. Web Semántica: nueva perspectiva • Web Semántica • Linked Data • Open Data
  • 3. El problema… “una divinidad que delira” – J. L. Borges, La Biblioteca Total, 1939. “abundancia torrencial”, “el libro enfurecido” – J. Ortega y Gasset, Misión del Bibliotecario, 1935
  • 4. Nuestro entorno: K, M, G KILO: mil (2^10) Memoria celular Texto (email, documento) MEGA: millón (2^20) Libro, Fotografía GIGA: mil millones (2^30) Memoria RAM, Buen video (Este es nuestro mundo…)
  • 5. Poniéndonos serios…: TB TERA: un billón 10^12 2^{40} -- Biblioteca del Congreso (USA): 160 TB -- Discos de 1TB (2007) -- Tráfico diario de Internet (100 TB) -- Wikipedia: 6 Terabyte dump (2010) --3-D movie Monsters Vs Aliens (necesitó 100 TB disco) No es escala humana. Pero, lo maneja hoy cualquier empresa/experimento que se respete
  • 6. Futuro inmediato: PB PETA : mil billones 10^15 2^50 – Internet Archive (3 PB) (crece a 100 TB por mes) – Google procesa 24 petabytes de datos cada día – 1/2 PB: filmar la vida de una persona (100 años en alta definición). – Facebook tiene 60 mil millones de imágenes, esto es 1,5PB. – Rapidshare dispone de una capacidad de almacenamiento de varios petabytes. – AT&T transfiere alrededor de 19 petabytes de datos al día. – Los experimentos del LHC (Large Hadron Collider) producirán 15 petabytes de datos al año.
  • 7. Futuro próximo: EXA, Z EXA: millón de billones 10^18 (2^60) Todas las palabras que se han hablado: aprox. 5 EXB texto (42 zb digitalizadas. Internet ocupa entre 100 y 200 exabytes El premio del Sultán en el ajedrez: 2^64: casi 1 EXB Zetta 10^21 (2^70) El universo digital (todos los datos o archivos almacenados digitalm.) alcanza 1,2 millones de petabytes, o 1,2 zettabytes. Para 2020 será 30 veces más grande de lo que es hoy (aprox. 35 zb)
  • 8. El problema • Hay demasiada información • Más aun: se produce torrencialmente • No sólo las “masas”, sino que los sensores Necesita arquitectura que considere: – Que todos son potenciales productores – Que todos son potenciales consumidores – Que escale a volúmenes “infinitos”
  • 9. Solución del siglo xxi Crear un espacio de información universal: la Web (Tim Berners-Lee, 1990) Principio básico: –Todos pueden publicar –Todos pueden leer
  • 10. La Web (en 3 minutos) Espacio de información universal: – “pizarrón universal” donde todos pueden publicar y todos pueden leer Nota: la Web no es Internet: – Internet: Red física, protocolos intercambio de paquetes: TCP/IP – Web: Red Lógica, protocolos de intercambio de info: HTML, HTTP, URI
  • 12. La Web: principios de diseño 1. Independencia de Dispositivo 2. Independencia de software 3. Internacionalización 4. Multimedia 5. Accesibilidad 6. Ritmo y razón 7. Calidad 8. Independencia de escala
  • 13. La Web: problemas 1. Información poco comprensible – Enlaces no tienen semántica – Metadatos inexistentes o subutilizados 2. Procesamiento al nivel sintáctico Resultado: -- difícil de automatizar -- imposible de razonar
  • 14. Solución: Web Semántica Hipótesis: Procesar información a escala planetaria necesitará automatización ⇒ Máquinas deben “entender” ⇒ Desarrollar semántica automática “La Web Semántica es una Web donde la información sea entendible y usable tanto por humanos como por computadores.” --Tim Berners-Lee
  • 16. ¿Un proyecto viable? • Pocos resultados después de 10 años • ¿demasiado optimista? Una Web Semántica más modesta: –Enlazar datos (Linked Data) –Publicar datos (Open Data)
  • 17. Etapa 0: el computador ATOMOS Objetos materiales Trabajo manual Intensivo en energía Productos con servicio Centralizado Estructuras jerárquicas Ciencia clásica BITS Objetos virtuales Trabajo intelectual Intensivo en información Servicios con productos Distribuído Estructuras planas Nuevo paradigma
  • 20. Etapa 2: WEB • Enlaces (links) entre documentos • “Palabras” (secuencias de caracteres) y enlaces como el centro del universo •Lenguajes y protocolos: – HTTP (protocolo para escribir y leer) – HTML (lenguaje para la pizarra) – URI (identificadores únicos)
  • 21. Etapa 2: debilidades • Información está aislada – pocos y malos enlaces • Los datos no están accesibles – se publican sólo documentos En términos prácticos: –Torrente, diluvio de (malos) datos nos ahoga –Se están formando islas privadas –No se puede “razonar” sobre la información
  • 23. Lo que ven las máquinas hoy Lo que ven los humanos
  • 25. Etapa 3: Web de Datos • La información como datos • Los datos enlazados como red • Los datos públicos y abiertos Tecnologías claves: –RDF y SPARQL –Estrategia: Linked Data –Filosofía: Open data
  • 26. Artefactos de datos Bases de Datos Desktops Dataspaces Bibliotecas Archivos Web clásica Web semántica Web de Datos Data Gov Open Data Estático Dinámico abiertocerrado Linked data
  • 27. Desafíos 1. Cómo publicar: formatos, metadatos, temporalidad, persistencia, privacidad 2. Cómo enlazar: protocolos, escalabilidad, mantenibilidad, semántica 3. Cómo consultar / navegar: distribución, relaciones, rankeo, deducción 4. Cómo integrar: todas las anteriores…
  • 28. Rol de Bibliotecas: algunas preguntas • En un mundo de información abierta: ¿cuáles son los límites? • Enlazar: ¿con quién? ¿cómo? • ¿Sólo organizar o también publicar? – ¿Quiénes serán responsables de publicación de datos por Facultad? • ¿Catalogación central o folksonomías? (mi tesis: Open Data cambiará radicalmente el rol y sentido de las bibliotecas)