SlideShare una empresa de Scribd logo
Copyright (c) 2012, Miguel Ángel Abián




  BUSCADORES SEMÁNTICOS:
     COMPRENDER PARA
        ENCONTRAR
          (Parte 1)
                      Miguel Ángel Abián




                                    Página 1 de 10
Copyright (c) 2012, Miguel Ángel Abián




  BUSCADORES SEMÁNTICOS: COMPRENDER PARA
                ENCONTRAR
                  (Parte 1)
Palabras clave: búsqueda semántica, buscadores semánticos, web semántica,
ontologías, minería de datos
Keywords: Semantic Search, Semantic Search Engines, Semantic Web, Ontologies, Data
Mining

     En este artículo, primero de una serie, se definen conceptos como
búsqueda semántica y buscador semántico y se exponen ejemplos de las
ventajas de los buscadores semánticos con respecto a los buscadores
convencionales, basados en el uso de palabras clave para encontrar
información y mostrarla al usuario. El interés industrial y comercial de las
búsquedas semánticas se manifiesta tanto en la aparición de numerosos
buscadores semánticos como en la utilización de técnicas semánticas para
complementar las búsquedas convencionales (en Google, por ejemplo).
     En un artículo anterior hablé del nuevo buscador semántico de Microsoft.
En este artículo definiré precisamente conceptos como "búsqueda semántica" y
"buscador semántico" y expondré ejemplos de sus ventajas con respecto a los
buscadores convencionales, así como de sus limitaciones actuales.
      Muchos de los buscadores actuales se basan en palabras clave. Es decir,
el usuario introduce las palabras relevantes de su búsqueda ("Albert Einstein" y
"Nobel", p. ej.), y la aplicación devuelve todos los documentos que contienen
esas palabras. En el apartado 3.2 de El futuro de la Web
(http://www.javahispano.org/portada/2011/8/1/el-futuro-de-la-web.html) puede
encontrarse una exposición de las desventajas de esos buscadores. Dos son
las más importantes:
     1. Escasa precisión o relevancia en los resultados (se
        devuelven muchos documentos poco relevantes para la
        búsqueda: la presencia de una palabra clave en un documento
        no implica necesariamente que éste sea relevante).
     2. Excesiva sensibilidad al vocabulario empleado en las
        búsquedas (y, por tanto, imposibilidad de obtener a la primera
        todos los resultados relevantes disponibles: muchos documentos
        de interés pueden no incluir las palabras clave, pero sí
        sinónimos, hipónimos o hiperónimos de ellas).
     Un estudio de David Hawking y de varios investigadores evaluó 20
buscadores convencionales (basados en palabras clave) usando 54
búsquedas. El porcentaje de resultados relevantes después de inspeccionar las
20 primeras páginas web devueltas fue del 0,5% para el mejor buscador
(Northern Light), y Google fue el segundo buscador más preciso. Así pues, la
popularidad de los buscadores basados en palabras clave no tiene mucho que
ver con su precisión, sino con la paciencia de buey de los usuarios. Así las
cosas, las búsquedas semánticas serían una vacuna para el contagioso
virus de la falta de relevancia en los resultados.


                                    Página 2 de 10
Copyright (c) 2012, Miguel Ángel Abián



      Una búsqueda semántica es una consulta en la que se tiene en cuenta el
contexto, y por tanto el significado, de aquello por lo que se pregunta (y no
solamente las palabras de la consulta), con el objetivo de evitar la
ambigüedades tanto de las consultas como del texto de los documentos donde
se busca. Por ejemplo, una búsqueda semántica con las palabras "descubridor"
y "penicilina" devolvería documentos sobre Alexander Fleming, aunque en ellos
no aparecieran esos dos términos, porque identificaría los conceptos que
estructuran la búsqueda (la penicilina es un producto del cual se desea
averiguar su descubridor o, dicho más formalmente, Medicina(Penicilina)
tieneInventor Persona(Alexander Fleming)). El fin último de las búsquedas
semánticas radica en que los usuarios puedan formular búsquedas más
precisas y expresivas, que originen resultados relevantes para el usuario con
la mínima intervención de éste.
      Normalmente, se admite que las búsquedas semánticas se basan en
técnicas para extraer información mediante la utilización de ontologías o
metadatos. El uso de ontologías permite definir formalmente los dominios de
interés (teorías científicas, por ejemplo) con la suficiente riqueza expresiva para
que los usuarios pueden especificar sus búsquedas con bastante detalle, ya
sea antes de ejecutar la consulta o durante su ejecución.
     Desde un punto de vista técnico, un buscador semántico es una
aplicación que comprende las búsquedas de los usuarios y los textos de
los documentos de la web mediante el uso de algoritmos que simulan
comprensión o entendimiento, y que a partir de éstos proporciona resultados
correctos sin que el usuario tenga que abrir el documento e inspeccionarlo por
sí mismo. Un buscador de este tipo reconoce el contexto correcto para las
palabras o sentencias de búsqueda. Google o Yahoo no son buscadores
semánticos, pues se basan fundamentalmente en algoritmos que generan
estadísticas a partir de palabras y enlaces, y no en algoritmos cognitivos que
capturen el conocimiento implícito en las palabras y su contexto. Por ejemplo,
una búsqueda como "¿Quién fue Urano?" en cualquiera de esos buscadores
devolverá resultados afines al séptimo planeta del Sistema Solar, cuando está
claro que el propósito de la búsqueda es encontrar información sobre el dios
primordial del cielo en la mitología griega.
      Los buscadores semánticos no siempre pueden acertar a la primera el
significado de una palabra polisémica. Por tanto, deben disponer de medios de
desambiguación para conocer el sentido exacto que tiene la palabra en la
búsqueda. Por ejemplo, un buscador semántico que utilize internamente
ontologías con conceptos informáticos y medios de transporte deberá disponer
de herramientas para determinar a qué se refiere el usuario cuando hace una
consulta con la palabra bus, que puede significar autobús o "sistema digital que
transfiere datos entre los componentes de un computador o computadores".
Para ello, puede escoger el significado más probable, preguntar al usuario para
que elija entre varias opciones (como hace el buscador Hakia, que presenta las
opciones extrayéndolas de su ontología) o usar las demás palabras de la
búsqueda para inferir el significado exacto de bus en ese contexto (p. ej., en
una consulta como "¿A qué hora sale este viernes el bus para Soria desde
Madrid?").



                                    Página 3 de 10
Copyright (c) 2012, Miguel Ángel Abián



     Como un buscador semántico se basa en algoritmos que simulan la
comprensión de las palabras y, por ende, establecen relaciones entre ellas,
pueden realizar búsquedas de interés para el usuario aunque en los
documentos devueltos no figuren las palabras o expresiones de búsqueda. Por
ejemplo, un buscador semántico en que se introdujera la palabra "marsupial"
mostraría documentos donde aparecerían términos como éstos: canguro,
koala, satanelo de Nueva Guinea, monito del monte, rata canguro, zarigüeya,
tlacuache, demonio de Tasmania. Como demuestra este ejemplo, las
búsquedas semánticas son muy superiores a las basadas en palabras clave:
uno puede encontrar documentos de interés que jamás encontraría buscando
con palabras clave. Además, si uno buscara información sobre distintas
especies de marsupiales, no necesitaría formular la consulta de distintas
maneras, con el nombre de cada especie, para obtener la información
deseada.
     La falta de estructura y de anotaciones semánticas en los recursos de la
web (documentos Word, PDF, páginas HTML, etc.) obliga a que los buscadores
semánticos analicen mediante algoritmos cognitivos los recursos, palabra a
palabra y oración a oración, para asignar las palabras y oraciones a conceptos
ontológicos. Estos algoritmos son lentos y requieren supervisión humana. De
ahí que los buscadores semánticos no cubran por ahora tantos recursos de la
web como los convencionales, que emplean algoritmos estadísticos, mucho
más rápidos y completamente automatizados. Esta limitación desaparecerá
cuando se vayan mejorando los algoritmos cognitivos o en cuanto los "islotes
semánticos" se unan para formar la web semántica o, al menos, "continentes
semánticos".
     "Nunca existirá la web semántica –oigo a lo lejos–. Es tan imposible que
funcione como las máquinas voladoras de Leonardo da Vinci." Tengo dos
objeciones contra esa opinión. Una: el pesimismo no tiene futuro. Dos: hubo un
tiempo, no lejano, en que se pensaba que la interoperabilidad sintáctica era
imposible salvo con enormes inversiones, y casi todos apostaron a que no
habría un único caballo ganador en la carrera de los lenguajes de intercambio
de datos. Se equivocaron. Y algunos perdieron hasta la camisa.
      A falta de la web semántica, algunos ya se han puesto al tajo. Existen
buscadores semánticos que trabajan ya estructurando la información a la que
luego se accede mediante búsquedas, pues resulta posible obtener cierto nivel
de conocimiento semántico a partir de la estructura de los datos. Por ejemplo,
Freebase (http://www.freebase.com/), un buscador social, utiliza RDF para
definir su estructura de datos como una serie de nodos y un conjunto de
enlaces que establecen relaciones entre los nodos. Freebase tiene una gran
colección de vocabularios codificados mediante RDF(S), con los cuales
expresa un amplio rango de dominios y áreas de interés.




                                    Página 4 de 10
Copyright (c) 2012, Miguel Ángel Abián




        Figura 1. Freebase: una base de datos social y un buscador




Según la documentación oficial de Freebase, lo que diferencia a Freebase de
otras bases de datos es que cualquier asunto puede ir acompañado de muchas
clases distintas de información. El ejemplo que dan es muy claro: "Por ejemplo,
Arnold Schwarzenegger podría aparecer como actor en una base de datos de
películas, como gobernador en una base de datos de política y como Mr.
Universo en una base de datos de culturistas. En Freebase, solamente hay un
tema sobre Arnold Schwarzenegger, que contiene información sobre las tres
facetas de su vida pública. El tema unificado actúa como un centro de
información, por lo que es fácil encontrar información sobre él y aportarla,
independientemente de qué clase de información es".




                                    Página 5 de 10
Copyright (c) 2012, Miguel Ángel Abián




                       Figura 2. Relaciones en FreeBase


     En principio, los buscadores semánticos podrían evitar las páginas
basura, que proliferan en la web como malas hierbas en un campo
abandonado. Como tienen en cuenta el contexto de las palabras o frases de los
documentos, podrían descartar esas páginas enseguida. Por ejemplo, una
página web que incluya la frase "web semántica" rodeada de frases sobre
cómo aumentar la potencia sexual, juguetes eróticos y sexo fácil en algún país
lejano de costumbres relajadas sería eliminada de cualquier búsqueda sobre la
web semántica o tendría una relevancia muy baja; pues el contexto de estas
últimas frases (sexo) no tiene ninguna relación con la web semántica.
     Que un buscador permita introducir preguntas en lenguaje natural ("¿Qué
tiempo hace ahora en Viena?") y las responda correctamente no significa
necesariamente que sea un buscador semántico: puede que solamente
traduzca las preguntas en lenguaje natural a consultas sobre una base de
datos.
     Por el momento, casi todos los buscadores semánticos permiten
solamente búsquedas en inglés, aunque se están ampliando para que admitan
otros lenguajes. Aparte del predominio del inglés, la causa de eso se debe
también a las dificultades inherentes a reflejar el conocimiento de los
lenguajes naturales en estructuras de datos que permitan búsquedas rápidas
y escalables (matrices, listas, pilas, colas, árboles, grafos, etc.). Por ejemplo, el
buscador Hakia utiliza un vocabulario en forma de ontología que incluye unos
100.000 sentidos de palabras inglesas, y ese número continuará aumentando


                                    Página 6 de 10
Copyright (c) 2012, Miguel Ángel Abián



según se perfeccione la aplicación. Confeccionar cualquier vocabulario de ese
tamaño es una empresa lenta, tediosa y muy cara, y que debe ser realizada por
un equipo bien coordinado de especialistas en lingüística.
      Se equivocará quien piense que, teniendo una ontología de sentidos de
palabras en inglés, resulta sencilla su conversión a una ontología en otro
idioma: la conversión de ontologías lingüísticas de un idioma a otro es un
proceso muy complejo y que requiere la supervisión constante de un equipo de
traductores. Por poner un ejemplo, si queremos pasar de una ontología
lingüística en español a una en alemán, debemos considerar todas las posibles
traducciones al alemán de cada palabra española; en caso contrario, los
resultados de las búsquedas en alemán estarán más limitados que los de las
búsquedas en español. Una palabra española sencilla y sin ambigüedades
como "automóvil" puede traducirse en alemán como "Auto", "Wagen",
"Kraftwagen", "Kraftfahrzeug", "Automobil", "Motorfahrzeug" o "KFZ" (seguro
que hay más traducciones, pero hasta ahí llega mi alemán básico).
     En una búsqueda interlinguística español-alemán de tipo semántico, todas
estas palabras deberían tenerse en cuenta para encontrar todos los
documentos relevantes cuando alguien escriba "automóvil" en el buscador.
(Las búsquedas interlinguísticas son aquellas en que se traduce una búsqueda
en un lenguaje a otro lenguaje, y los resultados se traducen de nuevo al primer
lenguaje. Google está trabajando para añadir a su buscador esta clase de
búsquedas, que permitirán, entre otras muchas cosas, que un hispanohablante
puede reservar entradas en museos y cines en Tokio, aunque la información de
horarios y venta de entradas no esté disponible en español.)
      Es probable que los buscadores semánticos cambien la manera en que
se busca y se muestra la información y que supongan un gran cambio para los
usuarios ocasionales. Considérense, por ejemplo, las interfaces que aparecen
en las siguientes capturas de pantalla, procedentes de Mnemo
(http://www.mnemo.org/) Kart00 (http://www.kartoo.com/) y KoolTorch (
http://www.kooltorch.com/).




                                    Página 7 de 10
Copyright (c) 2012, Miguel Ángel Abián




   Figura 3. Interfaz de Mnemo. Quizás los navegadores semánticos del
                  futuro tengan interfaces similares a ésta




 Figura 4. Interfaz de Kart00. Podría ser que los navegadores semánticos
               del futuro tuvieran interfaces similares a ésta



                                    Página 8 de 10
Copyright (c) 2012, Miguel Ángel Abián




 Figura 5. Interfaz de KoolTorch. Quizás los navegadores semánticos del
                  futuro tengan interfaces similares a ésta




                                    Página 9 de 10
Copyright (c) 2012, Miguel Ángel Abián




     Sobre el autor:

     Miguel Ángel Abián nació en Soria. Obtuvo la suficiencia investigadora en el Dpto. de
Física Aplicada de la Universidad de Valencia con una tesina sobre electromagnetismo.
Realizó varios cursos de doctorado relacionados con electromagnetismo, electrónica,
semiconductores y cristales fotónicos. Ha recibido becas del IMPIVA (Instituto de la Mediana
y Pequeña Industria Valenciana) y de la Universidad Politécnica de Valencia. Cursó un
Máster estadounidense en UML y Java y otro sobre tecnologías de Internet/Intranet.
     Se incorporó en 1998 a AIDIMA, donde ha participado como investigador en 24
proyectos de investigación nacionales e internacionales relacionados con la Web semántica,
tecnologías de la información, madera en construcción, biosensórica, bioelectrónica,
telecomunicaciones, visión artificial; así como en la Red de Excelencia de la Comisión
Europea INTEROP 2003-2007. Algunos de los proyectos europeos relacionados con las
tecnologías semánticas en los que ha participado son ATHENA y STASIS (http://www.stasis-
project.net/).
     El año 2006 estuvo cuatro meses como investigador invitado en el departamento
Lehrstuhl für Messsystem und Sensortechnik de la Universidad Politécnica de Munich (TUM),
donde colaboró en el desarrollo de nuevos métodos para la detección de defectos en
superficies acabadas y en el diseño e implementación de sistemas distribuidos de sensores
para el sector del automóvil y de energías renovables. En 2007 recibió un premio BANCAJA-
UPV por un proyecto relacionado con la calidad interna de la madera. En 2009 recibió el
premio internacional Schweighofer Innovation Prize -el premio más prestigioso en el sector
forestal y de la madera- por su aportación al desarrollo de nuevas tecnologías de evaluación
no destructiva de la madera en construcción.
     Actualmente es Responsable del Departamento de Tecnología y Biotecnología de la
Madera y del Área de Construcción de Madera.
     Es coautor de 7 libros y guías técnicas relacionadas con el uso de la madera en la
construcción y la visión artificial. También ha publicado varios artículos científicos en revistas
como IEEE Transactions on Microwave Theory and Techniques y Wood Science and
Technology. Ha participado como ponente en congresos y conferencias como European
Congress on Computational Methods in Applied Sciences and Engineering, IEEE
International Conference on Multisensor Fusion and Integration for Intelligent Systems,
International Conference on Space Structures (IABSE-IASS) y en reuniones COST
(European Cooperation in Science and Technology). Ha publicado más de 22 artículos
técnicos en revistas sectoriales y técnicas.
     Es autor o coautor de 6 patentes, algunas de ellas en trámite. Tres de ellas
corresponden a dispositivos y métodos para detectar la biodegradación de la madera en
construcción.
     Actualmente, entre otros proyectos como WOODRUB o CELLUWOOD, trabaja en
SEMCONCEPT, un proyecto de I+D+i para aplicar tecnologías semánticas (ontologías,
buscadores semánticos) en el diseño conceptual de productos industriales.
     Sus intereses actuales son la evolución de la programación orientada a objetos, Java,
la Web semántica y sus tecnologías, la arquitectura orgánica, el surrealismo y París, siempre
París.




                                          Página 10 de 10

Más contenido relacionado

PPTX
El derecho constitucional y su contenido
PPTX
Estado de excepción
PPTX
Buscadores de internet
PPTX
Clase 12 derecho ambiental
PPTX
Internet: Usos y Aplicaciones
PPTX
Derecho Internacional Público y Privado
PDF
DIFERENCIA ENTRE DERECHO PÚBLICO Y DERECHO PRIVADO
DOC
APUNTES DE DERECHO POLITICO UNIVERSIDAD DEL NORTE
El derecho constitucional y su contenido
Estado de excepción
Buscadores de internet
Clase 12 derecho ambiental
Internet: Usos y Aplicaciones
Derecho Internacional Público y Privado
DIFERENCIA ENTRE DERECHO PÚBLICO Y DERECHO PRIVADO
APUNTES DE DERECHO POLITICO UNIVERSIDAD DEL NORTE

La actualidad más candente (20)

DOCX
Elementos constitutivos de la lógica
PDF
Interpretación de Normas Jurídicas
DOCX
Mapa conceptual del derecho
PPSX
relación entre derecho e informática
PPT
Derecho privado, publico y social
PPTX
UNIDAD 2 TECNICAS DE INTERPRETACIÓN.pptx
PPTX
Division de poderes
PPTX
derecho constitucional / INTERPRETACION DE LAS NORMAS CONSTITUIONALES
PPTX
Tema 2 historia del derecho
PPTX
ORGANISMOS INTERNACIONALES 1
PPTX
Proceso legislativo
PPTX
Derecho Privado.pptx
DOCX
Mapa conceptual del derecho
PDF
Clasificacion de normas jurídicas
PPT
Presentacion fuentes del derecho Mexicano
PPTX
Derecho Internacional PrivadoTema 01
PPTX
Clasificaciones del Derecho
PPT
Unidad i temas i y ii el derecho procesal
PPT
¿Que es la ciencia política?
PPTX
Derecho Positivo y Natural
Elementos constitutivos de la lógica
Interpretación de Normas Jurídicas
Mapa conceptual del derecho
relación entre derecho e informática
Derecho privado, publico y social
UNIDAD 2 TECNICAS DE INTERPRETACIÓN.pptx
Division de poderes
derecho constitucional / INTERPRETACION DE LAS NORMAS CONSTITUIONALES
Tema 2 historia del derecho
ORGANISMOS INTERNACIONALES 1
Proceso legislativo
Derecho Privado.pptx
Mapa conceptual del derecho
Clasificacion de normas jurídicas
Presentacion fuentes del derecho Mexicano
Derecho Internacional PrivadoTema 01
Clasificaciones del Derecho
Unidad i temas i y ii el derecho procesal
¿Que es la ciencia política?
Derecho Positivo y Natural
Publicidad

Destacado (20)

PPTX
Buscadores semanticos
PPT
Buscador semantico
PPTX
Buscadores semanticos
PDF
Educación a distancia
PPTX
Art xxviii gatt
PDF
Proyectofinal 102505 100
PPTX
Tutorial microsoft power point
PPTX
La deserción de los adultos mayores de 50 años en los cursos de inglés en el ...
PPTX
Correccion ortografica
PPTX
Presentación1
ODP
Indikattiboa
PPT
PDF
La innovación Abierta: Puente entre Universidad, Empresa y Cooperación
PPTX
Las vistas powerpoint1
PPTX
Diapositiva programacion visual 2
PPT
Y como los seducimos resumen
PPTX
Expo mate final
PDF
Artículo 2 sobre la plataforma ECLIPSE
PPTX
Malware
Buscadores semanticos
Buscador semantico
Buscadores semanticos
Educación a distancia
Art xxviii gatt
Proyectofinal 102505 100
Tutorial microsoft power point
La deserción de los adultos mayores de 50 años en los cursos de inglés en el ...
Correccion ortografica
Presentación1
Indikattiboa
La innovación Abierta: Puente entre Universidad, Empresa y Cooperación
Las vistas powerpoint1
Diapositiva programacion visual 2
Y como los seducimos resumen
Expo mate final
Artículo 2 sobre la plataforma ECLIPSE
Malware
Publicidad

Similar a Buscadores semanticos Parte 1 (20)

PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
PPTX
Métodos de búsqueda en internet
DOC
Buscadores semanticos
PPTX
Metodos de busqueda
DOCX
Informatica
DOCX
Motores de búsqueda
PPTX
Buscadores
PDF
Uso de internet_para_investigaciones_educativas_1
PPT
kbee.search
DOCX
Informatica
PPTX
GBI.
PPTX
Metodos de busqueda y operadores booleanos
PPTX
Metodos de busqueda en internet trabajo
PPTX
metodos de busqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Métodos de búsqueda en internet
Buscadores semanticos
Metodos de busqueda
Informatica
Motores de búsqueda
Buscadores
Uso de internet_para_investigaciones_educativas_1
kbee.search
Informatica
GBI.
Metodos de busqueda y operadores booleanos
Metodos de busqueda en internet trabajo
metodos de busqueda en internet

Más de torrubia (20)

PDF
Presentación proyecto NODOS_TURISMO
PDF
Presentación Proyecto SHCity
PDF
Artículo resultados Anualidad 1 proyecto NODOS-TURISMO
PDF
Newsletter 2 proyecto NODOS-TURISMO
PDF
Artículo proyecto NODOS-TURISMO
PDF
Newsletter 1 proyecto Nodos-Turismo
PDF
Wokshop proyecto nodos turismo
PDF
Circular 2 proyecto PROINNOMADERA
PDF
Circular 1 proyecto PROINNOMADERA
PDF
Jornada AIDIMA peritaje madera para arquitectos
PDF
Conductividad termica en la edificación
PDF
Resumen primer año proyecto PROINNOMADERA
PDF
Articulo 2015 fin proyecto europeo CELLUWOOD
PDF
Artículo 2015 proyecto IDANMAD
PDF
Noticia jornadas técnicas MADERALIA SELECCIÓN 2015
PDF
Ficha difusion 2014 proyecto IDANMAD
PDF
Ficha tecnica final del proyecto IDANMAD
PDF
Noticia sobre proyecto CELLUWOOD
PDF
CELLUWOOD Project Presentation Outcomes
PDF
CelluNews September 2014
Presentación proyecto NODOS_TURISMO
Presentación Proyecto SHCity
Artículo resultados Anualidad 1 proyecto NODOS-TURISMO
Newsletter 2 proyecto NODOS-TURISMO
Artículo proyecto NODOS-TURISMO
Newsletter 1 proyecto Nodos-Turismo
Wokshop proyecto nodos turismo
Circular 2 proyecto PROINNOMADERA
Circular 1 proyecto PROINNOMADERA
Jornada AIDIMA peritaje madera para arquitectos
Conductividad termica en la edificación
Resumen primer año proyecto PROINNOMADERA
Articulo 2015 fin proyecto europeo CELLUWOOD
Artículo 2015 proyecto IDANMAD
Noticia jornadas técnicas MADERALIA SELECCIÓN 2015
Ficha difusion 2014 proyecto IDANMAD
Ficha tecnica final del proyecto IDANMAD
Noticia sobre proyecto CELLUWOOD
CELLUWOOD Project Presentation Outcomes
CelluNews September 2014

Último (20)

PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PPTX
El uso de las TIC en la vida cotidiana..
PPTX
Presentación de Redes de Datos modelo osi
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PPTX
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPTX
Mecanismos-de-Propagacion de ondas electromagneticas
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PPTX
modulo seguimiento 1 para iniciantes del
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf
Influencia-del-uso-de-redes-sociales.pdf
Estrategia de Apoyo de Daylin Castaño (5).pdf
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
la-historia-de-la-medicina Edna Silva.pptx
El uso de las TIC en la vida cotidiana..
Presentación de Redes de Datos modelo osi
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
Guía 5. Test de orientación Vocacional 2.docx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Mecanismos-de-Propagacion de ondas electromagneticas
historia_web de la creacion de un navegador_presentacion.pptx
TRABAJO DE TECNOLOGIA.pdf...........................
Historia Inteligencia Artificial Ana Romero.pptx
Power Point Nicolás Carrasco (disertación Roblox).pptx
modulo seguimiento 1 para iniciantes del
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...

Buscadores semanticos Parte 1

  • 1. Copyright (c) 2012, Miguel Ángel Abián BUSCADORES SEMÁNTICOS: COMPRENDER PARA ENCONTRAR (Parte 1) Miguel Ángel Abián Página 1 de 10
  • 2. Copyright (c) 2012, Miguel Ángel Abián BUSCADORES SEMÁNTICOS: COMPRENDER PARA ENCONTRAR (Parte 1) Palabras clave: búsqueda semántica, buscadores semánticos, web semántica, ontologías, minería de datos Keywords: Semantic Search, Semantic Search Engines, Semantic Web, Ontologies, Data Mining En este artículo, primero de una serie, se definen conceptos como búsqueda semántica y buscador semántico y se exponen ejemplos de las ventajas de los buscadores semánticos con respecto a los buscadores convencionales, basados en el uso de palabras clave para encontrar información y mostrarla al usuario. El interés industrial y comercial de las búsquedas semánticas se manifiesta tanto en la aparición de numerosos buscadores semánticos como en la utilización de técnicas semánticas para complementar las búsquedas convencionales (en Google, por ejemplo). En un artículo anterior hablé del nuevo buscador semántico de Microsoft. En este artículo definiré precisamente conceptos como "búsqueda semántica" y "buscador semántico" y expondré ejemplos de sus ventajas con respecto a los buscadores convencionales, así como de sus limitaciones actuales. Muchos de los buscadores actuales se basan en palabras clave. Es decir, el usuario introduce las palabras relevantes de su búsqueda ("Albert Einstein" y "Nobel", p. ej.), y la aplicación devuelve todos los documentos que contienen esas palabras. En el apartado 3.2 de El futuro de la Web (http://www.javahispano.org/portada/2011/8/1/el-futuro-de-la-web.html) puede encontrarse una exposición de las desventajas de esos buscadores. Dos son las más importantes: 1. Escasa precisión o relevancia en los resultados (se devuelven muchos documentos poco relevantes para la búsqueda: la presencia de una palabra clave en un documento no implica necesariamente que éste sea relevante). 2. Excesiva sensibilidad al vocabulario empleado en las búsquedas (y, por tanto, imposibilidad de obtener a la primera todos los resultados relevantes disponibles: muchos documentos de interés pueden no incluir las palabras clave, pero sí sinónimos, hipónimos o hiperónimos de ellas). Un estudio de David Hawking y de varios investigadores evaluó 20 buscadores convencionales (basados en palabras clave) usando 54 búsquedas. El porcentaje de resultados relevantes después de inspeccionar las 20 primeras páginas web devueltas fue del 0,5% para el mejor buscador (Northern Light), y Google fue el segundo buscador más preciso. Así pues, la popularidad de los buscadores basados en palabras clave no tiene mucho que ver con su precisión, sino con la paciencia de buey de los usuarios. Así las cosas, las búsquedas semánticas serían una vacuna para el contagioso virus de la falta de relevancia en los resultados. Página 2 de 10
  • 3. Copyright (c) 2012, Miguel Ángel Abián Una búsqueda semántica es una consulta en la que se tiene en cuenta el contexto, y por tanto el significado, de aquello por lo que se pregunta (y no solamente las palabras de la consulta), con el objetivo de evitar la ambigüedades tanto de las consultas como del texto de los documentos donde se busca. Por ejemplo, una búsqueda semántica con las palabras "descubridor" y "penicilina" devolvería documentos sobre Alexander Fleming, aunque en ellos no aparecieran esos dos términos, porque identificaría los conceptos que estructuran la búsqueda (la penicilina es un producto del cual se desea averiguar su descubridor o, dicho más formalmente, Medicina(Penicilina) tieneInventor Persona(Alexander Fleming)). El fin último de las búsquedas semánticas radica en que los usuarios puedan formular búsquedas más precisas y expresivas, que originen resultados relevantes para el usuario con la mínima intervención de éste. Normalmente, se admite que las búsquedas semánticas se basan en técnicas para extraer información mediante la utilización de ontologías o metadatos. El uso de ontologías permite definir formalmente los dominios de interés (teorías científicas, por ejemplo) con la suficiente riqueza expresiva para que los usuarios pueden especificar sus búsquedas con bastante detalle, ya sea antes de ejecutar la consulta o durante su ejecución. Desde un punto de vista técnico, un buscador semántico es una aplicación que comprende las búsquedas de los usuarios y los textos de los documentos de la web mediante el uso de algoritmos que simulan comprensión o entendimiento, y que a partir de éstos proporciona resultados correctos sin que el usuario tenga que abrir el documento e inspeccionarlo por sí mismo. Un buscador de este tipo reconoce el contexto correcto para las palabras o sentencias de búsqueda. Google o Yahoo no son buscadores semánticos, pues se basan fundamentalmente en algoritmos que generan estadísticas a partir de palabras y enlaces, y no en algoritmos cognitivos que capturen el conocimiento implícito en las palabras y su contexto. Por ejemplo, una búsqueda como "¿Quién fue Urano?" en cualquiera de esos buscadores devolverá resultados afines al séptimo planeta del Sistema Solar, cuando está claro que el propósito de la búsqueda es encontrar información sobre el dios primordial del cielo en la mitología griega. Los buscadores semánticos no siempre pueden acertar a la primera el significado de una palabra polisémica. Por tanto, deben disponer de medios de desambiguación para conocer el sentido exacto que tiene la palabra en la búsqueda. Por ejemplo, un buscador semántico que utilize internamente ontologías con conceptos informáticos y medios de transporte deberá disponer de herramientas para determinar a qué se refiere el usuario cuando hace una consulta con la palabra bus, que puede significar autobús o "sistema digital que transfiere datos entre los componentes de un computador o computadores". Para ello, puede escoger el significado más probable, preguntar al usuario para que elija entre varias opciones (como hace el buscador Hakia, que presenta las opciones extrayéndolas de su ontología) o usar las demás palabras de la búsqueda para inferir el significado exacto de bus en ese contexto (p. ej., en una consulta como "¿A qué hora sale este viernes el bus para Soria desde Madrid?"). Página 3 de 10
  • 4. Copyright (c) 2012, Miguel Ángel Abián Como un buscador semántico se basa en algoritmos que simulan la comprensión de las palabras y, por ende, establecen relaciones entre ellas, pueden realizar búsquedas de interés para el usuario aunque en los documentos devueltos no figuren las palabras o expresiones de búsqueda. Por ejemplo, un buscador semántico en que se introdujera la palabra "marsupial" mostraría documentos donde aparecerían términos como éstos: canguro, koala, satanelo de Nueva Guinea, monito del monte, rata canguro, zarigüeya, tlacuache, demonio de Tasmania. Como demuestra este ejemplo, las búsquedas semánticas son muy superiores a las basadas en palabras clave: uno puede encontrar documentos de interés que jamás encontraría buscando con palabras clave. Además, si uno buscara información sobre distintas especies de marsupiales, no necesitaría formular la consulta de distintas maneras, con el nombre de cada especie, para obtener la información deseada. La falta de estructura y de anotaciones semánticas en los recursos de la web (documentos Word, PDF, páginas HTML, etc.) obliga a que los buscadores semánticos analicen mediante algoritmos cognitivos los recursos, palabra a palabra y oración a oración, para asignar las palabras y oraciones a conceptos ontológicos. Estos algoritmos son lentos y requieren supervisión humana. De ahí que los buscadores semánticos no cubran por ahora tantos recursos de la web como los convencionales, que emplean algoritmos estadísticos, mucho más rápidos y completamente automatizados. Esta limitación desaparecerá cuando se vayan mejorando los algoritmos cognitivos o en cuanto los "islotes semánticos" se unan para formar la web semántica o, al menos, "continentes semánticos". "Nunca existirá la web semántica –oigo a lo lejos–. Es tan imposible que funcione como las máquinas voladoras de Leonardo da Vinci." Tengo dos objeciones contra esa opinión. Una: el pesimismo no tiene futuro. Dos: hubo un tiempo, no lejano, en que se pensaba que la interoperabilidad sintáctica era imposible salvo con enormes inversiones, y casi todos apostaron a que no habría un único caballo ganador en la carrera de los lenguajes de intercambio de datos. Se equivocaron. Y algunos perdieron hasta la camisa. A falta de la web semántica, algunos ya se han puesto al tajo. Existen buscadores semánticos que trabajan ya estructurando la información a la que luego se accede mediante búsquedas, pues resulta posible obtener cierto nivel de conocimiento semántico a partir de la estructura de los datos. Por ejemplo, Freebase (http://www.freebase.com/), un buscador social, utiliza RDF para definir su estructura de datos como una serie de nodos y un conjunto de enlaces que establecen relaciones entre los nodos. Freebase tiene una gran colección de vocabularios codificados mediante RDF(S), con los cuales expresa un amplio rango de dominios y áreas de interés. Página 4 de 10
  • 5. Copyright (c) 2012, Miguel Ángel Abián Figura 1. Freebase: una base de datos social y un buscador Según la documentación oficial de Freebase, lo que diferencia a Freebase de otras bases de datos es que cualquier asunto puede ir acompañado de muchas clases distintas de información. El ejemplo que dan es muy claro: "Por ejemplo, Arnold Schwarzenegger podría aparecer como actor en una base de datos de películas, como gobernador en una base de datos de política y como Mr. Universo en una base de datos de culturistas. En Freebase, solamente hay un tema sobre Arnold Schwarzenegger, que contiene información sobre las tres facetas de su vida pública. El tema unificado actúa como un centro de información, por lo que es fácil encontrar información sobre él y aportarla, independientemente de qué clase de información es". Página 5 de 10
  • 6. Copyright (c) 2012, Miguel Ángel Abián Figura 2. Relaciones en FreeBase En principio, los buscadores semánticos podrían evitar las páginas basura, que proliferan en la web como malas hierbas en un campo abandonado. Como tienen en cuenta el contexto de las palabras o frases de los documentos, podrían descartar esas páginas enseguida. Por ejemplo, una página web que incluya la frase "web semántica" rodeada de frases sobre cómo aumentar la potencia sexual, juguetes eróticos y sexo fácil en algún país lejano de costumbres relajadas sería eliminada de cualquier búsqueda sobre la web semántica o tendría una relevancia muy baja; pues el contexto de estas últimas frases (sexo) no tiene ninguna relación con la web semántica. Que un buscador permita introducir preguntas en lenguaje natural ("¿Qué tiempo hace ahora en Viena?") y las responda correctamente no significa necesariamente que sea un buscador semántico: puede que solamente traduzca las preguntas en lenguaje natural a consultas sobre una base de datos. Por el momento, casi todos los buscadores semánticos permiten solamente búsquedas en inglés, aunque se están ampliando para que admitan otros lenguajes. Aparte del predominio del inglés, la causa de eso se debe también a las dificultades inherentes a reflejar el conocimiento de los lenguajes naturales en estructuras de datos que permitan búsquedas rápidas y escalables (matrices, listas, pilas, colas, árboles, grafos, etc.). Por ejemplo, el buscador Hakia utiliza un vocabulario en forma de ontología que incluye unos 100.000 sentidos de palabras inglesas, y ese número continuará aumentando Página 6 de 10
  • 7. Copyright (c) 2012, Miguel Ángel Abián según se perfeccione la aplicación. Confeccionar cualquier vocabulario de ese tamaño es una empresa lenta, tediosa y muy cara, y que debe ser realizada por un equipo bien coordinado de especialistas en lingüística. Se equivocará quien piense que, teniendo una ontología de sentidos de palabras en inglés, resulta sencilla su conversión a una ontología en otro idioma: la conversión de ontologías lingüísticas de un idioma a otro es un proceso muy complejo y que requiere la supervisión constante de un equipo de traductores. Por poner un ejemplo, si queremos pasar de una ontología lingüística en español a una en alemán, debemos considerar todas las posibles traducciones al alemán de cada palabra española; en caso contrario, los resultados de las búsquedas en alemán estarán más limitados que los de las búsquedas en español. Una palabra española sencilla y sin ambigüedades como "automóvil" puede traducirse en alemán como "Auto", "Wagen", "Kraftwagen", "Kraftfahrzeug", "Automobil", "Motorfahrzeug" o "KFZ" (seguro que hay más traducciones, pero hasta ahí llega mi alemán básico). En una búsqueda interlinguística español-alemán de tipo semántico, todas estas palabras deberían tenerse en cuenta para encontrar todos los documentos relevantes cuando alguien escriba "automóvil" en el buscador. (Las búsquedas interlinguísticas son aquellas en que se traduce una búsqueda en un lenguaje a otro lenguaje, y los resultados se traducen de nuevo al primer lenguaje. Google está trabajando para añadir a su buscador esta clase de búsquedas, que permitirán, entre otras muchas cosas, que un hispanohablante puede reservar entradas en museos y cines en Tokio, aunque la información de horarios y venta de entradas no esté disponible en español.) Es probable que los buscadores semánticos cambien la manera en que se busca y se muestra la información y que supongan un gran cambio para los usuarios ocasionales. Considérense, por ejemplo, las interfaces que aparecen en las siguientes capturas de pantalla, procedentes de Mnemo (http://www.mnemo.org/) Kart00 (http://www.kartoo.com/) y KoolTorch ( http://www.kooltorch.com/). Página 7 de 10
  • 8. Copyright (c) 2012, Miguel Ángel Abián Figura 3. Interfaz de Mnemo. Quizás los navegadores semánticos del futuro tengan interfaces similares a ésta Figura 4. Interfaz de Kart00. Podría ser que los navegadores semánticos del futuro tuvieran interfaces similares a ésta Página 8 de 10
  • 9. Copyright (c) 2012, Miguel Ángel Abián Figura 5. Interfaz de KoolTorch. Quizás los navegadores semánticos del futuro tengan interfaces similares a ésta Página 9 de 10
  • 10. Copyright (c) 2012, Miguel Ángel Abián Sobre el autor: Miguel Ángel Abián nació en Soria. Obtuvo la suficiencia investigadora en el Dpto. de Física Aplicada de la Universidad de Valencia con una tesina sobre electromagnetismo. Realizó varios cursos de doctorado relacionados con electromagnetismo, electrónica, semiconductores y cristales fotónicos. Ha recibido becas del IMPIVA (Instituto de la Mediana y Pequeña Industria Valenciana) y de la Universidad Politécnica de Valencia. Cursó un Máster estadounidense en UML y Java y otro sobre tecnologías de Internet/Intranet. Se incorporó en 1998 a AIDIMA, donde ha participado como investigador en 24 proyectos de investigación nacionales e internacionales relacionados con la Web semántica, tecnologías de la información, madera en construcción, biosensórica, bioelectrónica, telecomunicaciones, visión artificial; así como en la Red de Excelencia de la Comisión Europea INTEROP 2003-2007. Algunos de los proyectos europeos relacionados con las tecnologías semánticas en los que ha participado son ATHENA y STASIS (http://www.stasis- project.net/). El año 2006 estuvo cuatro meses como investigador invitado en el departamento Lehrstuhl für Messsystem und Sensortechnik de la Universidad Politécnica de Munich (TUM), donde colaboró en el desarrollo de nuevos métodos para la detección de defectos en superficies acabadas y en el diseño e implementación de sistemas distribuidos de sensores para el sector del automóvil y de energías renovables. En 2007 recibió un premio BANCAJA- UPV por un proyecto relacionado con la calidad interna de la madera. En 2009 recibió el premio internacional Schweighofer Innovation Prize -el premio más prestigioso en el sector forestal y de la madera- por su aportación al desarrollo de nuevas tecnologías de evaluación no destructiva de la madera en construcción. Actualmente es Responsable del Departamento de Tecnología y Biotecnología de la Madera y del Área de Construcción de Madera. Es coautor de 7 libros y guías técnicas relacionadas con el uso de la madera en la construcción y la visión artificial. También ha publicado varios artículos científicos en revistas como IEEE Transactions on Microwave Theory and Techniques y Wood Science and Technology. Ha participado como ponente en congresos y conferencias como European Congress on Computational Methods in Applied Sciences and Engineering, IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, International Conference on Space Structures (IABSE-IASS) y en reuniones COST (European Cooperation in Science and Technology). Ha publicado más de 22 artículos técnicos en revistas sectoriales y técnicas. Es autor o coautor de 6 patentes, algunas de ellas en trámite. Tres de ellas corresponden a dispositivos y métodos para detectar la biodegradación de la madera en construcción. Actualmente, entre otros proyectos como WOODRUB o CELLUWOOD, trabaja en SEMCONCEPT, un proyecto de I+D+i para aplicar tecnologías semánticas (ontologías, buscadores semánticos) en el diseño conceptual de productos industriales. Sus intereses actuales son la evolución de la programación orientada a objetos, Java, la Web semántica y sus tecnologías, la arquitectura orgánica, el surrealismo y París, siempre París. Página 10 de 10