Índices de Texto

Sistemas de Información II Tema 9. Bases de datos de texto Carlos Castillo UPF – 2008 Bibliografía: Baeza-Yates y Ribeiro-Neto: “Modern Information Retrieval”, 1999 Capítulo 7

Agenda Ley de Zipf De bytes a texto De texto a palabras De palabras a keywords Indexación

Importancia de las palabras Alta Sustantivos Grupos de sustantivos => Keywords Baja Artículos Preposiciones Variable Verbos

Frecuencia de las palabras Ley de Zipf f(w k ) = frecuencia de la k-ésima palabra f(w k )  1/k 

Ley de Zipf Palabras ordenadas por frecuencia Frecuencia

Importancia como keyword Palabras ordenadas por frecuencia Frecuencia No se indexan No aparecen Keywords importantes

Importancia como keyword Palabras ordenadas por frecuencia Frecuencia Importancia

Frecuencias palabras catalán (cucweb) 80 formas = 50% de las palabras

¿Por qué no usar todas las palabras? Ahorrar espacio Palabras muy frecuentes Simplificar la tarea de búsqueda No distinguir entre mayúsculas y minúsculas Asociar palabras con el mismo significado Mejorar la relevancia Ej.: documento artificialmente largo por usar más palabras funcionales

Herramientas para crear una vista lógica Análisis léxico Eliminación de stopwords Stemming (lematización) Uso de diccionarios

Procesamiento del texto Texto completo Texto + Estructura Texto Documento Tokens Eliminar Stopwords Seleccionar Lematizar Indexación Índice Reconocimiento de estructura

Procesar un documento Formato pdf/word/excel/html/etc.? Lenguaje Set de caracteres (codificación de texto)

Formas de codificar Correspondencia bits <=> caracteres Ejemplo: 00100000 = “ ” (espacio) Formato más usado ASCII (sólo 256 “letras”) Formatos usados para internacionalización Iso-8859-1 (también 256 letras) http://www.htmlhelp.com/reference/charset/latin1.gif Formato internacional UNICODE (4.294.967.296 “letras”)

ISO-8859-1 (Latin-1) Francés, Castellano, Catalán, Italiano, Alemán, Holandés, Finés, Inglés, etc...

ISO-8859-2 (Latin-2) Checo, Húngaro, Polaco, Rumano, Croata, etc...

UNICODE: estándar UNICODE (4.294.967.296 “letras”) En teoría (UTF-32), 4 bytes por caracter => 4 veces más grande que ASCII, inaceptable Codificaciones de largo variable UTF-8 (base es 1 caracter) UTF-16 (base es 2 caracteres)

UTF-8, codificación La mayoría de los caracteres se expresa con un sólo byte

Análisis léxico (tokenization) Proceso de separar palabras Un grupo de caracteres son caracteres de palabra [0-9A-Za-z] Otro grupo de caracteres son separadores [ ] ' “ ) ( ? . , ; Autómata finito que reconoce palabras

Problemas Combinación de letras y números UB40, Windows95, 350AC, 510A.C. Guíones y signos Zig-Zag, 3.12, B-49, Juan 13:21 U.S.A. = USA Finland's capital Palabras Compuestas Santa María, New York, Iglesia del Pi

Mayúsculas y minúsculas ¿Ignorar mayúsculas y minúsculas? MIT/mit General Motors (Motors != motors) SAIL vs sail

Más problemas Separadores propios de cada idioma estel·lar, state-of-the-art Acentos Résumé o Resume Papá o Papa L'eixample (“L'eixample”) ó (“eixample”) ó (“le”, “eixample”) O tal vez todas como términos separados

Lenguajes Chino y Japonés Sin espacios entre palabras Tokenización ambigua Japonés Múltiples alfabetos Hebreo (derecha-a-izquierda) Idiomas de izquierda-a-derecha

Números Otro tipo de indexación Rangos de números No todos significan lo mismo “Motorola 68000” (nombre propio) “68000 pesetas” (cantidad) “2003” (¿año?) Normalmente se indexan aparte

Números (ejemplo) Vendo 19500 Peugot 406 Coupé 2.2 70000km 2002 934567123 de 10 a 16

¿Cómo reconocer los números que son relevantes? Vendo 19500 Peugot 406 Coupé 2.2 70000km 2002 934567123 de 10 a 16

Fechas 1/1/2005 1 de Enero del 2005 Sábado, 1 de Enero del 2005 => Requieren detección y normalización Ordenamiento 2/1/2008 1 de Febrero en USA, 2 de Enero en España

Stopwords Tipos de palabra que no tienen significado por sí mismas Preposiciones, artículos, pronombres, conjunciones Contrajemplo: “to be or not to be”, “yo robot” Palabras que a veces no tienen significado: e.g. verbos auxiliares Son característicos de cada lenguaje Requieren detectar el idioma de cada página

Lematización Importante sobre todo en algunos lenguajes Ej.: lenguas romances Diferentes variantes Singular/Plural: amigo, amigos Masculino/Femenino: amigo, amiga Prefijos y sufijos: inconstitucional Ambigüedad Cruces (lema: ¿cruz o cruzar?) No siempre se puede hacer Ordenador != Ordenar

Lemas y formas: ejemplo Varias palabras comparten un lema Lema “anar” Formas: anar, va, van, vaig, va, anat, vam, van, anava, etc... Lema “be” Formas: be, is, ar, am Lema “fer” Formas: fer, faig, fa, fet, fan, fent, farà, etc...

Frecuencias lemas en catalán (cucweb) 24 lemas = 50% de las palabras

¿Cómo lematizar? Utilizando un diccionario Grande Costoso de construir N-gramas Ej.: trigramas Abogado: abo bog oga gad ado Abogados: abo bog oga gad ado dos => Comparten muchos trigramas => misma palabra Reglas Lematizador de Porter

Lematizador de Porter Reglas ($ = fin de palabra) Escoger el sufijo más grande ational$ -> ate$ tional$ -> tion$ izer$ -> ize$ Etc. En lenguas romances no funciona bien Stemming != Lematizar Automate, automatic, automation Stem = automat, Lema = automatic?

Selección de palabras Selección manual (usando diccionario) GARAGES see also Automobiles, Motor Vehicles, Etc.; Transportation -- Buildings and Structures; GasStations GARDEN STRUCTURES GARDENS see also Landscape Architecture; Parks; Trees; Zoos Ghost Towns: see Abandoned Settlements Selección automática Agregar frases frecuentes “Nueva York”, “Sri Lanka”, “Pacto de Estabilidad”, ...

Diccionarios Permiten indexación precisa Incluyen relaciones de Sinónimos (car = automobile) Generalización (ampliar una consulta) Ej.: Dólar < unidad monetaria < unidad de medida < cantidad definida < abstracción Ej.: Caballo < equino < mamífero < ser vivo < entidad Especificidad (restringir una consulta) Wordnet http://www.cogsci.princeton.edu/cgi-bin/webwn

Problemas con los diccionarios Puede ser confuso para un usuario Mayor tiempo de procesamiento Interpretación del sentido de las palabras Costoso de implementar para colecciones grandes

Etiquetado Part-of-speech tags Reconocer el rol de cada palabra Sustantivos, verbos, adjetivos, determinantes, etc... ¿Cómo funciona? Reglas probabilísticas (modelo del lenguaje) Observar palabra anterior y siguiente Diccionarios

Resumen Procesamiento del texto Múltiples etapas Extracción de keywords para indexar Vista lógica Separar señal de ruido

Tipos de búsqueda Búsqueda online e.g.: grep Búsqueda offline Requiere un paso previo de indexación

Proceso de búsqueda Convertir consulta en palabras => ¡Mismo proceso que con documentos! Convertir palabras en termids Tabla de hashing o búsqueda binaria Recuperar listas de posteo Posiblemente listas parciales Intentar adivinar tamaño del resultado Intersectar listas de posteo O intersección parcial

Proceso de creación Dos pasos Construcción de vocabulario Ordenar términos Hash Construcción de listas de posteo Para índices grandes Mezclado de índices parciales

Distribución de índice Técnicas Distribuir términos Distribuir documentos

Ranking Modelo vectorial Consulta = vector en espacio de términos Documento = vector en espacio de términos Similaridad = coseno entre vectores Varias fórmular para ajustar estos pesos: Normalizar la frecuencia de términos Considerar la frecuencia en la colección TF.IDF

Resumen Proceso de texto para vista lógica Pre-proceso: indexación Ranking, modelo vectorial

Índices de Texto

Más contenido relacionado

Similar a Índices de Texto (20)

Más de Carlos Castillo (ChaTo) (20)

Último (20)

Índices de Texto