SlideShare una empresa de Scribd logo
WEB MINING
Extracción de Datos Estructurados
Web Content MiningJuan Azcurra
Introducción
2
 Una gran cantidad de información en la Web está contenida
en objetos de datos de estructuras regulares.
 Muchas veces los registros de datos son recuperados de bases
de datos.
 Tales registros de datos en la Web son importantes: listas de
productos y servicios.
 Aplicaciones: Recopilar datos para proporcionar servicios de
valor agregado.
 Shopping comparativo, búsqueda de objetos (más que
búsquedas de páginas, etc.)
 Dos tipos de páginas con datos estructurados:
 Páginas de listas y páginas de detalle.
 Enfoques:
 Wrapper inducido (aprendizaje supervisado)
 Extracción automática (aprendizaje no supervisado)
Tipos de datos
3
 Páginas de listas
 Cada página contiene una o más listas de
registros de datos.
 Cada lista se encuentra en una región de la
página.
 Dos tipos de registros: plano y anidado.
 Páginas de detalle
 Cada página se enfoca en un objetivo individual.
 Puede contener información relacionada o no.
Página de Listas
4
2 listas de
productos
Página de detalle – descripción del
producto6
Resultados de la extracción
7
anidadas
Modelo de datos y soluciones
8
 Modelo de datos Web: Relaciones anidadas
 Solución al problema
 Dos técnicas importantes
 Wrapper inductivo – supervisado
 Extracción automática – no supervisada
 Información que puede ser explotada
 Archivos fuentes (páginas Web en HTML)
 Representadas como strings o árboles
 Información visual
Información visual y árbol
9
Wrapper por inducción
10
 Utilizando máquinas de aprendizaje para generar las reglas de
extracción
 El usuario marca los item objetivos en algunas páginas de
entrenamiento.
 El sistema entrena las reglas de extracción con estas páginas.
 Las reglas son aplicadas a items a extraer en otras páginas.
 Ejemplos de entrenamiento
E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515
E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570
E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293
E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008
 Reglas de extracción
Start rules: End rules:
R1: SkipTo(() SkipTo())
R2: SkipTo(-<b>) SkipTo(</b>)
Extracción automática
11
 Existen 2 formulaciones principales:
 Problema 1: Extracción basada en páginas de
listas simples
 Problema 2: Extracción basada en páginas
de múltiple entrada del mismo tipo (páginas de
lista o página de detalles)
Extracción automática:
Problema 112
Técnicas de solución
13
 Identificar regiones de datos y registros de
datos
 Buscando patrones repetitivos
 String matching (tratar a la fuente HTML como string).
 Tree matching (tratar a la fuente HTML como árbol).
 Alineación de items de datos: Múltiple
alineación
Integración de información
14
 Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases
de datos consistentes.
 Integración significa:
 Schema match: encontrar columnas en diferentes
tablas que contengan el mismo tipo de
información (ej. Nombres de productos)
 Data instance match: encontrar valores que son
semanticamente identificos pero se representan
de forma diferente en distintos sitios (ej., “Coke” y
“Coca Cola”).
Web Query Interface Integration
15
Descubrir atributos sinónimos
16
 En el dominio de libros (autor – escritor, tema
– categoría)
Schema Matching como
descubrimiento de correlaciones17
 Esta técnica necesita un gran número de
consultas de entrada.
 Atributos sinónimos están corelacionados
negativamente.
 Son alternativos, raramente co-ocurren
 ej. autor = escritor
 Grupos de atributos con correlación positiva.
 Frecuentemente co-ocurren en las consultas.
 ej, {Apellido, Nombre}
Efecto puente
18
 Es asdfasd
 Asdfasd
 Asdf
 Asdf
Observaciones:
• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B
• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a
• Entonces, C puede ser como puente para conectar A y B.
Modelo de datos
19
 Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas.
 objetos con tipos permiten conjuntos anidados y tuplas.
 Una instancia de un tipo T es simplemente un
elemento de dom(T).
Un ejemplo de tipo de tupla
anidada20
 Relaciones clásicas planes son tipos no anidados.
 Relaciones anidadas son tipos de conjuntos arbitrarios.

Más contenido relacionado

PDF
06 importar de la biblioteca virtual de prensa historica en formato dublin
PPTX
Uso de comandos insert, update y delete
PDF
Importar registros de la Biblioteca Virtual de Prensa Historica
PPTX
Trabajo practico N°4 Access
PPTX
Base de-datos-externa
PDF
RDA y Linked data (Ricardo Santos Muñoz)
PPTX
Diaz x2
DOCX
Objetivos ESPECIFICOS
06 importar de la biblioteca virtual de prensa historica en formato dublin
Uso de comandos insert, update y delete
Importar registros de la Biblioteca Virtual de Prensa Historica
Trabajo practico N°4 Access
Base de-datos-externa
RDA y Linked data (Ricardo Santos Muñoz)
Diaz x2
Objetivos ESPECIFICOS

La actualidad más candente (9)

DOCX
Objetivos de las bases de datos
PPTX
Repositorios de informacion
DOCX
base de datos relacionales en access 2010
PPT
Base de datos
PPTX
BASE DE DATOS
PPT
Access: organizando datos
PPT
Creación para formularios 2 (practica n.-1)
PPTX
Leonel presentacion
PPTX
Access
Objetivos de las bases de datos
Repositorios de informacion
base de datos relacionales en access 2010
Base de datos
BASE DE DATOS
Access: organizando datos
Creación para formularios 2 (practica n.-1)
Leonel presentacion
Access
Publicidad

Destacado (16)

PPTX
SEO Mining Lakil Essady Search Congress Barcelona
PDF
S1.3_PRES_Centre_of_Gravity_BMcCallum
DOCX
NDT resume DONNIE W. TIPTON II
PDF
CampOutfitters-Brochure
PPTX
How to Boost Christmas Conversions
PDF
Consideraciones Importantes Para Crear Presentaciones
DOCX
13. TIEMPO DE DAR
DOCX
Rede alumni - Estágio 1 (Interação web)
PDF
LA PASIÓN POR VILLARGORDO
DOCX
18. PADRE NUESTRO
PDF
Ducati Case Brief
PPTX
C1 solution 20160713
PPTX
PPTX
Modelo relacional
PPTX
Diseño de una Base de Datos
PPTX
Bases de Datos Relacionales
SEO Mining Lakil Essady Search Congress Barcelona
S1.3_PRES_Centre_of_Gravity_BMcCallum
NDT resume DONNIE W. TIPTON II
CampOutfitters-Brochure
How to Boost Christmas Conversions
Consideraciones Importantes Para Crear Presentaciones
13. TIEMPO DE DAR
Rede alumni - Estágio 1 (Interação web)
LA PASIÓN POR VILLARGORDO
18. PADRE NUESTRO
Ducati Case Brief
C1 solution 20160713
Modelo relacional
Diseño de una Base de Datos
Bases de Datos Relacionales
Publicidad

Similar a Web Content Mining - Datos estructurados (20)

DOCX
Web mining
PDF
BigData 101 / Cursillo (Parte4)
PPTX
Web Content Mining - Information Retrieval
KEY
EasyData: OpenData and easy access
PDF
Extensiones a un Buscador Web
PPT
aporte de internet
PPTX
Introducción a data science, la guía práctica para volverse data scientist
PPT
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
PDF
Datos En La Web Clase 3
PPT
Futuro De La Web...Web 3.0
KEY
Presentación html5
PDF
Act3 uni2
PPTX
Web semantica, erick lopez 11005497
PDF
BigData 101 / Cursillo (Parte3)
PPS
Sem Perio2009 Mela Motores Semanticos
PDF
Seminario html5
PDF
Web semantica con Jena
PPTX
data_collection-es.pptx
PPT
Sistemas Basados en el Conocimiento
Web mining
BigData 101 / Cursillo (Parte4)
Web Content Mining - Information Retrieval
EasyData: OpenData and easy access
Extensiones a un Buscador Web
aporte de internet
Introducción a data science, la guía práctica para volverse data scientist
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
Datos En La Web Clase 3
Futuro De La Web...Web 3.0
Presentación html5
Act3 uni2
Web semantica, erick lopez 11005497
BigData 101 / Cursillo (Parte3)
Sem Perio2009 Mela Motores Semanticos
Seminario html5
Web semantica con Jena
data_collection-es.pptx
Sistemas Basados en el Conocimiento

Más de Juan Azcurra (15)

PPTX
Gestión de la Calidad en Proyectos
PPTX
Gestión del Alcance en los Proyectos
PPTX
Fundamentos de Administración de Proyectos
PPTX
Elasticsearch
PDF
Introducción a Business Intelligence
PPTX
NoSQL - MongoDB
PPTX
Text mining
PPTX
Opinion mining
PPTX
Web Link Analysis
PPTX
Web Log Analysis - AWK
PPTX
Web Usage Mining
PPTX
Web Usage Mining - Temas Avanzados
PPTX
Introducción a Web Mining
PPTX
Introducción a Big Data
PPTX
Introducción a Text Mining
Gestión de la Calidad en Proyectos
Gestión del Alcance en los Proyectos
Fundamentos de Administración de Proyectos
Elasticsearch
Introducción a Business Intelligence
NoSQL - MongoDB
Text mining
Opinion mining
Web Link Analysis
Web Log Analysis - AWK
Web Usage Mining
Web Usage Mining - Temas Avanzados
Introducción a Web Mining
Introducción a Big Data
Introducción a Text Mining

Último (20)

PDF
Liceo departamental MICRO BIT (1) 2.pdfbbbnn
PDF
CyberOps Associate - Cisco Networking Academy
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PDF
Estrategia de apoyo tecnología miguel angel solis
PDF
Diapositiva proyecto de vida, materia catedra
PDF
SAP Transportation Management para LSP, TM140 Col18
PPT
Que son las redes de computadores y sus partes
PPT
El-Gobierno-Electrónico-En-El-Estado-Bolivia
PDF
Maste clas de estructura metálica y arquitectura
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
clase auditoria informatica 2025.........
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PDF
Influencia-del-uso-de-redes-sociales.pdf
PPTX
Sesion 1 de microsoft power point - Clase 1
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PDF
taller de informática - LEY DE OHM
Liceo departamental MICRO BIT (1) 2.pdfbbbnn
CyberOps Associate - Cisco Networking Academy
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
Estrategia de apoyo tecnología miguel angel solis
Diapositiva proyecto de vida, materia catedra
SAP Transportation Management para LSP, TM140 Col18
Que son las redes de computadores y sus partes
El-Gobierno-Electrónico-En-El-Estado-Bolivia
Maste clas de estructura metálica y arquitectura
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
REDES INFORMATICAS REDES INFORMATICAS.pptx
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
Presentación PASANTIAS AuditorioOO..pptx
clase auditoria informatica 2025.........
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Influencia-del-uso-de-redes-sociales.pdf
Sesion 1 de microsoft power point - Clase 1
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
Plantilla para Diseño de Narrativas Transmedia.pdf
taller de informática - LEY DE OHM

Web Content Mining - Datos estructurados

  • 1. WEB MINING Extracción de Datos Estructurados Web Content MiningJuan Azcurra
  • 2. Introducción 2  Una gran cantidad de información en la Web está contenida en objetos de datos de estructuras regulares.  Muchas veces los registros de datos son recuperados de bases de datos.  Tales registros de datos en la Web son importantes: listas de productos y servicios.  Aplicaciones: Recopilar datos para proporcionar servicios de valor agregado.  Shopping comparativo, búsqueda de objetos (más que búsquedas de páginas, etc.)  Dos tipos de páginas con datos estructurados:  Páginas de listas y páginas de detalle.  Enfoques:  Wrapper inducido (aprendizaje supervisado)  Extracción automática (aprendizaje no supervisado)
  • 3. Tipos de datos 3  Páginas de listas  Cada página contiene una o más listas de registros de datos.  Cada lista se encuentra en una región de la página.  Dos tipos de registros: plano y anidado.  Páginas de detalle  Cada página se enfoca en un objetivo individual.  Puede contener información relacionada o no.
  • 4. Página de Listas 4 2 listas de productos
  • 5. Página de detalle – descripción del producto6
  • 6. Resultados de la extracción 7 anidadas
  • 7. Modelo de datos y soluciones 8  Modelo de datos Web: Relaciones anidadas  Solución al problema  Dos técnicas importantes  Wrapper inductivo – supervisado  Extracción automática – no supervisada  Información que puede ser explotada  Archivos fuentes (páginas Web en HTML)  Representadas como strings o árboles  Información visual
  • 9. Wrapper por inducción 10  Utilizando máquinas de aprendizaje para generar las reglas de extracción  El usuario marca los item objetivos en algunas páginas de entrenamiento.  El sistema entrena las reglas de extracción con estas páginas.  Las reglas son aplicadas a items a extraer en otras páginas.  Ejemplos de entrenamiento E1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515 E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570 E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293 E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008  Reglas de extracción Start rules: End rules: R1: SkipTo(() SkipTo()) R2: SkipTo(-<b>) SkipTo(</b>)
  • 10. Extracción automática 11  Existen 2 formulaciones principales:  Problema 1: Extracción basada en páginas de listas simples  Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)
  • 12. Técnicas de solución 13  Identificar regiones de datos y registros de datos  Buscando patrones repetitivos  String matching (tratar a la fuente HTML como string).  Tree matching (tratar a la fuente HTML como árbol).  Alineación de items de datos: Múltiple alineación
  • 13. Integración de información 14  Los datos extractados desde diferentes sites necesitan ser integrados para producir bases de datos consistentes.  Integración significa:  Schema match: encontrar columnas en diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)  Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).
  • 14. Web Query Interface Integration 15
  • 15. Descubrir atributos sinónimos 16  En el dominio de libros (autor – escritor, tema – categoría)
  • 16. Schema Matching como descubrimiento de correlaciones17  Esta técnica necesita un gran número de consultas de entrada.  Atributos sinónimos están corelacionados negativamente.  Son alternativos, raramente co-ocurren  ej. autor = escritor  Grupos de atributos con correlación positiva.  Frecuentemente co-ocurren en las consultas.  ej, {Apellido, Nombre}
  • 17. Efecto puente 18  Es asdfasd  Asdfasd  Asdf  Asdf Observaciones: • Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B • Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a • Entonces, C puede ser como puente para conectar A y B.
  • 18. Modelo de datos 19  Gran parte de los datos de la Web pueden ser modelados como relaciones anidadas.  objetos con tipos permiten conjuntos anidados y tuplas.  Una instancia de un tipo T es simplemente un elemento de dom(T).
  • 19. Un ejemplo de tipo de tupla anidada20  Relaciones clásicas planes son tipos no anidados.  Relaciones anidadas son tipos de conjuntos arbitrarios.