SlideShare una empresa de Scribd logo
WEB MINING
IntroducciónJuan Azcurra
Historia del hipertexto
 Memex [Vannevar Bush, 1945]
 extension de memoria (“memory extension”)
 dispositivo de almacenamiento y
computación (fotoeléctrico y mecánico)
 objetivo: crear y ayudar a seguir
hiperenlaces a través de documentos.
 El concepto de Memex influenció el desarrollo de
sistemas de hipertexto (liderando la creación de la
World Wide Web) y bases de software para
conocimiento personal.
Historia del hipertexto
 Memex
Historia del hipertexto
 El término fue acuñado por el
profesor Ted Nelson en los
60s.
 Sistema de hipertexto
Xanadu:
 Hiperenlances,
 Manejo de versiones,
 Manejo de controversias,
 Manejo de anotaciones,
 Manejo de derecho de
auditorias
La hipótesis de la web
estructurada
 La información de la web es suficientemente
estructurada como para que sea posible la
minería de la Web [Etzioni, 1996].
Hipertexto
 Hipertexto
 Texto
 Enlaces (links)
 Permite al usuario el fácil manejo de
información de fuentes diversas
 Crear
 Agregar
 Enlazar
 Compartir
Hypercard
 Creado por Bill Atkinson y disponible en 1987
en los sistemas Macintosh.
 Sistema programable de tarjetas que podían
ser organizadas en pilas.
 Perdió popularidad con el
crecimiento de la WWW.
Historia de la Web
 Tim Berners-Lee, consultor del
laboratorio CERN es conocido
como el inventor de la WWW.
 Sistemas en red para publicar
reportes científicos (1980).
 GUI para hipertexto llamado
World Wide Web (1990).
Historia de la Web
 El tráfico HTTP en CERN se multiplica por un
factor de mil entre 1991 y 1994.
Historia de la Web
 Un millón entre 1991 y 1997.
Tamaño de la Web
698.823.509 dominios (Jul ‘13)
La web es un grafo
 Páginas = nodo, hyperlinks = arcos
 Ignora contenido
 Grafo dirigido
 Alta vinculación
 8-10 links/páginas en promedio
 Grado de distribución según ley de potencia
Buscando en la Web
Agregadores
de contenido
La Web Consumidores
de contenido
Publicidad vs. búsqueda
Historia de la Web
 El año 1994 fue clave para la WWW
 Fundación de Mosaic Communications Corp.
 Primera conferencia World Wide Web
 MIT y CERN acuerdan establecer el World Wide
Web Consortium (W3C)
Historia de la Web
 Sucesores del browser World Wide Web
 Erwise (1992)
 Viola (1992)
 Midas (1993)
 Mosaic (1993)
 Fácil de usar
 Soporta imágenes
Historia de la Web
 Netspace (1994)
 Soporte de múltiples conexiones TCP-IP
 Cookies
 <CENTER> tag
 Distribución gratuita para ciertos grupos
 Netscape 2 (1996)
 Frames
 Javascript
 Netscape 3 (1996)
 Mouseovers
 Estándar de oro
Historia de la Web
 Microsoft Explorer 1 y 2 (1995)
 Microsoft Explorer 3 (1996)
 Casi comparable a Netscape
 CSS: autores y lectores pueden asignar estilos a
las páginas
 Distribución gratuita (con SO)
Uso actual
Web: Medio participativo y
accesible
 Número de escritores no tan lejanos al
número de lectores
 La revolución de los MEMEX
 Richard Dawkins (1976) propuso que las ideas,
teorías, expresiones artísticas, etc. se replican y
propagan de persona a persona por imitación.
 La Web fue una meme en sí misma.
 Ahora facilita la propagación de otras
memes.
Crisis de abundancia y
autoridad
 Cultura liberal e informal para generar y
diseminar contenido.
 Acceso uniforme (no existe autoridad que
defina calidad de contenidos).
 Contenidos no estandarizados y redundancia.
 Millones de páginas para una consulta general
 Ejemplo: Java, Google, USA
Partes de la Web
Partes de la Web
 Para conocer que páginas apuntan a otras es
necesario recorrer la Web, algo que los
buscadores hacen a diario.
Ley de Zipf
 Sea P(i) la probabilidad del i-
ésimo evento más frecuente:
P(i) es proporcional a
 Se caracteriza por tener
muchos eventos muy
frecuentes y pocos eventos
muy infrecuentes
 Genera una recta al graficarse
en escala log-log
George Zipf (1902-1950)
Ley de Zipf
 Ejemplos:
 Tamaño de las páginas (u otro tipo de archivos)
 Número de enlaces que salen de una página
 Número de enlaces que llegan a una página
 Fechas de actualización
 Número de componentes conexos de distintos
tamaños
 Uso de las palabras en las interrogaciones a los
buscadores
Ley de Zipf
Web Mining
 El proceso de descubrir relaciones o patrones
interesantes en un conjunto de datos es
llamado data mining y en el caso de la web
web mining.
Ejemplos de Web Mining
 Buscadores: Google, Yahoo, Bing, Ask, …
 Buscadores especializados: Froogle, Flipdog,
…
 E-Commerce
 Recomendaciones: Amazon, Netflix, …
 Up Selling: siguiente mejor producto a ofrecer
 Publicidad: Google Adsende
 Fraude: Análisis de clicks
 Mejora de diseño Web y performance
Categorias de Web Mining
 Web Content Mining
 Minería del contenido de la Web
 Web Structure Mining
 Minería de la estructura de la Web
 Web Usage Mining
 Minería del uso de la Web
Web Content Mining
 Extracción de elementos del texto para:
 Crear índices.
 Instanciar estructura de datos (ej. representación
por medio de vectores).
 Incorporación a base de datos.
 Algoritmos de minería de texto:
 Aprendizaje automático de texto.
 Categorización.
 Clustering.
 LSA (Análisis de Semántica Latente).
Web Structure Mining
 Análisis de la Web como un grafo:
 Las páginas se representan como nodos.
 Los hiperenlaces se representan como arcos.
 Permiten análisis de conectividad:
 Premisa: buscar prestigio en las páginas además
de relevancia.
 Page Rank (Brin y Page 1998) y HITS (Kleinberg
1999).
Estructura macroscópica de la
Web
Estructura macroscópica de la
Web
Impacto en el diseño de sitios
Web

Más contenido relacionado

DOCX
Web mining
PDF
la internet, web invisible, motores de busqueda y tipos de busqueda
PPT
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
PDF
DBpedia Latinoamérica en ENC 2015
DOCX
traficando
PPTX
Charla II Congreso de Bibliotecas Universitarias y Especializadas
DOCX
Pg redes2
PPT
Cómo desarrollar bienes y servicios públicos con datos
Web mining
la internet, web invisible, motores de busqueda y tipos de busqueda
Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
DBpedia Latinoamérica en ENC 2015
traficando
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Pg redes2
Cómo desarrollar bienes y servicios públicos con datos

La actualidad más candente (17)

KEY
Tutoría sobre Nuevas Tecnologías - Maestría en Gestión Empresarial
PDF
SWB Suite
PPT
Previsiones sobre la web 3
PPTX
QUE SON BUSCADORES Y META-BUSCADORES
PPTX
Datos abiertos enlazados: situación actual y perspectivas
PPTX
Buscadres de internet
DOCX
análisis de metadatos
DOCX
Deep web
PPTX
Trabajo compu
PPTX
Experiencias con los datos abiertos y enlazados en el entorno del CCUC
PPTX
Evidencia nº8
PPTX
Todo sobre INTERNET
PPTX
Que es la web 3.0
PDF
Ensayo argumentativo
PPT
Charla a Delegación de Paraguay
PPT
tarea de informatica
Tutoría sobre Nuevas Tecnologías - Maestría en Gestión Empresarial
SWB Suite
Previsiones sobre la web 3
QUE SON BUSCADORES Y META-BUSCADORES
Datos abiertos enlazados: situación actual y perspectivas
Buscadres de internet
análisis de metadatos
Deep web
Trabajo compu
Experiencias con los datos abiertos y enlazados en el entorno del CCUC
Evidencia nº8
Todo sobre INTERNET
Que es la web 3.0
Ensayo argumentativo
Charla a Delegación de Paraguay
tarea de informatica
Publicidad

Similar a Introducción a Web Mining (20)

PPT
Web 2 - 4 - Metaweb
PPTX
Diapositivas de informatica
PPTX
PPT
Historia del internet
PPTX
Evolucion de la internet y la world wide
PPTX
Evolucion de la internet y la world wide
PPTX
Desarrollo de la web
PDF
Historia de la web
DOC
5ti A C Un Sitio En Internet Que Es La Web Ver En Loudes
PPTX
Introduccion a world wide web
PPT
Introducción a Internet
PPTX
PPTX
Diapositivas de informatica
PPTX
Historia de la world wide web
PPTX
Adrian
PPTX
Trabajo en clases 19 agosto1
PPTX
Historia del internet
DOCX
Valley micheeelllllll
Web 2 - 4 - Metaweb
Diapositivas de informatica
Historia del internet
Evolucion de la internet y la world wide
Evolucion de la internet y la world wide
Desarrollo de la web
Historia de la web
5ti A C Un Sitio En Internet Que Es La Web Ver En Loudes
Introduccion a world wide web
Introducción a Internet
Diapositivas de informatica
Historia de la world wide web
Adrian
Trabajo en clases 19 agosto1
Historia del internet
Valley micheeelllllll
Publicidad

Más de Juan Azcurra (16)

PPTX
Gestión de la Calidad en Proyectos
PPTX
Gestión del Alcance en los Proyectos
PPTX
Fundamentos de Administración de Proyectos
PPTX
Elasticsearch
PDF
Introducción a Business Intelligence
PPTX
NoSQL - MongoDB
PPTX
Text mining
PPTX
Opinion mining
PPTX
Web Link Analysis
PPTX
Web Log Analysis - AWK
PPTX
Web Usage Mining
PPTX
Web Usage Mining - Temas Avanzados
PPTX
Web Content Mining - Information Retrieval
PPTX
Web Content Mining - Datos estructurados
PPTX
Introducción a Big Data
PPTX
Introducción a Text Mining
Gestión de la Calidad en Proyectos
Gestión del Alcance en los Proyectos
Fundamentos de Administración de Proyectos
Elasticsearch
Introducción a Business Intelligence
NoSQL - MongoDB
Text mining
Opinion mining
Web Link Analysis
Web Log Analysis - AWK
Web Usage Mining
Web Usage Mining - Temas Avanzados
Web Content Mining - Information Retrieval
Web Content Mining - Datos estructurados
Introducción a Big Data
Introducción a Text Mining

Último (20)

PPTX
Sesion 1 de microsoft power point - Clase 1
PPTX
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
taller de informática - LEY DE OHM
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
CyberOps Associate - Cisco Networking Academy
PDF
clase auditoria informatica 2025.........
PDF
Maste clas de estructura metálica y arquitectura
PPTX
Propuesta BKP servidores con Acronis1.pptx
PPT
El-Gobierno-Electrónico-En-El-Estado-Bolivia
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
SAP Transportation Management para LSP, TM140 Col18
PDF
Diapositiva proyecto de vida, materia catedra
Sesion 1 de microsoft power point - Clase 1
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
historia_web de la creacion de un navegador_presentacion.pptx
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Power Point Nicolás Carrasco (disertación Roblox).pptx
taller de informática - LEY DE OHM
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
CyberOps Associate - Cisco Networking Academy
clase auditoria informatica 2025.........
Maste clas de estructura metálica y arquitectura
Propuesta BKP servidores con Acronis1.pptx
El-Gobierno-Electrónico-En-El-Estado-Bolivia
Plantilla para Diseño de Narrativas Transmedia.pdf
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
SAP Transportation Management para LSP, TM140 Col18
Diapositiva proyecto de vida, materia catedra

Introducción a Web Mining

  • 2. Historia del hipertexto  Memex [Vannevar Bush, 1945]  extension de memoria (“memory extension”)  dispositivo de almacenamiento y computación (fotoeléctrico y mecánico)  objetivo: crear y ayudar a seguir hiperenlaces a través de documentos.  El concepto de Memex influenció el desarrollo de sistemas de hipertexto (liderando la creación de la World Wide Web) y bases de software para conocimiento personal.
  • 4. Historia del hipertexto  El término fue acuñado por el profesor Ted Nelson en los 60s.  Sistema de hipertexto Xanadu:  Hiperenlances,  Manejo de versiones,  Manejo de controversias,  Manejo de anotaciones,  Manejo de derecho de auditorias
  • 5. La hipótesis de la web estructurada  La información de la web es suficientemente estructurada como para que sea posible la minería de la Web [Etzioni, 1996].
  • 6. Hipertexto  Hipertexto  Texto  Enlaces (links)  Permite al usuario el fácil manejo de información de fuentes diversas  Crear  Agregar  Enlazar  Compartir
  • 7. Hypercard  Creado por Bill Atkinson y disponible en 1987 en los sistemas Macintosh.  Sistema programable de tarjetas que podían ser organizadas en pilas.  Perdió popularidad con el crecimiento de la WWW.
  • 8. Historia de la Web  Tim Berners-Lee, consultor del laboratorio CERN es conocido como el inventor de la WWW.  Sistemas en red para publicar reportes científicos (1980).  GUI para hipertexto llamado World Wide Web (1990).
  • 9. Historia de la Web  El tráfico HTTP en CERN se multiplica por un factor de mil entre 1991 y 1994.
  • 10. Historia de la Web  Un millón entre 1991 y 1997.
  • 11. Tamaño de la Web 698.823.509 dominios (Jul ‘13)
  • 12. La web es un grafo  Páginas = nodo, hyperlinks = arcos  Ignora contenido  Grafo dirigido  Alta vinculación  8-10 links/páginas en promedio  Grado de distribución según ley de potencia
  • 13. Buscando en la Web Agregadores de contenido La Web Consumidores de contenido
  • 15. Historia de la Web  El año 1994 fue clave para la WWW  Fundación de Mosaic Communications Corp.  Primera conferencia World Wide Web  MIT y CERN acuerdan establecer el World Wide Web Consortium (W3C)
  • 16. Historia de la Web  Sucesores del browser World Wide Web  Erwise (1992)  Viola (1992)  Midas (1993)  Mosaic (1993)  Fácil de usar  Soporta imágenes
  • 17. Historia de la Web  Netspace (1994)  Soporte de múltiples conexiones TCP-IP  Cookies  <CENTER> tag  Distribución gratuita para ciertos grupos  Netscape 2 (1996)  Frames  Javascript  Netscape 3 (1996)  Mouseovers  Estándar de oro
  • 18. Historia de la Web  Microsoft Explorer 1 y 2 (1995)  Microsoft Explorer 3 (1996)  Casi comparable a Netscape  CSS: autores y lectores pueden asignar estilos a las páginas  Distribución gratuita (con SO)
  • 20. Web: Medio participativo y accesible  Número de escritores no tan lejanos al número de lectores  La revolución de los MEMEX  Richard Dawkins (1976) propuso que las ideas, teorías, expresiones artísticas, etc. se replican y propagan de persona a persona por imitación.  La Web fue una meme en sí misma.  Ahora facilita la propagación de otras memes.
  • 21. Crisis de abundancia y autoridad  Cultura liberal e informal para generar y diseminar contenido.  Acceso uniforme (no existe autoridad que defina calidad de contenidos).  Contenidos no estandarizados y redundancia.  Millones de páginas para una consulta general  Ejemplo: Java, Google, USA
  • 23. Partes de la Web  Para conocer que páginas apuntan a otras es necesario recorrer la Web, algo que los buscadores hacen a diario.
  • 24. Ley de Zipf  Sea P(i) la probabilidad del i- ésimo evento más frecuente: P(i) es proporcional a  Se caracteriza por tener muchos eventos muy frecuentes y pocos eventos muy infrecuentes  Genera una recta al graficarse en escala log-log George Zipf (1902-1950)
  • 25. Ley de Zipf  Ejemplos:  Tamaño de las páginas (u otro tipo de archivos)  Número de enlaces que salen de una página  Número de enlaces que llegan a una página  Fechas de actualización  Número de componentes conexos de distintos tamaños  Uso de las palabras en las interrogaciones a los buscadores
  • 27. Web Mining  El proceso de descubrir relaciones o patrones interesantes en un conjunto de datos es llamado data mining y en el caso de la web web mining.
  • 28. Ejemplos de Web Mining  Buscadores: Google, Yahoo, Bing, Ask, …  Buscadores especializados: Froogle, Flipdog, …  E-Commerce  Recomendaciones: Amazon, Netflix, …  Up Selling: siguiente mejor producto a ofrecer  Publicidad: Google Adsende  Fraude: Análisis de clicks  Mejora de diseño Web y performance
  • 29. Categorias de Web Mining  Web Content Mining  Minería del contenido de la Web  Web Structure Mining  Minería de la estructura de la Web  Web Usage Mining  Minería del uso de la Web
  • 30. Web Content Mining  Extracción de elementos del texto para:  Crear índices.  Instanciar estructura de datos (ej. representación por medio de vectores).  Incorporación a base de datos.  Algoritmos de minería de texto:  Aprendizaje automático de texto.  Categorización.  Clustering.  LSA (Análisis de Semántica Latente).
  • 31. Web Structure Mining  Análisis de la Web como un grafo:  Las páginas se representan como nodos.  Los hiperenlaces se representan como arcos.  Permiten análisis de conectividad:  Premisa: buscar prestigio en las páginas además de relevancia.  Page Rank (Brin y Page 1998) y HITS (Kleinberg 1999).
  • 34. Impacto en el diseño de sitios Web