SlideShare una empresa de Scribd logo
Washington Bastidas Santos Jesús González Vera http://www.espol.edu.ec/
INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA Agenda
INTRODUCCIÓN 1
Acceso, recuperación y reutilización de la información. Máquinas de búsqueda. Falencias (PageRank) y servicios gratuitos (Blogspot). Incentivo Económico (Google $16,000M en el 2007).    Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía INTRODUCCIÓN
“ Es simplemente la asignación  injustificable de relevancia a una o varias páginas produciendo resultados inesperados en las máquinas de búsqueda " ” [ 1]    Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía WEBSPAM [1]: Z. Gyongyiand H. Garcia-Molina. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web, 2005
   Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MOTIVACIÓN Suplir a las personas a través de una solución automatizada y que aprenda con el tiempo .
PROBLEMA 2
Introducción ->  Problema Metodología Implementación Conclusión Trabajo Futuro Bibliografía Para el usuario Difícil satisfacer la información. Experiencia de búsqueda frustrante. Para la máquina de búsqueda Gasto de ancho de banda, procesamiento CPU, espacio de almacenamiento. Distorsiona el ranking del resultado. ¿POR QUÉ EL WEBSPAM ES MALO?
Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA PALABRAS CLAVES + LINKS MÁQUINAS DE BÚSQUEDA PUBLICIDAD
Creación de páginas para que otras tenga un mejor ranking. Produce “optimización de buscadores”: Gran mayoría de tráfico generado por buscadores. Usuarios solo observan las 3 primeras paginas de búsqueda. Dos tipos de Web spam: Spam basado en contenido. Spam basado en links. Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA
Keywords Repetidos. Palabras como: “googel”, “accomodation” , “trabel”. Análisis estadístico. Éxito por no filtros de spam en las consultas más populares y mejor pagadas. Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN CONTENIDO Keyword Stuffing
Google y su algoritmo PageRank basado en links. Otros buscadores siguieron el modelo. El modelo de cómo trabaja es conocido por los spammers. Ejemplo granja de enlaces. Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN LINK Granja de Enlaces
METODOLOGÍA 3
El  aprendizaje o entrenamiento  es el mejoramiento en base a la experiencia de alguna tarea . Algoritmos Supervisado: Función correspondencia Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía APRENDIZAJE AUTOMÁTICO
Algoritmos que razonan a partir de ejemplos y producen hipótesis. Un tipo de aprendizaje supervisado es  Clasificación: Construir  modelo  para predecir la clase de un nuevo dato   Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SUPERVISADO Y CLASIFICACIÓN Nuevo dato
Máquinas de vectores de apoyo (SVM, siglas inglés) Desarrolladas por Vapnik están basadas en la teoría de aprendizaje estadístico . Utilizan funciones Kernel para datos dispersos: Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Definimos el hiperplano w · x +b=0 +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Definimos el margen +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  La idea es maximizar el margen. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  El hiperplano que tenga el mayor margen es el mejor clasificador de los datos. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Los vectores de apoyo son los puntos que tocan el límite del margen. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Veamos los hiperplanos “positivo” y “negativo” +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  w · x +b = -1 w · x +b = +1 margen d - d + hiperplano “positivo”:  w · x +b = +1 hiperplano “negativo”:  w · x +b = -1 +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Al final lo que resulta es una función de correspondencia para la clasificación Son los valores de  son los multiplicadores de LaGrange de la ecuación Es la función Kernel utilizada y  b  la variable independiente. Los vectores de apoyo están implícitos en la función Kernel
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SVM EN CASCADA Consumo recursos demasiado elevado de SVM Alternativa de paralelización: SVM en cascada
Vectores constituidos por datos numéricos. Expresiones regulares. Regex _TagParser = new Regex(&quot;<([a-zA-Z]\w*?)>&quot;) Datos características + etiqueta (Spam o No Spam). Características Seleccionadas: Número de palabras en la página. Número de palabras en el título. Promedio de palabras Fracción del texto anclado. Porcentaje de texto oculto. Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía VECTORES DE CARACTERÍSTICAS <input type=&quot;hidden“  value=“Internet&quot;>  <a href=&quot;/deportes/&quot; title=&quot;Deportes&quot;>  Deportes  </a>  Texto ancla
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MAPREDUCE
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía AMAZON WEB SERVICE
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MODELO GENERAL Kernel RBF
IMPLEMENTACIÓN 4
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET WEBSPAM-UK2006 llenado con páginas de dominio “.UK” en el 2006. software UbiCrowler. Para el presente trabajo se utilizó un total de aproximadamente 120,000 páginas. Tiene un tamaño aproximado de 1.7 GB.   Sirve al subprocesos de  extracción :
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET Los vectores de característica resultantes del subproceso de extracción, representados como un archivo de texto: Dirección_página_web1  \t  f11 ; f12 ; f13 ; f14 ; f15 ; etiqueta1 Dirección_página_web2  \t  f21 ; f22 ; f23 ; f24 ; f25 ; etiqueta2 Dirección_página_web :  P ágina Web  \t : C arácter de tabulación  fn1 ; fn2 ; fn3 ; fn4 ; fn5 :  Características de una página n cualquiera. Etiqueta :  -1  spam y  1  no spam
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía LIBRERÍAS Paradigma MapReduce Hadoop 1.8   Distribución Linux  Cloudera   Software de virtualización  VMware Player   Gestión instancias de Amazon EC2   Ec2 Api tools   SVM LibSVM   Gestionar Amazon S3 Plugin  S3 Organizer Gestionar EC2   Plugin  ElasticFox
EVALUACIÓN Y RESULTADOS 5
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DEL KERNEL Vectores Iniciales Vectores de Soporte Kernel Gaussiano Kernel Lineal Kernel Polinomial 500 156 500 156 7600 3300 7600 3300 55000 20370 55000 20370 100000 37037 100000 37037
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Tabla 4.3. Número de Palabras Título y Prom. de Tamaño de Palabra Spam y No Spam Tipo Numero De Palabras No Spam 444,79 Spam 583,3 Características Tipo Numero Palabras Título Promedio Tamaño Palabra No Spam 6,39 7,69 Spam 6,27 7,67
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Características Tipo Porcentaje Texto Ancla Porcentaje Texto Visible No Spam 34% 76% Spam 37% 87%
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MATRIZ DE CONFUSIÓN Dataset compuesto mayormente por páginas no spam. Se predice con certeza cuando una página no es Web spam. Clases Predichas     1 -1 Clases Conocidas   1 89,00% 0 -1 10,30% 0
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MEDICIONES EC2 Mediciones realizadas en los clusters de  Amazon Kernel:  RBF (Radial Basis Function) Número de vectores:  67,577 Número de vectores de apoyo:  20,338 Nodos EC2 Extracción Tiempo (seg.) Entrenamiento  Tiempo (seg.) 3 83.127 302 8 50.54 250
CONCLUSIONES Y TRABAJOS FUTUROS 5
Introducción Problema Metodología Implementación Evaluación y resultados    Conclusión Trabajo Futuro Bibliografía CONCLUSIONES Hadoop es una herramienta poderosa  Servicios Web de Amazon ahorran costos SVM herramienta muy capaz de clasificación Solución Rendimiento SVM
Introducción Problema Metodología Implementación Evaluación y resultados Conclusión    Trabajo Futuro Bibliografía TRABAJO FUTURO Otra solución en &quot;Sub-problemas cuadráticos&quot; Extender la cantidad de características. Mecanismos de validación cruzada para el ajuste de parámetros.
Preguntas
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía EXTRAER Y CUANTIFICAR

Más contenido relacionado

PDF
Curso de Python
PPSX
Equipo 3 canales de distribución iii dania izquierdo de la cruz
PPTX
ArcGIS 10 - Actualización y Respaldo
PPT
SMS Spam Filter Design Using R: A Machine Learning Approach
PPTX
ArcGIS y Geoportal
PDF
Curso de GIS Básico
PPT
REDES NEURONALES Algoritmos de Aprendizaje
PDF
Spam Filtering
Curso de Python
Equipo 3 canales de distribución iii dania izquierdo de la cruz
ArcGIS 10 - Actualización y Respaldo
SMS Spam Filter Design Using R: A Machine Learning Approach
ArcGIS y Geoportal
Curso de GIS Básico
REDES NEURONALES Algoritmos de Aprendizaje
Spam Filtering

Similar a WebSpam (20)

DOCX
Implementación y evaluación de un detector masivo de - DSpace en ...
PPT
Sistemas basados en casos
PDF
BigData 101 / Cursillo (Parte3)
PPTX
Modelos De Data Mining
PPT
Clasificación de Páginas web usando Marcadores sociales
PDF
Matematicas en Google
PDF
Matemáticas en Google
PPTX
Tipos de algoritmos del Machine Learning
DOCX
Clasificación Automática de Documentos
PDF
Examen Parcial 2
PDF
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
PDF
BigData 101 / Cursillo (Parte4)
PDF
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
PDF
Laboratorio práctico: La sazón del científico de datos
PDF
Que es Datamining y su importancia el rpoceso de KDD
PDF
Español.pdf
PPTX
Clasificación de Textos
PPTX
Introducción a data science, la guía práctica para volverse data scientist
PPTX
Machine learning
Implementación y evaluación de un detector masivo de - DSpace en ...
Sistemas basados en casos
BigData 101 / Cursillo (Parte3)
Modelos De Data Mining
Clasificación de Páginas web usando Marcadores sociales
Matematicas en Google
Matemáticas en Google
Tipos de algoritmos del Machine Learning
Clasificación Automática de Documentos
Examen Parcial 2
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
BigData 101 / Cursillo (Parte4)
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Laboratorio práctico: La sazón del científico de datos
Que es Datamining y su importancia el rpoceso de KDD
Español.pdf
Clasificación de Textos
Introducción a data science, la guía práctica para volverse data scientist
Machine learning
Publicidad

Último (20)

PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Propuesta BKP servidores con Acronis1.pptx
PDF
Diapositiva proyecto de vida, materia catedra
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PDF
Estrategia de apoyo tecnología miguel angel solis
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPT
introduccion a las_web en el 2025_mejoras.ppt
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
taller de informática - LEY DE OHM
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PPTX
Presentación de Redes de Datos modelo osi
PDF
clase auditoria informatica 2025.........
PDF
Estrategia de apoyo tecnología grado 9-3
Power Point Nicolás Carrasco (disertación Roblox).pptx
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Propuesta BKP servidores con Acronis1.pptx
Diapositiva proyecto de vida, materia catedra
REDES INFORMATICAS REDES INFORMATICAS.pptx
Estrategia de apoyo tecnología miguel angel solis
Zarate Quispe Alex aldayir aplicaciones de internet .docx
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
introduccion a las_web en el 2025_mejoras.ppt
Plantilla para Diseño de Narrativas Transmedia.pdf
historia_web de la creacion de un navegador_presentacion.pptx
taller de informática - LEY DE OHM
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
Presentación PASANTIAS AuditorioOO..pptx
Presentación de Redes de Datos modelo osi
clase auditoria informatica 2025.........
Estrategia de apoyo tecnología grado 9-3
Publicidad

WebSpam

  • 1. Washington Bastidas Santos Jesús González Vera http://www.espol.edu.ec/
  • 2. INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA Agenda
  • 4. Acceso, recuperación y reutilización de la información. Máquinas de búsqueda. Falencias (PageRank) y servicios gratuitos (Blogspot). Incentivo Económico (Google $16,000M en el 2007).  Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía INTRODUCCIÓN
  • 5. “ Es simplemente la asignación injustificable de relevancia a una o varias páginas produciendo resultados inesperados en las máquinas de búsqueda &quot; ” [ 1]  Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía WEBSPAM [1]: Z. Gyongyiand H. Garcia-Molina. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web, 2005
  • 6. Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MOTIVACIÓN Suplir a las personas a través de una solución automatizada y que aprenda con el tiempo .
  • 8. Introducción -> Problema Metodología Implementación Conclusión Trabajo Futuro Bibliografía Para el usuario Difícil satisfacer la información. Experiencia de búsqueda frustrante. Para la máquina de búsqueda Gasto de ancho de banda, procesamiento CPU, espacio de almacenamiento. Distorsiona el ranking del resultado. ¿POR QUÉ EL WEBSPAM ES MALO?
  • 9. Introducción  Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA PALABRAS CLAVES + LINKS MÁQUINAS DE BÚSQUEDA PUBLICIDAD
  • 10. Creación de páginas para que otras tenga un mejor ranking. Produce “optimización de buscadores”: Gran mayoría de tráfico generado por buscadores. Usuarios solo observan las 3 primeras paginas de búsqueda. Dos tipos de Web spam: Spam basado en contenido. Spam basado en links. Introducción  Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA
  • 11. Keywords Repetidos. Palabras como: “googel”, “accomodation” , “trabel”. Análisis estadístico. Éxito por no filtros de spam en las consultas más populares y mejor pagadas. Introducción  Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN CONTENIDO Keyword Stuffing
  • 12. Google y su algoritmo PageRank basado en links. Otros buscadores siguieron el modelo. El modelo de cómo trabaja es conocido por los spammers. Ejemplo granja de enlaces. Introducción  Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN LINK Granja de Enlaces
  • 14. El aprendizaje o entrenamiento es el mejoramiento en base a la experiencia de alguna tarea . Algoritmos Supervisado: Función correspondencia Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía APRENDIZAJE AUTOMÁTICO
  • 15. Algoritmos que razonan a partir de ejemplos y producen hipótesis. Un tipo de aprendizaje supervisado es Clasificación: Construir modelo para predecir la clase de un nuevo dato Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SUPERVISADO Y CLASIFICACIÓN Nuevo dato
  • 16. Máquinas de vectores de apoyo (SVM, siglas inglés) Desarrolladas por Vapnik están basadas en la teoría de aprendizaje estadístico . Utilizan funciones Kernel para datos dispersos: Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO
  • 17. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 18. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 19. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 20. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 21. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 22. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Definimos el hiperplano w · x +b=0 +1 -1
  • 23. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Definimos el margen +1 -1
  • 24. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO La idea es maximizar el margen. +1 -1
  • 25. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO El hiperplano que tenga el mayor margen es el mejor clasificador de los datos. +1 -1
  • 26. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Los vectores de apoyo son los puntos que tocan el límite del margen. +1 -1
  • 27. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Veamos los hiperplanos “positivo” y “negativo” +1 -1
  • 28. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO w · x +b = -1 w · x +b = +1 margen d - d + hiperplano “positivo”: w · x +b = +1 hiperplano “negativo”: w · x +b = -1 +1 -1
  • 29. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Al final lo que resulta es una función de correspondencia para la clasificación Son los valores de son los multiplicadores de LaGrange de la ecuación Es la función Kernel utilizada y b la variable independiente. Los vectores de apoyo están implícitos en la función Kernel
  • 30. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SVM EN CASCADA Consumo recursos demasiado elevado de SVM Alternativa de paralelización: SVM en cascada
  • 31. Vectores constituidos por datos numéricos. Expresiones regulares. Regex _TagParser = new Regex(&quot;<([a-zA-Z]\w*?)>&quot;) Datos características + etiqueta (Spam o No Spam). Características Seleccionadas: Número de palabras en la página. Número de palabras en el título. Promedio de palabras Fracción del texto anclado. Porcentaje de texto oculto. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía VECTORES DE CARACTERÍSTICAS <input type=&quot;hidden“ value=“Internet&quot;> <a href=&quot;/deportes/&quot; title=&quot;Deportes&quot;> Deportes </a> Texto ancla
  • 32. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MAPREDUCE
  • 33. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía AMAZON WEB SERVICE
  • 34. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MODELO GENERAL Kernel RBF
  • 36. Introducción Problema Metodología  Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET WEBSPAM-UK2006 llenado con páginas de dominio “.UK” en el 2006. software UbiCrowler. Para el presente trabajo se utilizó un total de aproximadamente 120,000 páginas. Tiene un tamaño aproximado de 1.7 GB. Sirve al subprocesos de extracción :
  • 37. Introducción Problema Metodología  Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET Los vectores de característica resultantes del subproceso de extracción, representados como un archivo de texto: Dirección_página_web1 \t f11 ; f12 ; f13 ; f14 ; f15 ; etiqueta1 Dirección_página_web2 \t f21 ; f22 ; f23 ; f24 ; f25 ; etiqueta2 Dirección_página_web : P ágina Web \t : C arácter de tabulación fn1 ; fn2 ; fn3 ; fn4 ; fn5 : Características de una página n cualquiera. Etiqueta : -1 spam y 1 no spam
  • 38. Introducción Problema Metodología  Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía LIBRERÍAS Paradigma MapReduce Hadoop 1.8 Distribución Linux Cloudera Software de virtualización VMware Player Gestión instancias de Amazon EC2 Ec2 Api tools SVM LibSVM Gestionar Amazon S3 Plugin S3 Organizer Gestionar EC2 Plugin ElasticFox
  • 40. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DEL KERNEL Vectores Iniciales Vectores de Soporte Kernel Gaussiano Kernel Lineal Kernel Polinomial 500 156 500 156 7600 3300 7600 3300 55000 20370 55000 20370 100000 37037 100000 37037
  • 41. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Tabla 4.3. Número de Palabras Título y Prom. de Tamaño de Palabra Spam y No Spam Tipo Numero De Palabras No Spam 444,79 Spam 583,3 Características Tipo Numero Palabras Título Promedio Tamaño Palabra No Spam 6,39 7,69 Spam 6,27 7,67
  • 42. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Características Tipo Porcentaje Texto Ancla Porcentaje Texto Visible No Spam 34% 76% Spam 37% 87%
  • 43. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MATRIZ DE CONFUSIÓN Dataset compuesto mayormente por páginas no spam. Se predice con certeza cuando una página no es Web spam. Clases Predichas     1 -1 Clases Conocidas   1 89,00% 0 -1 10,30% 0
  • 44. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MEDICIONES EC2 Mediciones realizadas en los clusters de Amazon Kernel: RBF (Radial Basis Function) Número de vectores: 67,577 Número de vectores de apoyo: 20,338 Nodos EC2 Extracción Tiempo (seg.) Entrenamiento Tiempo (seg.) 3 83.127 302 8 50.54 250
  • 46. Introducción Problema Metodología Implementación Evaluación y resultados  Conclusión Trabajo Futuro Bibliografía CONCLUSIONES Hadoop es una herramienta poderosa Servicios Web de Amazon ahorran costos SVM herramienta muy capaz de clasificación Solución Rendimiento SVM
  • 47. Introducción Problema Metodología Implementación Evaluación y resultados Conclusión  Trabajo Futuro Bibliografía TRABAJO FUTURO Otra solución en &quot;Sub-problemas cuadráticos&quot; Extender la cantidad de características. Mecanismos de validación cruzada para el ajuste de parámetros.
  • 49. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía EXTRAER Y CUANTIFICAR