SlideShare una empresa de Scribd logo
Enero de 2.009 Carlos Javier Redondo Gálvez SEO Manager  - Havas Digital - Lucha Anti-SPAM Webspam 2.0
"NOTICE:  Proprietary and Confidential. All the content of this document (text, figures, lists, financial information, graphics, design, diagrams, as well as other graphic elements and/or audio and videos), whichever is the format used (paper or electronic), is confidential and proprietary to Havas Digital. This document includes ideas and information based on the experience, know-how, intellectual/creative effort of Havas Digital. For these reasons, this material shall not be used, reproduced, copied, disclosed, transmitted, transformed, commercialised or communicated, in whole or in part, neither to third parties to the public, without the express and written consent of Havas Digital"  Havas Digital© & Artemis ™ All rights reserved
¿Qué es el WebSPAM? El WebSpam es la práctica de la manipulación de páginas web con el único fin de obtener tráfico ilícito, y la intención de obtener algún tipo de beneficio. Diferentes técnicas de manipulación de las páginas de resultados de los motores de búsqueda: White-Hat SEO: Todas las técnicas de promocion que cumplen las guidelines de los buscadores. Black-Hat SEO: Todas las técnicas que no siguen estas guidelines. Algunas de estas prácticas son ilegales en algunos paises.
SPAM en base a Contenido Saturación de “Anchor words” sobre el contenido total, y evolución de spam. Tasa de Compresión, y webspam.
SPAM en base a contenido Texto relacionado con las 200 palabras mas comunes en la temática sobre el total de contenido. Fraccion de las 500 palabras mas frecuentes en el cuerpo de la página.
Análisis de Palabras Compuestas Análisis de relevancia de palabras compuestas por las tres principales keywords de la temática. Ej: (FreeMp3, DownloadFree, etc)
Relación de SPAM sobre ratio de Contenido Visible
Inbound Links vs Outbound Links
Motivacion de un WebSpammer Estos son los principales motivos por los se realizan prácticas de WebSpam: Obtención de Pagerank (posicionamiento, venta de enlaces, etc) Clickthroughs (Monetización de Adspam sites, Afilliates Cookies Stuffing, etc) Pruebas SPAM (prueba de métodos de SPAM agresivos para optimización y perfeccionamiento posterior.) Politicos y Religiosos Entre las prácticas clásicas de webspam están: Las páginas “doorway”, texto oculto, paginas duplicadas, enlaces ocultos, spam en weblogs y libros de visita, sobreoptimización de palabras clave, compra y venta de enlaces. Aquí expondremos algunas técnicas avanzadas, mas nuevas o menos conocidas. Que han ido apareciendo según la red ha ido evolucionando, así como las nuevas herramientas para la Lucha Anti-Spam existentes hoy dia.
Principales Técnicas Webspam Spamdexing/Spining:  Generación de Contenido artificialmente para conseguir enormes cantidades de páginas indexadas de manera automática.  Existe software avanzado especialmente diseñado para obtener contenidos mediante peticiones a resultados de búsqueda, feed rss, grupos de noticias, wikis, etc. Estos contenidos son alterados mediante diferentes técnicas para intentar evitar los algoritmos de detección implementados por los motores de búsqueda. Principales Técnicas empleadas para camuflar contenido duplicado: Mezcla de Contenido de diferentes fuentes. Cambio Orden en Frases y Párrafos. Cacheo de consultas a buscadores internos con contenido aleatorio. Mezcla de Frases al azar, o selectivamente mediante afinidad de palabras clave. Traducción de contenidos a diferentes idiomas. “ Find and Replace” mediante diccionarios de sinónimos, y términos relacionados. etc
Tecnicas SPAM Cloaking:  Esta técnica se basa en mostrar un contenido diferente a buscadores y usuarios, mediante la identificación de IP y Usser-Agent. Los Sistemas de Cloaking detectan si el visitante es un usuario, o un “crawler” de los motores de búsqueda. Una vez identificado al usuario muestra una página normal, mientras que al robot del buscador le muestra una página sobreoptimizada para las palabras clave deseadas. Es una práctica altamente penalizada por los buscadores. Google facilita a cualquier usuario la denuncia de este tipo de sitios que pueden ser detectados mediante la caché del buscador, o un emulador de usser-agent. No confundir con IP Recovery, un sistema utilizado para direccionar al usuario a la página adecuada según diversos parámetro como la localización, o idioma.
SPAM en Foros : Usser-bots  mediante registro y posteo automático en sistemas estándar. Cookies Stuffing:  Mediante diversos medios se introducen cookies de afiliado en los equipos de los usuarios. (falsas imágenes, iFrames, etc). Spam en Foros phpBB y vBulletin captcha AOL y Yahoo captcha Los captcha generan una falsa sensación de seguridad, la mayoría de estos sistemas  dejaron de ser una medida efectiva contra el SPAM.   Defeated Hard-Captcha PWNtcha y EZ-Gimpy
SPAM en Blogs SPAM en Blogs : Comment Spam:  Mediante software especializado, que suele usar diccionarios de blogs con dofollow en comentarios. Estos sistemas publican comentarios automáticamente colocando enlaces a las páginas seleccionadas con los “anchor text” elegidos. TrackBack Spam:  Estos sistemas realizan consultas a buscadores de blogs a través de APIs públicas para las tags deseadas. Certifican que responden con un trackback, y que no hacen uso del atributo “nofollow”. Si cumple los requisitos envía un ping desde el Spam-Blog al sitio víctima con un enlace nofollow.  Hijacking:  Aprovecha vulnerabilidades en sistemas de blogs/CMS estándar (Wordpress, Movable Type, Joomla, etc), o plugins de terceros. Mediante esta técnica introducen en los archivos del template (en footer.php normalmente), o en la base de datos SQL enlaces a páginas spam.
Algoritmos: La lucha Anti-Spam ALGORITMOS:  Lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema. (Wikipedia) Tipos de Algoritmos Anti-SPAM según fuente de estudio: Análisis de Enlaces y Estructuras Estudio de Clusters Estudio del Contenido Navegación del Usuario Valoración Social  “ The Anatomy of a Large-Scale Hypertextual Web Search Engine"
Algoritmos de Rankeo y Lucha Anti-Spam Pagerank Truncated Pagerank TrustRank Anti-TrustRank HITS  (Hypertext Induced Topic Search) WITH  (Web spam Identification Through Content and Hyperlinks) Query-Log Mining LSA
PAGERANK Es un algoritmo utilizado para medir la popularidad de un determinado contenido.  PageRank  tomó como base para su modelo del  Science Citation Index  (SCI) elaborado por  Eugene Garfield  para el Instituto de información científica (ISI) en los Estados Unidos durante los años 50. Básicamente es  un indicador numérico de la popularidad global de una página web , mediante la valoración de la cantidad y calidad de páginas que enlazan a este contenido (Valor entre 0 y 10).
Truncated Pagerank Es un algoritmo que trabaja sobre la base de “Pagerank”. Básicamente lo que hace es obviar el primer nivel de enlaces de las páginas, valorando tan sólo el resto de enlaces.  De esta forma se elimina la probabilidad de que una web spam pueda posicionarse gracias a la compra de enlaces.
TrustRank TrustRank  es un algoritmo desarrollado para terminar con el crecimiento de paginas spam que explotan los fallos del algoritmo pagerank. Funcionamiento: Se definen “Nodos” para cada temática. Los Nodos son páginas en un principio definidas por humanos, muy relevantes para la temática buscada y con contenidos de alta calidad. A estos “Nodos” o semillas, se le asigna una cantidad de “Trust” (confianza) que se transmite a través de los enlaces hacia páginas externas. Esto dota de credibilidad a las páginas enlazadas. Para evitar la propagación de Trustrank a toda la red. El Trustrank transferido es cada vez menor gracias a un coeficiente de atenuación.
Anti-TrustRank Trustrank tiene una limitación para ser efectivo, y es que la confianza trasmitida disminuye rápidamente para evitar que se propague hacia páginas distantes y pierda efectividad. Para esto se ha desarrollado el algoritmo “ Anti-Trustrank ”.  Define páginas SPAM con altos niveles de enlaces salientes, y les otorga un valor de “ DisTrust ” (desconfianza). Este algoritmo se basa en la premisa de que es mas probable encontrar enlaces a paginas spam en paginas spam que en paginas de calidad. Este “Anti-Trust” se transmite a través de los inbound links. Es decir se transmite a las páginas que enlazan a la página spam, en lugar de a las paginas que esta enlaza.
HITS: Hypertext Induced Topic Selection  HITS  usa dos indicadores para hacer la valoración, definiendo cada uno a partir del otro de manera recursiva para el set de páginas relacionadas con el tema buscado: A uthority :  Valora si la página es buena como recurso de información para los usuarios.  Suma ponderada de valores  hub  de los enlaces que apuntan hacia esta página. Hub:  Valora la calidad de la información que se consigue siguiendo los enlaces que tiene a otras páginas. Suma ponderada de valores  authority  de las páginas a las que apunta ésta.
GRACIAS !!!

Más contenido relacionado

PDF
Presencia en internet 2010
PPT
Curso SEO para ISCIII
PDF
Spam web
PDF
Web 2.0 y redes sociales virtuales - SEO
PPT
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
PPT
Posicionamiento en buscadores web SEO 10 acciones para realizar
PPTX
Optimización onpage y offpage
PPTX
Curso posicionamiento Google
Presencia en internet 2010
Curso SEO para ISCIII
Spam web
Web 2.0 y redes sociales virtuales - SEO
IV.Interlat Upb Curso Ebusiness Pymes Modulo IV
Posicionamiento en buscadores web SEO 10 acciones para realizar
Optimización onpage y offpage
Curso posicionamiento Google

La actualidad más candente (10)

PPTX
Indusmedia 2016. Linkbuilding. Adrenalina. Jorge Gonzalez
PDF
El SEO propone y Google dispone
PDF
Posicionamiento seo en la web corporativa
PPTX
Motores de busqueda y paginas web yakambú
PPT
Congreso De Webmasters Google
PDF
Mk online parte4
PPT
Analytics Para Blogs
PPTX
Google analytics osea-social medias
PPT
Curso Marketing Online Submitsuite y FACTORIAGRIS
PDF
Interlat Upb Curso Ebusiness Pymes Modulo IV 2009
Indusmedia 2016. Linkbuilding. Adrenalina. Jorge Gonzalez
El SEO propone y Google dispone
Posicionamiento seo en la web corporativa
Motores de busqueda y paginas web yakambú
Congreso De Webmasters Google
Mk online parte4
Analytics Para Blogs
Google analytics osea-social medias
Curso Marketing Online Submitsuite y FACTORIAGRIS
Interlat Upb Curso Ebusiness Pymes Modulo IV 2009
Publicidad

Destacado (20)

PPT
Pre Plan Youniverse World
DOC
Rompiendo la barrera de los
PDF
Comunicacion y educacion 06
DOC
Planeamiento de parvularia marcelo martínez
PPS
Incroyable mais vrai
PPTX
Un sueño alcaldes
PDF
Bon jour
PDF
Comuniccaion y educacion 03
PDF
Tdh -enfants en situation de rue
PPTX
Radio 2.0 advideum - oct 2011 vf
DOC
Julio Actividad Integradora Para EvaluacióN L, 4º
DOC
Facebook et la falsification de la réalité
PPT
MaestríA Diversidad
PPT
SearchCongress Valencia Overalia Victor Puig Reputacion Online
PDF
PUPOVISION
PPT
MaestríA Diversidad
PPT
Didactica 1215625291158065 8
PPTX
Altern IT by Tanguy Goretti
PPT
How to conduct a FLD
Pre Plan Youniverse World
Rompiendo la barrera de los
Comunicacion y educacion 06
Planeamiento de parvularia marcelo martínez
Incroyable mais vrai
Un sueño alcaldes
Bon jour
Comuniccaion y educacion 03
Tdh -enfants en situation de rue
Radio 2.0 advideum - oct 2011 vf
Julio Actividad Integradora Para EvaluacióN L, 4º
Facebook et la falsification de la réalité
MaestríA Diversidad
SearchCongress Valencia Overalia Victor Puig Reputacion Online
PUPOVISION
MaestríA Diversidad
Didactica 1215625291158065 8
Altern IT by Tanguy Goretti
How to conduct a FLD
Publicidad

Similar a Havas Digital | Web Spam (20)

PDF
Posicionamiento web-19319-completo
PPT
Analisis seo
PPT
Analisis seo.ppt2
PDF
Seo sem-buscadores
PDF
Seo y Sem- Sd3 agencia de Marketing Digital
PDF
Otras formas de posicionarnos
PPT
Modulo SEO SEM. Prof. Juan Manuel Rodriguez Casal.Clase N1. Fecha 19-05
PPT
Modulo SEO SEM. Prof. Juan Manuel Rodriguez Casal. Fecha: 19/05
PPTX
SEO, SEM , GOOGLE ANALYTICS, ANALITICA WEB
PPTX
Semrush caracteristicas, tipos y configuraciones generales
PDF
Posicionamiento en Buscadores - SEO
PPSX
Penguin eshow
PPT
Optimización para Buscadores (SEO)
PPTX
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
PPT
Analisis seo
PDF
Herramientas Marketing Digital = Gestión SEO y SEM
PPTX
Curso SEO y SEM - nivel básico
PPTX
Tareadominiosm.doc
Posicionamiento web-19319-completo
Analisis seo
Analisis seo.ppt2
Seo sem-buscadores
Seo y Sem- Sd3 agencia de Marketing Digital
Otras formas de posicionarnos
Modulo SEO SEM. Prof. Juan Manuel Rodriguez Casal.Clase N1. Fecha 19-05
Modulo SEO SEM. Prof. Juan Manuel Rodriguez Casal. Fecha: 19/05
SEO, SEM , GOOGLE ANALYTICS, ANALITICA WEB
Semrush caracteristicas, tipos y configuraciones generales
Posicionamiento en Buscadores - SEO
Penguin eshow
Optimización para Buscadores (SEO)
Segunda clase sistemas y tecnología - Daniela Diaz Cardoso
Analisis seo
Herramientas Marketing Digital = Gestión SEO y SEM
Curso SEO y SEM - nivel básico
Tareadominiosm.doc

Más de search congress (20)

PPT
Search congress lisboa 2010 ayr consulting
PPT
Search congress lisboa 2010
PPT
Search Congress V2 Ppt Ysm Yahoo
PDF
Search For Buzz Sc Bilbao 2010, Massimo Burgio
PDF
Search Congress Bilbao, Oriol Ibars, Multiplica.
PPTX
Search Congress Bilbao, Enrique Aguilera, Online Business Global Director, Po...
PDF
Search Congress Bilbao, Javier Casares, Posicionamiento en buscadores.
PDF
Search Congress Bilbao, Enric Ramos Mas, Emagister, Posicionamiento en buscad...
PDF
Search Congress Valencia Web Certain Ana Valezzi Marketing En Redes Sociales
PDF
Search Congress Valencia Multiplica Enric Quintero OptimizacióN Web Caso Pr...
PDF
Search Congress Valencia Multiplica Enric Quintero Analitica Web + Testing
PPT
Search Congress Valencia Optimo Click Jorge Cami Google Adwords Advanced
PPT
SearchCongress Valencia Search Media Javier Arias Blog Marketing
PPT
SearchCongress Valencia LaVanguardia Ismael Nafria Contenidos Online: 5 Lecci...
PPTX
SearchCongress Valencia Google Reza Ghassemi Medición de la rentabilidad de l...
PPT
SearchCongress Valencia KanvasMedia Miguel Orense ¿Hablemos de SEO..?
PDF
Search Congress Valencia Javier Arias Google Webmaster Tools
PPT
Search Congress Barcelona 2009 Steak V2
PPT
2009 Searchcongress Experiencia De Usuario 01
PPT
Search Congress Barcelona Final
Search congress lisboa 2010 ayr consulting
Search congress lisboa 2010
Search Congress V2 Ppt Ysm Yahoo
Search For Buzz Sc Bilbao 2010, Massimo Burgio
Search Congress Bilbao, Oriol Ibars, Multiplica.
Search Congress Bilbao, Enrique Aguilera, Online Business Global Director, Po...
Search Congress Bilbao, Javier Casares, Posicionamiento en buscadores.
Search Congress Bilbao, Enric Ramos Mas, Emagister, Posicionamiento en buscad...
Search Congress Valencia Web Certain Ana Valezzi Marketing En Redes Sociales
Search Congress Valencia Multiplica Enric Quintero OptimizacióN Web Caso Pr...
Search Congress Valencia Multiplica Enric Quintero Analitica Web + Testing
Search Congress Valencia Optimo Click Jorge Cami Google Adwords Advanced
SearchCongress Valencia Search Media Javier Arias Blog Marketing
SearchCongress Valencia LaVanguardia Ismael Nafria Contenidos Online: 5 Lecci...
SearchCongress Valencia Google Reza Ghassemi Medición de la rentabilidad de l...
SearchCongress Valencia KanvasMedia Miguel Orense ¿Hablemos de SEO..?
Search Congress Valencia Javier Arias Google Webmaster Tools
Search Congress Barcelona 2009 Steak V2
2009 Searchcongress Experiencia De Usuario 01
Search Congress Barcelona Final

Havas Digital | Web Spam

  • 1. Enero de 2.009 Carlos Javier Redondo Gálvez SEO Manager - Havas Digital - Lucha Anti-SPAM Webspam 2.0
  • 2. "NOTICE: Proprietary and Confidential. All the content of this document (text, figures, lists, financial information, graphics, design, diagrams, as well as other graphic elements and/or audio and videos), whichever is the format used (paper or electronic), is confidential and proprietary to Havas Digital. This document includes ideas and information based on the experience, know-how, intellectual/creative effort of Havas Digital. For these reasons, this material shall not be used, reproduced, copied, disclosed, transmitted, transformed, commercialised or communicated, in whole or in part, neither to third parties to the public, without the express and written consent of Havas Digital" Havas Digital© & Artemis ™ All rights reserved
  • 3. ¿Qué es el WebSPAM? El WebSpam es la práctica de la manipulación de páginas web con el único fin de obtener tráfico ilícito, y la intención de obtener algún tipo de beneficio. Diferentes técnicas de manipulación de las páginas de resultados de los motores de búsqueda: White-Hat SEO: Todas las técnicas de promocion que cumplen las guidelines de los buscadores. Black-Hat SEO: Todas las técnicas que no siguen estas guidelines. Algunas de estas prácticas son ilegales en algunos paises.
  • 4. SPAM en base a Contenido Saturación de “Anchor words” sobre el contenido total, y evolución de spam. Tasa de Compresión, y webspam.
  • 5. SPAM en base a contenido Texto relacionado con las 200 palabras mas comunes en la temática sobre el total de contenido. Fraccion de las 500 palabras mas frecuentes en el cuerpo de la página.
  • 6. Análisis de Palabras Compuestas Análisis de relevancia de palabras compuestas por las tres principales keywords de la temática. Ej: (FreeMp3, DownloadFree, etc)
  • 7. Relación de SPAM sobre ratio de Contenido Visible
  • 8. Inbound Links vs Outbound Links
  • 9. Motivacion de un WebSpammer Estos son los principales motivos por los se realizan prácticas de WebSpam: Obtención de Pagerank (posicionamiento, venta de enlaces, etc) Clickthroughs (Monetización de Adspam sites, Afilliates Cookies Stuffing, etc) Pruebas SPAM (prueba de métodos de SPAM agresivos para optimización y perfeccionamiento posterior.) Politicos y Religiosos Entre las prácticas clásicas de webspam están: Las páginas “doorway”, texto oculto, paginas duplicadas, enlaces ocultos, spam en weblogs y libros de visita, sobreoptimización de palabras clave, compra y venta de enlaces. Aquí expondremos algunas técnicas avanzadas, mas nuevas o menos conocidas. Que han ido apareciendo según la red ha ido evolucionando, así como las nuevas herramientas para la Lucha Anti-Spam existentes hoy dia.
  • 10. Principales Técnicas Webspam Spamdexing/Spining: Generación de Contenido artificialmente para conseguir enormes cantidades de páginas indexadas de manera automática. Existe software avanzado especialmente diseñado para obtener contenidos mediante peticiones a resultados de búsqueda, feed rss, grupos de noticias, wikis, etc. Estos contenidos son alterados mediante diferentes técnicas para intentar evitar los algoritmos de detección implementados por los motores de búsqueda. Principales Técnicas empleadas para camuflar contenido duplicado: Mezcla de Contenido de diferentes fuentes. Cambio Orden en Frases y Párrafos. Cacheo de consultas a buscadores internos con contenido aleatorio. Mezcla de Frases al azar, o selectivamente mediante afinidad de palabras clave. Traducción de contenidos a diferentes idiomas. “ Find and Replace” mediante diccionarios de sinónimos, y términos relacionados. etc
  • 11. Tecnicas SPAM Cloaking: Esta técnica se basa en mostrar un contenido diferente a buscadores y usuarios, mediante la identificación de IP y Usser-Agent. Los Sistemas de Cloaking detectan si el visitante es un usuario, o un “crawler” de los motores de búsqueda. Una vez identificado al usuario muestra una página normal, mientras que al robot del buscador le muestra una página sobreoptimizada para las palabras clave deseadas. Es una práctica altamente penalizada por los buscadores. Google facilita a cualquier usuario la denuncia de este tipo de sitios que pueden ser detectados mediante la caché del buscador, o un emulador de usser-agent. No confundir con IP Recovery, un sistema utilizado para direccionar al usuario a la página adecuada según diversos parámetro como la localización, o idioma.
  • 12. SPAM en Foros : Usser-bots mediante registro y posteo automático en sistemas estándar. Cookies Stuffing: Mediante diversos medios se introducen cookies de afiliado en los equipos de los usuarios. (falsas imágenes, iFrames, etc). Spam en Foros phpBB y vBulletin captcha AOL y Yahoo captcha Los captcha generan una falsa sensación de seguridad, la mayoría de estos sistemas dejaron de ser una medida efectiva contra el SPAM. Defeated Hard-Captcha PWNtcha y EZ-Gimpy
  • 13. SPAM en Blogs SPAM en Blogs : Comment Spam: Mediante software especializado, que suele usar diccionarios de blogs con dofollow en comentarios. Estos sistemas publican comentarios automáticamente colocando enlaces a las páginas seleccionadas con los “anchor text” elegidos. TrackBack Spam: Estos sistemas realizan consultas a buscadores de blogs a través de APIs públicas para las tags deseadas. Certifican que responden con un trackback, y que no hacen uso del atributo “nofollow”. Si cumple los requisitos envía un ping desde el Spam-Blog al sitio víctima con un enlace nofollow. Hijacking: Aprovecha vulnerabilidades en sistemas de blogs/CMS estándar (Wordpress, Movable Type, Joomla, etc), o plugins de terceros. Mediante esta técnica introducen en los archivos del template (en footer.php normalmente), o en la base de datos SQL enlaces a páginas spam.
  • 14. Algoritmos: La lucha Anti-Spam ALGORITMOS: Lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema. (Wikipedia) Tipos de Algoritmos Anti-SPAM según fuente de estudio: Análisis de Enlaces y Estructuras Estudio de Clusters Estudio del Contenido Navegación del Usuario Valoración Social “ The Anatomy of a Large-Scale Hypertextual Web Search Engine"
  • 15. Algoritmos de Rankeo y Lucha Anti-Spam Pagerank Truncated Pagerank TrustRank Anti-TrustRank HITS (Hypertext Induced Topic Search) WITH (Web spam Identification Through Content and Hyperlinks) Query-Log Mining LSA
  • 16. PAGERANK Es un algoritmo utilizado para medir la popularidad de un determinado contenido. PageRank tomó como base para su modelo del Science Citation Index (SCI) elaborado por Eugene Garfield para el Instituto de información científica (ISI) en los Estados Unidos durante los años 50. Básicamente es un indicador numérico de la popularidad global de una página web , mediante la valoración de la cantidad y calidad de páginas que enlazan a este contenido (Valor entre 0 y 10).
  • 17. Truncated Pagerank Es un algoritmo que trabaja sobre la base de “Pagerank”. Básicamente lo que hace es obviar el primer nivel de enlaces de las páginas, valorando tan sólo el resto de enlaces. De esta forma se elimina la probabilidad de que una web spam pueda posicionarse gracias a la compra de enlaces.
  • 18. TrustRank TrustRank es un algoritmo desarrollado para terminar con el crecimiento de paginas spam que explotan los fallos del algoritmo pagerank. Funcionamiento: Se definen “Nodos” para cada temática. Los Nodos son páginas en un principio definidas por humanos, muy relevantes para la temática buscada y con contenidos de alta calidad. A estos “Nodos” o semillas, se le asigna una cantidad de “Trust” (confianza) que se transmite a través de los enlaces hacia páginas externas. Esto dota de credibilidad a las páginas enlazadas. Para evitar la propagación de Trustrank a toda la red. El Trustrank transferido es cada vez menor gracias a un coeficiente de atenuación.
  • 19. Anti-TrustRank Trustrank tiene una limitación para ser efectivo, y es que la confianza trasmitida disminuye rápidamente para evitar que se propague hacia páginas distantes y pierda efectividad. Para esto se ha desarrollado el algoritmo “ Anti-Trustrank ”. Define páginas SPAM con altos niveles de enlaces salientes, y les otorga un valor de “ DisTrust ” (desconfianza). Este algoritmo se basa en la premisa de que es mas probable encontrar enlaces a paginas spam en paginas spam que en paginas de calidad. Este “Anti-Trust” se transmite a través de los inbound links. Es decir se transmite a las páginas que enlazan a la página spam, en lugar de a las paginas que esta enlaza.
  • 20. HITS: Hypertext Induced Topic Selection HITS usa dos indicadores para hacer la valoración, definiendo cada uno a partir del otro de manera recursiva para el set de páginas relacionadas con el tema buscado: A uthority : Valora si la página es buena como recurso de información para los usuarios. Suma ponderada de valores hub de los enlaces que apuntan hacia esta página. Hub: Valora la calidad de la información que se consigue siguiendo los enlaces que tiene a otras páginas. Suma ponderada de valores authority de las páginas a las que apunta ésta.

Notas del editor