SlideShare una empresa de Scribd logo
Internet Invisible, universo de oportunidades
y reto para una investigación eficaz
RESUMEN: La presente comunicación tiene como objetivo presentar los resultados de un trabajo
de investigación en la asignatura de doctorado «Investigación, Eficacia y Periferia». Su objetivo
fue: identificar las características de «Internet invisible», conocer los motivos de su existencia,
comprender las técnicas de ocultación de contenidos en la Red, identificar las estrategias para
consultar sus contenidos, entender su importancia económica y técnica de sus contenidos, y
comprender las oportunidades que ofrece a los grupos de investigación en el campo de la
arquitectura y la edificación.
Palabras clave: Internet, Investigación, I+D+i, Nuevas Tecnologías de la Información
Dr. Farid Mokhtar Noriega
Escuela Superior de Arquitectura y Tecnología (ESAT)
Universidad Camilo José Cela
C. Castillo de Alarcón 49. Villafranca del Castillo. Madrid 28692
918153131 (ext. 1539)
Enrique Rayón Álvarez
Escuela Superior de Arquitectura y Tecnología (ESAT)
Universidad Camilo José Cela
C. Castillo de Alarcón 49. Villafranca del Castillo. Madrid 28692
918153131 (ext. 1539)
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _02
Introducción
Los investigadores noveles y veteranos, invierten un tiempo valioso en la búsqueda
infructuosa de información relevante para desarrollar sus trabajos académicos e
investigaciones, la mayoría de ellos, desconocen que World Wide Web que está a su
disposición sólo ofrece una pequeña porción de sus contenidos reales.
Existe otra Web más extensa y de mayor calidad, que almacena en sus bases de datos
invisibles para los motores de búsqueda convencionales (google, Yahoo, Askjeeves,
etc.), miles de artículos científicos y técnicos de enorme valor. Cualquier usuario sin o
con conocimiento informáticos avanzados, no puede consultar sus contenidos, necesita
ayudas directas, indicaciones precisas y pautas específicas para localizarla y hacer un
buen de ella.
La mayoría de los investigadores noveles, inician su participación en los proyectos de
I+D+i analizando toda la información a su alcance sobre el área de conocimiento objeto
de investigación. Gracias a ella, se diseñan propuestas y se trazan objetivos.
Generalmente, la información encontrada es poco relevante, de carácter divulgativo y de
escasa relevancia científica. Búsquedas de mayor intensidad y más especializadas,
tampoco resultados de mayor relevancia. Se localizan referencias y listados
bibliográficos de escasa relevancia para el proyecto y la propuesta. Pero la realidad
demuestra que las barreras y las distancias siguen existiendo y que la información no
está a nuestro alcance
Sólo las indicaciones precisas de un mentor que conozca: las direcciones de los sitios
web y las bases de conocimiento relacionadas con la materia, pueden impedir la
búsqueda sin sentido. En algunas ocasiones, el azar puede intervenir y aportar una pista
inesperada, en forma de una página web o un blog especializado repleto de información
y direcciones de sitios relacionados con el área de conocimiento objeto de la
investigación.
¿Es fiable entonces la información científica indizada por los buscadores gratuitos? ¿Son
fiables los documentos y trabajos de investigación distribuidos de forma gratuita? ¿Es
posible acceder a los portales de los proyectos de investigación? ¿Son públicos los
resultados de la investigación científica? ¿Dónde están las bases de datos relacionadas
con la investigación avanzada en arquitectura y las tecnologías de la construcción?
¿Cuánto podría costar la información relevante? ¿Cuál es la dimensión de la nueva
cultura colaborativa de Web 2.0?
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _03
Internet Invisible
El término «web invisible» fue utilizado por primera vez por la Dra. Jill Ellsworth para
catalogar la información que resultaba «invisible» para los motrores de búsqueda que
rastreaban la web (ELLSWORTH, 1995). Esta es también etiquetada como «web
profunda» (deep web), para distinguirla de la «web superficial» (surface web) cuya
información se puede rastrear con los buscadores gratuitos (BERGMAN, 2000).
Un buscador es un sitio que tiene como objetivo ayudar al público en la búsqueda de
información en internet. El usuario que realiza la consulta, no está buscando en el
contenido real que existe en Internet, está buscando en una enorme base de datos creada
de forma automática con la ayuda de buscadores automáticos que rastrea los servidores y
la red en busca de referencias nuevas de forma periódica. El éxito de buscador depende
del volumen de la base de datos o el directorio y la facilidad para realizar consultas en su
base de datos. A pesar de su pretendida exhaustividad, se calcula que los mayores
motores de búsqueda indizan sólo entre un tercio y la mitad de los documentos
disponibles al público en la Red (TURNER, 2003).
Un estudio de BRIGHT PLANET1
ha estimado que la información contenida en la web
invisible es aproximadamente 550 veces mayor que la de la web superficial y crece a
mucha mayor velocidad (BERGMAN, 2000). Un estudio posterior de Cyveillance2
calcula que el tamaño de la web profunda es 275 veces mayor que el de la web visible
(MURRAY, 2000, citado en OUF, 2001).
– Estimaciones posteriores, señalan que, el tamaño de la web invisible es sólo entre 2 y
50 veces mayor que el de la web visible (SHERMAN y PRICE, 2001b). Las diferencias
en las cifras se deben a las diferentes metodologías utilizadas por los autores, la realidad
es que la Internet Invisible crece a un ritmo superior a la investigación de herramientas
de búsqueda e indización de sus contenidos. De los anteriores estudios se deducen
algunas propiedades relevantes sobre Internet Invisible, entre ellas destacan (AGUILLO,
2004):
− El tamaño de la información que contiene es entre 2 a 50 veces superior a la que
circula en la Internet «visible»,
− cuenta con cientos de miles de sedes en su mayoría centros científicos y académicos
(100,000 sedes, 70,000 BB.DD., 7000 categorías, 18,000 catálogos de librerías),
− los recursos e información que contiene es de alta calidad,
− contiene millones de artículos científicos (550 millones de registros de bases de datos,
750 veces superior a la información depositada en la librería del congreso3
).
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _04
¿Porqué Internet es Invisible?
Los buscadores y directorios gratuitos como Google o Yahoo, fueron creados para
localizar y clasificar automáticamente4
parte de la información existente, aquella que las
empresas pueden rentabilizar económicamente. La información de escaso interés
comercial solo puede entorpecer el proceso de búsqueda y archivo. De hecho, gran parte
de la información académica y científica, se excluye de los motores de rastreo
automático de los buscadores gratuitos. En otras ocasiones, son las propias instituciones
y centros tecnológicos son los que imponen las restricciones, introduciendo la estructura
de sus plataformas mecanismos que eluden los programas de rastreo. No existen motivos
claros para esta discriminación, cada empresa propietaria de un buscador tiene sus
motivos, unos por el diseño y otros por los intereses comerciales.
Algunas empresas introdujeron cambios sustanciales en sus motores de rastreo y otras
como Google con su buscador especializado «Google Scholar» construyeron servicios
paralelos especializados para el rastreo y clasificación de la información académica. Esta
situación, es pues, la responsable de la existencia de dos redes paralelas, una visible y
otra invisible.
Internet visible
Es una red constituida por cientos de miles de servidores de contenidos que albergan
millones de páginas web, cuyas bases de datos se pueden consultar de forma gratuita o
mediante el pago. Las páginas web son rastreadas y clasificadas periódicamente por los
mecanismos de búsqueda, indización y catalogación. Las páginas web, están diseñadas
según unos normas universales a partir de cadenas de texto organizadas gracias a el
lenguaje de programación HTML (Hyper Text Markup Language) y sus diferentes
variaciones. Estas normas permiten añadir etiquetas y marcadores que se pueden rastrear
por los motores de indización. La información analizada es alfanumérica, los gráficos,
imágenes, vídeos y algunos archivos de datos (tablas, imágenes, animaciones, etc.). El
uso adecuado de palabras clave dentro de la estructura de las páginas, facilita su
localización y clasificación por los buscadores
Internet invisible
Es una red compleja, compuesta a su vez por varias redes de información: opacas,
privadas, propietarias y ocultas. Para ocultarse de los buscadores, cada una de ellas
adopta normas especiales de diseño, otras por su naturaleza dinámica y cambio constante
de contenidos imposibles de rastrear por su volatilidad, teniendo en cuenta que los
procesos de rastreo, se realizan de forma periódica, y no en tiempo real.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _05
Las Redes Invisibles: tipologías
Son numerosos los motivos de la invisibilidad de las páginas web, algunos son técnicos
y otros son logísticos. Sherman y Price (2001a) dividen las páginas web y portales de la
Web Invisible en cuatro categorías, según los problemas técnicos o estratégicos elegidos.
Los cuatro tipos de Redes Invisibles son: 1- opaca, 2- privada, 3- propietaria y 4- oculta.
La red opaca
Son archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero
se descartan por motivos como:
− Economía: los buscadores no indizan todas las páginas de un sitio,
− frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar
todas las páginas web que diariamente se añaden o desaparecen,
− número máximo de resultados visibles: los motores de búsqueda limitan el número de
documentos que se muestran en los listados de consulta (entre 200 y 1000
documentos),
− vínculos y enlaces: los buscadores, como Google, presentan los documentos en
función del número de veces que aparecen referenciados en otros documentos. Si un
documento no aparece referenciado en otro documento será imposible que la página
sea descubierta.
La red privada
Son las páginas web, que podrían estar indizadas en los motores de búsqueda pero son
excluidas por motivos como:
− Protección por contraseñas,
− presencia del archivo «robots.txt» para evitar ser indizadas.
− presencia del campo «no index» para evitar que el buscador indice la parte
correspondiente al cuerpo de la página.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _06
La red propietaria
Son aquellas páginas que requieren que el usuario se registre para tener acceso a su
contenido gratuito o de pago.5
La ocultación de los contenidos puede ser por motivos
técnicos (redes privadas restringidas a usuarios registrados) o comerciales (se exige el
pago de cuotas de abono mensual o annual).
La red oculta
Son páginas web que no pueden ser indizadas por los motores de los buscadores debido
a restricciones técnicas impuestas de forma voluntaria, como:
− Páginas web creadas con documentos con formatos como: PDF, PostScript, Flash,
Shockwave, programas ejecutables y archivos comprimidos.
− Páginas generadas dinámicamente, es decir, que se generan a partir de datos que
introduce el usuario, y varían con cada consulta.
− Información almacenada en bases de datos relacionales, que no puede ser extraída a
menos que se realice una petición específica.
Estrategias de búsqueda
La búsqueda y localización de contenidos en Internet Invisible exige el uso coherente y
sistemática de diferentes tipos de herramientas de búsqueda y rastreo de contenidos en
Internet. Las búsquedas se apoyan en la capacidad de manejo y gestión de la
información obtenida. Cada una de ellas depende de la otra, los motores no pueden tener
éxito, sin una participación activa del usuario.
Instrumentos de Búsqueda
Cada buscador, meta buscador o directorio se especializa en la localización y selección
de determinados contenidos de páginas web. Esta es la razón de la existencia de una
variedad de mecanismos de búsqueda de información.
Las herramientas de búsqueda de la información en Internet Invisible se asemejan a las
empleadas por los usuarios de Internet Visible, las diferencias entre ambas son puntuales
y se centran en su capacidad para realizar búsquedas especializadas y selectivas en áreas
que no exploran las motores de rastreo.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _07
Los diferentes medios de búsqueda de contenidos en Internet «Visible» e «invisible»,
son: 1 buscadores, 2 metabuscadores, 3 directorios, 4 portales, 5 multibuscadores, 6
tutoriales, 7 motores Avanzados,
Conocimientos asociados
Cada medio de búsqueda rastrea la información de forma diferente. El objetivo de todos
los motores de búsqueda es, conseguir el mayor número de aciertos en cada consulta. El
usuario que desea realizar consultas eficaces, debe aprender las reglas exclusivas de
manejo de todos los sistemas de búsqueda. Las diferencias entre ellas son sutiles,
porque comparten estándares universales, difíciles de intuir o asociar. No ha lugar a la
experimentación mediante la prueba y el error, la repetición de la acción no mejora los
resultados.
La información oculta en la parte Invisible de Internet, es difícil de indizar. La consulta
y posterior archivo de información almacenada en bases de datos relacionales, requiere
conocimientos especiales para la realizar tareas tales como la importación y exportación
de contenidos o, la integración de herramientas de búsqueda con mecanismos de carga y
descarga. Las competencias que pueden influir en la calidad de los resultados de los
métodos de búsqueda son: 1 estrategias de búsqueda, 2 métodos de consulta, 3
conocimientos del área a investigar, 4 tratamiento de la información.
Las tablas comparativas que vienen a continuación, muestran las características de los
medios y los conocimientos asociados necesarios para la búsqueda de contenidos en
internet Visible e Invisible.
INTERNET VISIBLE INTERNET INVISIBLE
Diseño Millones de páginas
Diseño con lenguaje HTML y Flash.
Millones de Páginas
Diseño con lenguajes SQL, XML
Contenidos Macro RED con contenidos
- públicos, - privados
Redes Paralelas con contenidos:
- opacos, - privados
- propietarios, - ocultos
MEDIOS DE BÚSQUEDA
Buscadores Exploran, indizan y archivan
direcciones de sitios en sus bases de
datos.
Buscan términos y palabras
específicas
La exploración es:
Rastrean contenidos de bases de
datos y contenidos como imágenes y
documentos PDF.
No indizan contenidos de páginas
dinámicas.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _08
- periódica,
- automática,
Calculan relevancia información
según análisis estadístico de:
- de frecuencia de palabras,
- las páginas ligadas a otras.
Consultas por: palabras espcíficas Consultas por palabras y frases
Google, Tahoma, Askjeevs InvisibleWeb.com, LexiBot, Lycos
Invisible Web Catalog , Incywincy
Metabuscadores No poseen mecanismos propios,
rastrean los buscadores existentes.
Las búsquedas podrían ser:
- agrupadas (en varios buscadores)
- individuales (se eligen
buscadores)
Los resultados según relevancia
Especifican las fuentes
Si posibilidad de búsqueda avanzada.
Consultas por: palabras
Conectan con buscadores
especializados en la web profunda.
Con posibilidad de búsqueda
avanzada.
Consultas por palabras y frases
Dogpile, InfoSpace, Metacrawler,
Turboscout, Mamma,
Completeplanet.com, Topic Hunter,
profusion,
Directorios Índices temáticos ordenados por
categorías.
Registro y clasificación Manual.
Contenidos selectivos.
Los editores podrían ser:
- empleados,
- voluntarios.
La heterogeneidad de las categorías
se debe a razones:
- técnicas, servicios prestados
- económica, cuota de inscripción
Consultas por: categorías
Índices temáticos especializados
ordenados por categorías.
creadas y mantenidas por
biblitecarios o investigadores.
Consultas por: categorías
LookSmart y Yahoo! Infomine, librarian internet index,
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _09
invisibleweb.com; buscopio
Portales Dan acceso a páginas web y servicios
varios:
- buscadores, - metabuscadores,
- directorios, - enlaces propios,
Su calidad depende de:
- servicios ofrecidos,
- frecuencia de actualización.
Acceso:
- público
- por contraseña, gratuita o
suscripción
Dan acceso a Páginas web
especializadas y bases de datos
especializadas.
Acceso:
- por contraseña, gratuita o
suscripción
MSN, Wandoo, Netscape, Web of Knowlage,
internetinvisible.com, complete
planet, about.com
Multibuscadores Programas informáticos
Se conectan a determinados
buscadores
Realizan búsquedas mediante
- conceptos,
- búsqueda avanzada simplificada.
- crean listados,
- generan estadísticas,
- clasifican información,
- eliminan duplicados
Programas informáticos
Se conectan a buscadores diseñados
para rastrear sitios de internet
visible.
- búsquedas avanzadas complejas,
- crean listados,
- generan estadísticas,
- clasifican información,
- eliminan duplicados,
- exportan datos a otras bases de
datos
Módulos (Flyswat, Kenjin y Zapper)
Autónomos (Copernic Agent)
Bright planet (brightplanet.com)
Tutoriales Explican el uso
Diferentes fórmulas de busqueda
ofrecen pautas para la búsqueda de
información,
publican enlaces y direcciones de
interés.
Motores
avanzados
Aplicaciones a medida.
Conectan con buscadores
especializados.
Poseen sistemas de búsqueda
avanzada.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _010
Deep query Manager, lexibot,
gigablast, singingfish, turboscout
Tabla-1 Análisis comparado de características de las herramientas de búsqueda de contenidos en
Internet visible e Invisible.
INTERNET VISIBLE INTERNET INVISIBLE
Conocimientos Asociados
Estrategias de
búsqueda
Uso de Palabras genéricas
frases sin acotar
Uso de términos especializados
frases acotadas
Lógica booleana (AND, OR, NOT,
etc.)
Métodos de consulta Tanteo, Prueba y error Tanteo, criterios específicos
Conocimientos del
área
Términos genéricos Lenguaje técnico y léxico de la
materia objeto de la investigación,
en una o varias lenguas
Tratamiento
de la información
Copiar y pegar
Carga y descarga
archivo de contenidos
Uso de bases de datos relacionales,
Descarga y clasificación de datos,
Enlazar bases de datos,
Tratamiento de la información
(adobe acrobat y flash)
Transferencia de datos
Tabla-2 Análisis comparado de los conocimientos asociados para la búsqueda de contenidos en
Internet visible e Invisible.
Causas de la invisibilidad de la información
Las tablas anteriores muestran que, la invisibilidad de los contenidos técnicos y
especializados se deben a criterios técnicos que condicionan los conocimientos
necesarios para consultar y manipular la información. Cada red Invisible (opaca,
privada, propietaria y oculta), tiene pues, exigencias concretas que condicionan su
diseño y manejo. La tabla expuesta a continuación muestra algunos de rasgos
compartidos y otros diferenciadores. Observamos que las diferencias son sutiles y
generalmente son de carácter técnico. Los conocimientos asociados son prácticamente
idénticos, salvo matices.
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _011
TÉCNICOS
Diseño
CONOCIMIENTOS ASOCIADOS
Consulta
INTERNET OPACA
los robots no indizan todos los
contenidos
resultados limitados
Elección de terminologías específicas
Frases y palabras específicas
Lengua inglesa,
INTERNET PRIVADA
Ocultación de la información
Invisibilidad voluntaria
Acceso autorizado
Terminologías especializadas
Estado del arte
Manejos de Bases de Datos
Transferencia y manipulación de la
información
Lengua inglesa,
INTERNET PROPIETARIA
Financiación pública y privada
Acceso restringido
Terminologías especializadas
Estado del arte
Manejos de Bases de Datos
Transferencia y manipulación de la
información
Lengua inglesa,
INTERNET INVISIBLE
Bases de Datos dinámicas
Archivos documentales
Publicaciones especializadas
Contenidos audio visuales y
gráficos protegidos
Acceso restringido
Coste de consulta elevado
Terminologías especializadas
Lengua inglesa
Conocimientos informáticos
avanzados Consulta y manejo de bases
de datos
Personalizar herramientas
Tabla-2 Análisis de la invisibilidad de contenidos en Internet Invisible.
La Arquitectura En Internet Invisible
La mayoría de la información perteneciente a los campos de la arquitectura y la
edificación pertenecen a Internet Invisible, la mayoría de los portales especializados de
carácter técnico o académico son invisibles. No es necesario utilizar razonamientos, ni
argumentos retóricos para justificar esta afirmación. Invitamos los lectores a que realicen
búsquedas especializadas con cualquier tipo de búsqueda de los anteriormente citados.
En la mayoría de los casos llegaremos a fuentes creadas por usuarios voluntarios,
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _012
observaremos que son de escasa relevancia técnica y académica. Las escuelas de
arquitectura son un claro ejemplo de invisibilidad, un importante porcentaje no aparece
en las búsquedas de los buscadores. Sólo se pueden encontrar su ubicación en directorios
especializados.
Las empresas y fabricantes de productos del área de la construcción, restringen el acceso
a sus portales y exigen el registro previo. Los contenidos publicados en sus portales
privados tampoco es extenso.
Conclusiones
– Los datos recopilados durante varios años, revelaron aspectos desconocidos sobre la
información técnica relevante y la investigación vanguardista en la RED. Se
descubrieron bases de datos en línea, que almacenan información de gran interés y
calidad, totalmente desconocida,
– Descubrimos una World Wide Web, con cientos de fuentes de gran calidad científica y
técnica totalmente invisible, una macro red, cientos de veces mayor que «Internet
visible»,
– La calidad de la información recopilada, depende básicamente de los conocimientos
del usuario sobre uso y manejo de los medios de búsqueda genéricos y especializados,
– Los motores de búsqueda no usan una estándar universal para el rastreo y la indización
de los datos, y consecuentemente, no ofrecen los mismos resultados. Para aumentar las
opciones de éxito, es necesario utilizar varios buscadores de forma simultánea.
– Los buscadores gratuitos sólo pueden rastrear las capas superficiales de Internet,
carecen de capacidad para rastrear un información relevante.
– Usar internet para fines investigadores requiere una formación transversal que abarca
varias áreas de conocimiento como:
– Estado del arte y fuentes relevantes.
– Inglés técnico.
– Manejo de bases de datos documentales y relacionales.
– Seguridad informática.
– Gestión de la información.
– La localización y organización de la información Invisible sobre arquitectura es una
necesidad estratégica. El futuro de los futuros proyectos de I+D dependerá de la
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _013
capacidad de los investigadores, de acceder de forma rápida y directa a las fuentes
relevantes y los centros de investigación de referencia en nuestro campo.
Notas
1
BrightPlanet.com LLC.; The Deep Web: Surfacing Hidden Value; White Paper Julio; 2000
2
http://www.cyveillance.com/
3
Según estudios recientes en la actualidad existen 15 millones de páginas web, pero un importante
número de ellas no está indizado por los buscadores convencionales
4
Llamados Web Spiders
5
El 75% de la Internet invisible es gratuita
Bibliografía
AGUILLO, Isidro. Internet Invisible. CINDOC CSIC, IV Semana de la Ciencia. Madrid,
Nov 2004
BARKER, Joe; KUPERSMITH, John. Finding Information on the Internet: A Tutorial.
Teaching Library Internet Workshops. [en línea]. UC Berkeley, Agosto 2005.
Disponible en web:
<http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html>
BERGMAN, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of
Electronic Publishing. [en línea]. Agosto 2001. Vol. 7; Nº 1. Disponible en web:
<http://www.press.umich.edu/jep/07-01/bergman.html>
BrightPlanet.com LLC. The Deep Web: Surfacing Hidden Value. White Paper. Julio
2000
BrightPlanet.com LLC. Guide to Effective Searching of the Internet. White Paper. 2005
ELLSWORTH, Jill; ELLSWORTH, Matthew V. Marketing on the Internet: Multimedia
Strategies for the World Wide Web. New York: John Wiley & Sons, 1995
LACKIE, Robert J. Dark Hiding Places: The Invisible Web Revealed. [en línea].
Disponible en web: <http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html>
SHERMAN, Chris; PRICE, Gary. The Invisible Web: Uncovering Information Sources
Search Engines Can't See. New Jersey: Information Today Inc., 2003
Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE
OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _014
TURNER, Laura. Doing it Deeper: The Deep Web. [en línea]. [ref. de abril de 2006].
Disponible en web:
<http://www.bhsu.edu/education/edfaculty/lturner1/The%20Deep%20Web%20article1.h
tm>
WARNICK, Walter L; LEDERMAN, Abe; SCOTT, R. L.; SPENCE, Karen J.;
JOHNSON, Lorrie A.; ALLEN, Valerie S. Searching the Deep Web: Directed Query
Engine Applications at the Department of Energy. D-Lib Magazine. 2001. 7(1)
WRIGHT, Alex. In Search of the Deep Web. Salon.com. [en línea]. [ref. de marzo de
2004]. Disponible en web:
<http://www.salon.com/tech/feature/2004/03/09/deep_web/index.html>
Biografía
Farid Mokhtar Noriega. Es doctor Arquitecto por la ETSA de Madrid. Profesor de Expresión
gráfica y Nuevas Tecnologías, en la Escuela Superior de Arquitectura y Tecnología (ESAT),
Universidad Camilo José Cela. Director del Grupo de investigación ARQUITICS. Coordinador de
Doctorado e Investigación de la ESAT en la UCJC. Especialista en nuevas tecnologías aplicadas al
proyecto arquitectónico y el proceso constructivo.
Enrique Rayón Álvarez. Es Arquitecto por la ETSA de Madrid. Master en: Dirección Integral de
Proyectos por la UPM (Director de Relaciones Institucionales y profesor del mismo), Prevención
de Riesgos laborales y Dirección Comercial y Marketing por la el IMF. Profesor de Marketing
para Arquitectos y Administración de Empresas, de la ESAT en la UCJC. Miembro del Grupo de
investigación ARQUITICS.

Más contenido relacionado

PPT
Inter tecno ai y taxonomia
PDF
Clase 2 tecno i- comunicacion 2016
PPTX
Búsqueda de información
PDF
Clase 2 tecno i- comunicacion 2016
PDF
Clase 3 tecno i-2019
PPT
Clase 3 tecno i- comunicacion 2015
PDF
Clase 2 tecno 1-2019
PPTX
Trabajo final tic_johana_liceth
Inter tecno ai y taxonomia
Clase 2 tecno i- comunicacion 2016
Búsqueda de información
Clase 2 tecno i- comunicacion 2016
Clase 3 tecno i-2019
Clase 3 tecno i- comunicacion 2015
Clase 2 tecno 1-2019
Trabajo final tic_johana_liceth

La actualidad más candente (20)

PPT
Clase 2 tecno i- periodismo 2015
PPT
Clase 2 tecno i- comunicacion 2015
PDF
Clase 4 tecno i- comunicacion 2015
PPT
Internet Invisible
PDF
Clase 3 tecno i- periodismo 2016
DOCX
La we bdocx
DOCX
La web.
PDF
Clase 4 registro, fuentes y evaluación de sitios web
PDF
Clase 3 tecno i- periodismo 2015
DOC
1 formato ejemplo_estrategias_de_busquedas
DOCX
la web
PDF
Cantidad Vs Calidad
PDF
Clase 2 tecno 1-2017
PPSX
Identificando Fuentes Confiables Y Gratuitas Adem
PDF
Privacidad seguridad red
PPT
LOS PORTALES EDUCATIVOS
PPTX
Expocision tecnologia: que son los portales educativos
PPTX
Información fidedigna
PPT
Fuentes confiables en internet
Clase 2 tecno i- periodismo 2015
Clase 2 tecno i- comunicacion 2015
Clase 4 tecno i- comunicacion 2015
Internet Invisible
Clase 3 tecno i- periodismo 2016
La we bdocx
La web.
Clase 4 registro, fuentes y evaluación de sitios web
Clase 3 tecno i- periodismo 2015
1 formato ejemplo_estrategias_de_busquedas
la web
Cantidad Vs Calidad
Clase 2 tecno 1-2017
Identificando Fuentes Confiables Y Gratuitas Adem
Privacidad seguridad red
LOS PORTALES EDUCATIVOS
Expocision tecnologia: que son los portales educativos
Información fidedigna
Fuentes confiables en internet
Publicidad

Destacado (20)

PPT
Power Point Alianza Blanca
PDF
Annuaire de la délégation Française au WAQ 2015
PPTX
Jiří Král: Jak zadat výrobu webu dodavateli
DOCX
Glosario de términos.
PDF
Folleto de andrea mendoza
PDF
Istra gourmet 2013
PDF
PPTX
Brochure dis ind
PPTX
Welcome in Exclusiveboat Charters
PDF
Zenoss core beta_installation_guide_r5.0.0b2_d99.14.253
PDF
Mapa de Políticas de Empleo para Jóvenes en América Latina / Evelyn Vezza
PDF
World transport policy
DOCX
Mundo virtual Tamara Montoro Pareja
PPT
Presentación Chinchurreta Español
PDF
Deutscher AIDA Instructor Kurs 2011
PPT
Mattias Diagl - Low Budget Tooling - Excel-ent
PPT
Acegi Security System for Spring
PDF
CASE Network Studies and Analyses 342 - Institutions and Convergence (prelimi...
PPS
Wide Vision - Linked In Slide Show
PPTX
Dn12 u3 a18_rrmg
Power Point Alianza Blanca
Annuaire de la délégation Française au WAQ 2015
Jiří Král: Jak zadat výrobu webu dodavateli
Glosario de términos.
Folleto de andrea mendoza
Istra gourmet 2013
Brochure dis ind
Welcome in Exclusiveboat Charters
Zenoss core beta_installation_guide_r5.0.0b2_d99.14.253
Mapa de Políticas de Empleo para Jóvenes en América Latina / Evelyn Vezza
World transport policy
Mundo virtual Tamara Montoro Pareja
Presentación Chinchurreta Español
Deutscher AIDA Instructor Kurs 2011
Mattias Diagl - Low Budget Tooling - Excel-ent
Acegi Security System for Spring
CASE Network Studies and Analyses 342 - Institutions and Convergence (prelimi...
Wide Vision - Linked In Slide Show
Dn12 u3 a18_rrmg
Publicidad

Similar a Internet invisible universo_de_oportunidades_m2_07 (20)

PPT
internet invisible
PPTX
Infotecnología trabajo 1
PPTX
Deepweb
PPTX
ANALISIS DE INTERNET PROFUNDO E INVISIBLE
PPTX
Análisis resumido de la editorial de taringa
PPTX
Exposición Informática 2
PPTX
ANÁLISIS RESUMIDO DE LA EDITORIAL DE TARINGA "LA INTERNET PROFUNDA O INVISIBLE"
PPTX
Internet profundo y internet invisible
PPTX
Web 2.0
PPTX
LECTURA SOBRE LA INTERNET PROFUNDA O INVISIBLE
PPT
WEB INVISIBLE
PPT
metabuscadores
PPT
buscadores
PDF
La deep web
PDF
Clase 2 tecno 1-2018
PPTX
La internet profunda o invisible
PPTX
Trabajo compu
PPT
Encontrando tesoros en la Red
PPT
Tema 1 y 2 presencial ucv1
internet invisible
Infotecnología trabajo 1
Deepweb
ANALISIS DE INTERNET PROFUNDO E INVISIBLE
Análisis resumido de la editorial de taringa
Exposición Informática 2
ANÁLISIS RESUMIDO DE LA EDITORIAL DE TARINGA "LA INTERNET PROFUNDA O INVISIBLE"
Internet profundo y internet invisible
Web 2.0
LECTURA SOBRE LA INTERNET PROFUNDA O INVISIBLE
WEB INVISIBLE
metabuscadores
buscadores
La deep web
Clase 2 tecno 1-2018
La internet profunda o invisible
Trabajo compu
Encontrando tesoros en la Red
Tema 1 y 2 presencial ucv1

Más de Farid Mokhtar Noriega (18)

PDF
Creatividad e-innovación-en-tiempos-de-crisis-final
PDF
La Creatividad y las Nuevas Tecnologias en Tiempos de Crisis
PDF
ArchiInspection Project: Integrated Non Destructive Testing, A Building Infor...
PDF
Collaborative 3D Modelling and Printing: What you See is not Directly What Yo...
PDF
Unitalks, A Blended Learnign Platform for University Specific Foreign Languag...
PDF
Activities Oriented Design Environments
PDF
Analisis y diagnostico de la eficiencia energetica
PDF
Alianzas ciudadanas 2.0 para una ciudad sostenible socialmente
PDF
Hacia una visión sistémica del análisis diagnóstico yevaluación de la eficien...
PDF
La getion integrada frente al cambio del modelo productivo del sector de la c...
PDF
Disneytopia, Génesis de una Ciudad Creativa
PDF
Listado iau04
PDF
Procesamiento de datos en la investigacion de la Arquitectura
PDF
Informatica y Arquitectura Enfoques y Tendencias de la Investigacion
PDF
Adquisición de Competencias Investigadoras
PDF
Gestores de Proyectos de Innovacion
PDF
Colaboracion Universidad - Empresa
PDF
Creatividad e-innovación-en-tiempos-de-crisis-final
La Creatividad y las Nuevas Tecnologias en Tiempos de Crisis
ArchiInspection Project: Integrated Non Destructive Testing, A Building Infor...
Collaborative 3D Modelling and Printing: What you See is not Directly What Yo...
Unitalks, A Blended Learnign Platform for University Specific Foreign Languag...
Activities Oriented Design Environments
Analisis y diagnostico de la eficiencia energetica
Alianzas ciudadanas 2.0 para una ciudad sostenible socialmente
Hacia una visión sistémica del análisis diagnóstico yevaluación de la eficien...
La getion integrada frente al cambio del modelo productivo del sector de la c...
Disneytopia, Génesis de una Ciudad Creativa
Listado iau04
Procesamiento de datos en la investigacion de la Arquitectura
Informatica y Arquitectura Enfoques y Tendencias de la Investigacion
Adquisición de Competencias Investigadoras
Gestores de Proyectos de Innovacion
Colaboracion Universidad - Empresa

Último (20)

PPTX
la-historia-de-la-medicina Edna Silva.pptx
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PDF
capacitación de aire acondicionado Bgh r 410
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PPTX
modulo seguimiento 1 para iniciantes del
PDF
Maste clas de estructura metálica y arquitectura
PPTX
Sesion 1 de microsoft power point - Clase 1
PPTX
Presentación de Redes de Datos modelo osi
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
PPTX
El uso de las TIC en la vida cotidiana..
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
Diapositiva proyecto de vida, materia catedra
PPT
introduccion a las_web en el 2025_mejoras.ppt
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
la-historia-de-la-medicina Edna Silva.pptx
Zarate Quispe Alex aldayir aplicaciones de internet .docx
capacitación de aire acondicionado Bgh r 410
Presentación PASANTIAS AuditorioOO..pptx
TRABAJO DE TECNOLOGIA.pdf...........................
informe_fichas1y2_corregido.docx (2) (1).pdf
modulo seguimiento 1 para iniciantes del
Maste clas de estructura metálica y arquitectura
Sesion 1 de microsoft power point - Clase 1
Presentación de Redes de Datos modelo osi
Presentacion de Alba Curso Auditores Internos ISO 19011
Historia Inteligencia Artificial Ana Romero.pptx
El uso de las TIC en la vida cotidiana..
Guía 5. Test de orientación Vocacional 2.docx
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Diapositiva proyecto de vida, materia catedra
introduccion a las_web en el 2025_mejoras.ppt
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
Influencia-del-uso-de-redes-sociales.pdf
Documental Beyond the Code (Dossier Presentación - 2.0)

Internet invisible universo_de_oportunidades_m2_07

  • 1. Internet Invisible, universo de oportunidades y reto para una investigación eficaz RESUMEN: La presente comunicación tiene como objetivo presentar los resultados de un trabajo de investigación en la asignatura de doctorado «Investigación, Eficacia y Periferia». Su objetivo fue: identificar las características de «Internet invisible», conocer los motivos de su existencia, comprender las técnicas de ocultación de contenidos en la Red, identificar las estrategias para consultar sus contenidos, entender su importancia económica y técnica de sus contenidos, y comprender las oportunidades que ofrece a los grupos de investigación en el campo de la arquitectura y la edificación. Palabras clave: Internet, Investigación, I+D+i, Nuevas Tecnologías de la Información Dr. Farid Mokhtar Noriega Escuela Superior de Arquitectura y Tecnología (ESAT) Universidad Camilo José Cela C. Castillo de Alarcón 49. Villafranca del Castillo. Madrid 28692 918153131 (ext. 1539) Enrique Rayón Álvarez Escuela Superior de Arquitectura y Tecnología (ESAT) Universidad Camilo José Cela C. Castillo de Alarcón 49. Villafranca del Castillo. Madrid 28692 918153131 (ext. 1539)
  • 2. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _02 Introducción Los investigadores noveles y veteranos, invierten un tiempo valioso en la búsqueda infructuosa de información relevante para desarrollar sus trabajos académicos e investigaciones, la mayoría de ellos, desconocen que World Wide Web que está a su disposición sólo ofrece una pequeña porción de sus contenidos reales. Existe otra Web más extensa y de mayor calidad, que almacena en sus bases de datos invisibles para los motores de búsqueda convencionales (google, Yahoo, Askjeeves, etc.), miles de artículos científicos y técnicos de enorme valor. Cualquier usuario sin o con conocimiento informáticos avanzados, no puede consultar sus contenidos, necesita ayudas directas, indicaciones precisas y pautas específicas para localizarla y hacer un buen de ella. La mayoría de los investigadores noveles, inician su participación en los proyectos de I+D+i analizando toda la información a su alcance sobre el área de conocimiento objeto de investigación. Gracias a ella, se diseñan propuestas y se trazan objetivos. Generalmente, la información encontrada es poco relevante, de carácter divulgativo y de escasa relevancia científica. Búsquedas de mayor intensidad y más especializadas, tampoco resultados de mayor relevancia. Se localizan referencias y listados bibliográficos de escasa relevancia para el proyecto y la propuesta. Pero la realidad demuestra que las barreras y las distancias siguen existiendo y que la información no está a nuestro alcance Sólo las indicaciones precisas de un mentor que conozca: las direcciones de los sitios web y las bases de conocimiento relacionadas con la materia, pueden impedir la búsqueda sin sentido. En algunas ocasiones, el azar puede intervenir y aportar una pista inesperada, en forma de una página web o un blog especializado repleto de información y direcciones de sitios relacionados con el área de conocimiento objeto de la investigación. ¿Es fiable entonces la información científica indizada por los buscadores gratuitos? ¿Son fiables los documentos y trabajos de investigación distribuidos de forma gratuita? ¿Es posible acceder a los portales de los proyectos de investigación? ¿Son públicos los resultados de la investigación científica? ¿Dónde están las bases de datos relacionadas con la investigación avanzada en arquitectura y las tecnologías de la construcción? ¿Cuánto podría costar la información relevante? ¿Cuál es la dimensión de la nueva cultura colaborativa de Web 2.0?
  • 3. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _03 Internet Invisible El término «web invisible» fue utilizado por primera vez por la Dra. Jill Ellsworth para catalogar la información que resultaba «invisible» para los motrores de búsqueda que rastreaban la web (ELLSWORTH, 1995). Esta es también etiquetada como «web profunda» (deep web), para distinguirla de la «web superficial» (surface web) cuya información se puede rastrear con los buscadores gratuitos (BERGMAN, 2000). Un buscador es un sitio que tiene como objetivo ayudar al público en la búsqueda de información en internet. El usuario que realiza la consulta, no está buscando en el contenido real que existe en Internet, está buscando en una enorme base de datos creada de forma automática con la ayuda de buscadores automáticos que rastrea los servidores y la red en busca de referencias nuevas de forma periódica. El éxito de buscador depende del volumen de la base de datos o el directorio y la facilidad para realizar consultas en su base de datos. A pesar de su pretendida exhaustividad, se calcula que los mayores motores de búsqueda indizan sólo entre un tercio y la mitad de los documentos disponibles al público en la Red (TURNER, 2003). Un estudio de BRIGHT PLANET1 ha estimado que la información contenida en la web invisible es aproximadamente 550 veces mayor que la de la web superficial y crece a mucha mayor velocidad (BERGMAN, 2000). Un estudio posterior de Cyveillance2 calcula que el tamaño de la web profunda es 275 veces mayor que el de la web visible (MURRAY, 2000, citado en OUF, 2001). – Estimaciones posteriores, señalan que, el tamaño de la web invisible es sólo entre 2 y 50 veces mayor que el de la web visible (SHERMAN y PRICE, 2001b). Las diferencias en las cifras se deben a las diferentes metodologías utilizadas por los autores, la realidad es que la Internet Invisible crece a un ritmo superior a la investigación de herramientas de búsqueda e indización de sus contenidos. De los anteriores estudios se deducen algunas propiedades relevantes sobre Internet Invisible, entre ellas destacan (AGUILLO, 2004): − El tamaño de la información que contiene es entre 2 a 50 veces superior a la que circula en la Internet «visible», − cuenta con cientos de miles de sedes en su mayoría centros científicos y académicos (100,000 sedes, 70,000 BB.DD., 7000 categorías, 18,000 catálogos de librerías), − los recursos e información que contiene es de alta calidad, − contiene millones de artículos científicos (550 millones de registros de bases de datos, 750 veces superior a la información depositada en la librería del congreso3 ).
  • 4. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _04 ¿Porqué Internet es Invisible? Los buscadores y directorios gratuitos como Google o Yahoo, fueron creados para localizar y clasificar automáticamente4 parte de la información existente, aquella que las empresas pueden rentabilizar económicamente. La información de escaso interés comercial solo puede entorpecer el proceso de búsqueda y archivo. De hecho, gran parte de la información académica y científica, se excluye de los motores de rastreo automático de los buscadores gratuitos. En otras ocasiones, son las propias instituciones y centros tecnológicos son los que imponen las restricciones, introduciendo la estructura de sus plataformas mecanismos que eluden los programas de rastreo. No existen motivos claros para esta discriminación, cada empresa propietaria de un buscador tiene sus motivos, unos por el diseño y otros por los intereses comerciales. Algunas empresas introdujeron cambios sustanciales en sus motores de rastreo y otras como Google con su buscador especializado «Google Scholar» construyeron servicios paralelos especializados para el rastreo y clasificación de la información académica. Esta situación, es pues, la responsable de la existencia de dos redes paralelas, una visible y otra invisible. Internet visible Es una red constituida por cientos de miles de servidores de contenidos que albergan millones de páginas web, cuyas bases de datos se pueden consultar de forma gratuita o mediante el pago. Las páginas web son rastreadas y clasificadas periódicamente por los mecanismos de búsqueda, indización y catalogación. Las páginas web, están diseñadas según unos normas universales a partir de cadenas de texto organizadas gracias a el lenguaje de programación HTML (Hyper Text Markup Language) y sus diferentes variaciones. Estas normas permiten añadir etiquetas y marcadores que se pueden rastrear por los motores de indización. La información analizada es alfanumérica, los gráficos, imágenes, vídeos y algunos archivos de datos (tablas, imágenes, animaciones, etc.). El uso adecuado de palabras clave dentro de la estructura de las páginas, facilita su localización y clasificación por los buscadores Internet invisible Es una red compleja, compuesta a su vez por varias redes de información: opacas, privadas, propietarias y ocultas. Para ocultarse de los buscadores, cada una de ellas adopta normas especiales de diseño, otras por su naturaleza dinámica y cambio constante de contenidos imposibles de rastrear por su volatilidad, teniendo en cuenta que los procesos de rastreo, se realizan de forma periódica, y no en tiempo real.
  • 5. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _05 Las Redes Invisibles: tipologías Son numerosos los motivos de la invisibilidad de las páginas web, algunos son técnicos y otros son logísticos. Sherman y Price (2001a) dividen las páginas web y portales de la Web Invisible en cuatro categorías, según los problemas técnicos o estratégicos elegidos. Los cuatro tipos de Redes Invisibles son: 1- opaca, 2- privada, 3- propietaria y 4- oculta. La red opaca Son archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero se descartan por motivos como: − Economía: los buscadores no indizan todas las páginas de un sitio, − frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas web que diariamente se añaden o desaparecen, − número máximo de resultados visibles: los motores de búsqueda limitan el número de documentos que se muestran en los listados de consulta (entre 200 y 1000 documentos), − vínculos y enlaces: los buscadores, como Google, presentan los documentos en función del número de veces que aparecen referenciados en otros documentos. Si un documento no aparece referenciado en otro documento será imposible que la página sea descubierta. La red privada Son las páginas web, que podrían estar indizadas en los motores de búsqueda pero son excluidas por motivos como: − Protección por contraseñas, − presencia del archivo «robots.txt» para evitar ser indizadas. − presencia del campo «no index» para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
  • 6. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _06 La red propietaria Son aquellas páginas que requieren que el usuario se registre para tener acceso a su contenido gratuito o de pago.5 La ocultación de los contenidos puede ser por motivos técnicos (redes privadas restringidas a usuarios registrados) o comerciales (se exige el pago de cuotas de abono mensual o annual). La red oculta Son páginas web que no pueden ser indizadas por los motores de los buscadores debido a restricciones técnicas impuestas de forma voluntaria, como: − Páginas web creadas con documentos con formatos como: PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos. − Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, y varían con cada consulta. − Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Estrategias de búsqueda La búsqueda y localización de contenidos en Internet Invisible exige el uso coherente y sistemática de diferentes tipos de herramientas de búsqueda y rastreo de contenidos en Internet. Las búsquedas se apoyan en la capacidad de manejo y gestión de la información obtenida. Cada una de ellas depende de la otra, los motores no pueden tener éxito, sin una participación activa del usuario. Instrumentos de Búsqueda Cada buscador, meta buscador o directorio se especializa en la localización y selección de determinados contenidos de páginas web. Esta es la razón de la existencia de una variedad de mecanismos de búsqueda de información. Las herramientas de búsqueda de la información en Internet Invisible se asemejan a las empleadas por los usuarios de Internet Visible, las diferencias entre ambas son puntuales y se centran en su capacidad para realizar búsquedas especializadas y selectivas en áreas que no exploran las motores de rastreo.
  • 7. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _07 Los diferentes medios de búsqueda de contenidos en Internet «Visible» e «invisible», son: 1 buscadores, 2 metabuscadores, 3 directorios, 4 portales, 5 multibuscadores, 6 tutoriales, 7 motores Avanzados, Conocimientos asociados Cada medio de búsqueda rastrea la información de forma diferente. El objetivo de todos los motores de búsqueda es, conseguir el mayor número de aciertos en cada consulta. El usuario que desea realizar consultas eficaces, debe aprender las reglas exclusivas de manejo de todos los sistemas de búsqueda. Las diferencias entre ellas son sutiles, porque comparten estándares universales, difíciles de intuir o asociar. No ha lugar a la experimentación mediante la prueba y el error, la repetición de la acción no mejora los resultados. La información oculta en la parte Invisible de Internet, es difícil de indizar. La consulta y posterior archivo de información almacenada en bases de datos relacionales, requiere conocimientos especiales para la realizar tareas tales como la importación y exportación de contenidos o, la integración de herramientas de búsqueda con mecanismos de carga y descarga. Las competencias que pueden influir en la calidad de los resultados de los métodos de búsqueda son: 1 estrategias de búsqueda, 2 métodos de consulta, 3 conocimientos del área a investigar, 4 tratamiento de la información. Las tablas comparativas que vienen a continuación, muestran las características de los medios y los conocimientos asociados necesarios para la búsqueda de contenidos en internet Visible e Invisible. INTERNET VISIBLE INTERNET INVISIBLE Diseño Millones de páginas Diseño con lenguaje HTML y Flash. Millones de Páginas Diseño con lenguajes SQL, XML Contenidos Macro RED con contenidos - públicos, - privados Redes Paralelas con contenidos: - opacos, - privados - propietarios, - ocultos MEDIOS DE BÚSQUEDA Buscadores Exploran, indizan y archivan direcciones de sitios en sus bases de datos. Buscan términos y palabras específicas La exploración es: Rastrean contenidos de bases de datos y contenidos como imágenes y documentos PDF. No indizan contenidos de páginas dinámicas.
  • 8. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _08 - periódica, - automática, Calculan relevancia información según análisis estadístico de: - de frecuencia de palabras, - las páginas ligadas a otras. Consultas por: palabras espcíficas Consultas por palabras y frases Google, Tahoma, Askjeevs InvisibleWeb.com, LexiBot, Lycos Invisible Web Catalog , Incywincy Metabuscadores No poseen mecanismos propios, rastrean los buscadores existentes. Las búsquedas podrían ser: - agrupadas (en varios buscadores) - individuales (se eligen buscadores) Los resultados según relevancia Especifican las fuentes Si posibilidad de búsqueda avanzada. Consultas por: palabras Conectan con buscadores especializados en la web profunda. Con posibilidad de búsqueda avanzada. Consultas por palabras y frases Dogpile, InfoSpace, Metacrawler, Turboscout, Mamma, Completeplanet.com, Topic Hunter, profusion, Directorios Índices temáticos ordenados por categorías. Registro y clasificación Manual. Contenidos selectivos. Los editores podrían ser: - empleados, - voluntarios. La heterogeneidad de las categorías se debe a razones: - técnicas, servicios prestados - económica, cuota de inscripción Consultas por: categorías Índices temáticos especializados ordenados por categorías. creadas y mantenidas por biblitecarios o investigadores. Consultas por: categorías LookSmart y Yahoo! Infomine, librarian internet index,
  • 9. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _09 invisibleweb.com; buscopio Portales Dan acceso a páginas web y servicios varios: - buscadores, - metabuscadores, - directorios, - enlaces propios, Su calidad depende de: - servicios ofrecidos, - frecuencia de actualización. Acceso: - público - por contraseña, gratuita o suscripción Dan acceso a Páginas web especializadas y bases de datos especializadas. Acceso: - por contraseña, gratuita o suscripción MSN, Wandoo, Netscape, Web of Knowlage, internetinvisible.com, complete planet, about.com Multibuscadores Programas informáticos Se conectan a determinados buscadores Realizan búsquedas mediante - conceptos, - búsqueda avanzada simplificada. - crean listados, - generan estadísticas, - clasifican información, - eliminan duplicados Programas informáticos Se conectan a buscadores diseñados para rastrear sitios de internet visible. - búsquedas avanzadas complejas, - crean listados, - generan estadísticas, - clasifican información, - eliminan duplicados, - exportan datos a otras bases de datos Módulos (Flyswat, Kenjin y Zapper) Autónomos (Copernic Agent) Bright planet (brightplanet.com) Tutoriales Explican el uso Diferentes fórmulas de busqueda ofrecen pautas para la búsqueda de información, publican enlaces y direcciones de interés. Motores avanzados Aplicaciones a medida. Conectan con buscadores especializados. Poseen sistemas de búsqueda avanzada.
  • 10. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _010 Deep query Manager, lexibot, gigablast, singingfish, turboscout Tabla-1 Análisis comparado de características de las herramientas de búsqueda de contenidos en Internet visible e Invisible. INTERNET VISIBLE INTERNET INVISIBLE Conocimientos Asociados Estrategias de búsqueda Uso de Palabras genéricas frases sin acotar Uso de términos especializados frases acotadas Lógica booleana (AND, OR, NOT, etc.) Métodos de consulta Tanteo, Prueba y error Tanteo, criterios específicos Conocimientos del área Términos genéricos Lenguaje técnico y léxico de la materia objeto de la investigación, en una o varias lenguas Tratamiento de la información Copiar y pegar Carga y descarga archivo de contenidos Uso de bases de datos relacionales, Descarga y clasificación de datos, Enlazar bases de datos, Tratamiento de la información (adobe acrobat y flash) Transferencia de datos Tabla-2 Análisis comparado de los conocimientos asociados para la búsqueda de contenidos en Internet visible e Invisible. Causas de la invisibilidad de la información Las tablas anteriores muestran que, la invisibilidad de los contenidos técnicos y especializados se deben a criterios técnicos que condicionan los conocimientos necesarios para consultar y manipular la información. Cada red Invisible (opaca, privada, propietaria y oculta), tiene pues, exigencias concretas que condicionan su diseño y manejo. La tabla expuesta a continuación muestra algunos de rasgos compartidos y otros diferenciadores. Observamos que las diferencias son sutiles y generalmente son de carácter técnico. Los conocimientos asociados son prácticamente idénticos, salvo matices.
  • 11. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _011 TÉCNICOS Diseño CONOCIMIENTOS ASOCIADOS Consulta INTERNET OPACA los robots no indizan todos los contenidos resultados limitados Elección de terminologías específicas Frases y palabras específicas Lengua inglesa, INTERNET PRIVADA Ocultación de la información Invisibilidad voluntaria Acceso autorizado Terminologías especializadas Estado del arte Manejos de Bases de Datos Transferencia y manipulación de la información Lengua inglesa, INTERNET PROPIETARIA Financiación pública y privada Acceso restringido Terminologías especializadas Estado del arte Manejos de Bases de Datos Transferencia y manipulación de la información Lengua inglesa, INTERNET INVISIBLE Bases de Datos dinámicas Archivos documentales Publicaciones especializadas Contenidos audio visuales y gráficos protegidos Acceso restringido Coste de consulta elevado Terminologías especializadas Lengua inglesa Conocimientos informáticos avanzados Consulta y manejo de bases de datos Personalizar herramientas Tabla-2 Análisis de la invisibilidad de contenidos en Internet Invisible. La Arquitectura En Internet Invisible La mayoría de la información perteneciente a los campos de la arquitectura y la edificación pertenecen a Internet Invisible, la mayoría de los portales especializados de carácter técnico o académico son invisibles. No es necesario utilizar razonamientos, ni argumentos retóricos para justificar esta afirmación. Invitamos los lectores a que realicen búsquedas especializadas con cualquier tipo de búsqueda de los anteriormente citados. En la mayoría de los casos llegaremos a fuentes creadas por usuarios voluntarios,
  • 12. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _012 observaremos que son de escasa relevancia técnica y académica. Las escuelas de arquitectura son un claro ejemplo de invisibilidad, un importante porcentaje no aparece en las búsquedas de los buscadores. Sólo se pueden encontrar su ubicación en directorios especializados. Las empresas y fabricantes de productos del área de la construcción, restringen el acceso a sus portales y exigen el registro previo. Los contenidos publicados en sus portales privados tampoco es extenso. Conclusiones – Los datos recopilados durante varios años, revelaron aspectos desconocidos sobre la información técnica relevante y la investigación vanguardista en la RED. Se descubrieron bases de datos en línea, que almacenan información de gran interés y calidad, totalmente desconocida, – Descubrimos una World Wide Web, con cientos de fuentes de gran calidad científica y técnica totalmente invisible, una macro red, cientos de veces mayor que «Internet visible», – La calidad de la información recopilada, depende básicamente de los conocimientos del usuario sobre uso y manejo de los medios de búsqueda genéricos y especializados, – Los motores de búsqueda no usan una estándar universal para el rastreo y la indización de los datos, y consecuentemente, no ofrecen los mismos resultados. Para aumentar las opciones de éxito, es necesario utilizar varios buscadores de forma simultánea. – Los buscadores gratuitos sólo pueden rastrear las capas superficiales de Internet, carecen de capacidad para rastrear un información relevante. – Usar internet para fines investigadores requiere una formación transversal que abarca varias áreas de conocimiento como: – Estado del arte y fuentes relevantes. – Inglés técnico. – Manejo de bases de datos documentales y relacionales. – Seguridad informática. – Gestión de la información. – La localización y organización de la información Invisible sobre arquitectura es una necesidad estratégica. El futuro de los futuros proyectos de I+D dependerá de la
  • 13. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _013 capacidad de los investigadores, de acceder de forma rápida y directa a las fuentes relevantes y los centros de investigación de referencia en nuestro campo. Notas 1 BrightPlanet.com LLC.; The Deep Web: Surfacing Hidden Value; White Paper Julio; 2000 2 http://www.cyveillance.com/ 3 Según estudios recientes en la actualidad existen 15 millones de páginas web, pero un importante número de ellas no está indizado por los buscadores convencionales 4 Llamados Web Spiders 5 El 75% de la Internet invisible es gratuita Bibliografía AGUILLO, Isidro. Internet Invisible. CINDOC CSIC, IV Semana de la Ciencia. Madrid, Nov 2004 BARKER, Joe; KUPERSMITH, John. Finding Information on the Internet: A Tutorial. Teaching Library Internet Workshops. [en línea]. UC Berkeley, Agosto 2005. Disponible en web: <http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html> BERGMAN, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. [en línea]. Agosto 2001. Vol. 7; Nº 1. Disponible en web: <http://www.press.umich.edu/jep/07-01/bergman.html> BrightPlanet.com LLC. The Deep Web: Surfacing Hidden Value. White Paper. Julio 2000 BrightPlanet.com LLC. Guide to Effective Searching of the Internet. White Paper. 2005 ELLSWORTH, Jill; ELLSWORTH, Matthew V. Marketing on the Internet: Multimedia Strategies for the World Wide Web. New York: John Wiley & Sons, 1995 LACKIE, Robert J. Dark Hiding Places: The Invisible Web Revealed. [en línea]. Disponible en web: <http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html> SHERMAN, Chris; PRICE, Gary. The Invisible Web: Uncovering Information Sources Search Engines Can't See. New Jersey: Information Today Inc., 2003
  • 14. Mokhtar Noriega, Farid / Rayón Álvarez, Enrique_ INTERNET INVISIBLE, UNIVERSO DE OPORTUNIDADES Y RETO PARA UNA INVESTIGACIÓN EFICAZ _014 TURNER, Laura. Doing it Deeper: The Deep Web. [en línea]. [ref. de abril de 2006]. Disponible en web: <http://www.bhsu.edu/education/edfaculty/lturner1/The%20Deep%20Web%20article1.h tm> WARNICK, Walter L; LEDERMAN, Abe; SCOTT, R. L.; SPENCE, Karen J.; JOHNSON, Lorrie A.; ALLEN, Valerie S. Searching the Deep Web: Directed Query Engine Applications at the Department of Energy. D-Lib Magazine. 2001. 7(1) WRIGHT, Alex. In Search of the Deep Web. Salon.com. [en línea]. [ref. de marzo de 2004]. Disponible en web: <http://www.salon.com/tech/feature/2004/03/09/deep_web/index.html> Biografía Farid Mokhtar Noriega. Es doctor Arquitecto por la ETSA de Madrid. Profesor de Expresión gráfica y Nuevas Tecnologías, en la Escuela Superior de Arquitectura y Tecnología (ESAT), Universidad Camilo José Cela. Director del Grupo de investigación ARQUITICS. Coordinador de Doctorado e Investigación de la ESAT en la UCJC. Especialista en nuevas tecnologías aplicadas al proyecto arquitectónico y el proceso constructivo. Enrique Rayón Álvarez. Es Arquitecto por la ETSA de Madrid. Master en: Dirección Integral de Proyectos por la UPM (Director de Relaciones Institucionales y profesor del mismo), Prevención de Riesgos laborales y Dirección Comercial y Marketing por la el IMF. Profesor de Marketing para Arquitectos y Administración de Empresas, de la ESAT en la UCJC. Miembro del Grupo de investigación ARQUITICS.