Web Superficial

La idea es muy simple, la Web
superficial es básicamente la que podemos encontrar y acceder directamente por
medio de los buscadores, ya que la misma es localizada por las arañas de los
buscadores que continuamente recorren las páginas web, almacenando la información
que contienen y buscando enlaces a otros sitios web para seguir actualizando
sus bases de datos. Este proceso está en continua ejecución por lo que termina
recorriendo todas las páginas Web accesibles, importante recordar que este
proceso no termina nunca.
También debemos tener en consideración, que no todas las páginas existentes son localizadas por las arañas de los diversos buscadores. Dependiendo de la fuente que consultemos el porcentaje de Web considerada superficial varia, pero todos coinciden en un punto, el porcentaje de la Web superficial es pequeñísimo en relación con el realmente existente, lo podemos comparar con un iceberg, donde la parte que realmente se ve en ambos casos es equivalente.
Web Profunda (Deep Web)
¿Qué es la Deep Web?, básicamente, lo que los buscadores no ven, la Web Profunda es la que está compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.
Menos resumidamente, se pude decir que es todo aquello que se escapa al radar de los motores de búsqueda: información clasificada, bases de datos protegidas, páginas dinámicas o directamente diseñadas para no ser localizadas, bien porque no pueden acceder a ellas, por ser de pago y/o necesitar contraseña, bien porque ni siquiera saben que existen, al estar diseñadas en formatos invisibles para los robots rastreadores.
En
1994, la doctora Jill Ellsworth, acuñó el término Internet Invisible para
referirse a la información que no podían encontrar los buscadores más comunes.
En 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por
Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que compara las búsquedas en Internet con la pesca: «Solo capturas los peces que hay en la superficie; para pescar en las grandes profundidades no basta con navegar, tienes que ponerte un traje de buzo y bajar con un arpón».
También recibe varios nombres:
- Deep Web (Internet profunda).
- Invisible Web (Internet invisible).
- Deep Web (Internet profunda).
- Dark Web (Internet oscura).
- Hidden Web (Internet oculta).
¿Cómo Buscar?, buscar en la 'Deep Web' no tiene nada que ver con googlear. Requiere el esfuerzo de consultar directorios y foros donde se proporcionan enlaces a estas páginas. Muchos de estos links quedan obsoletos en días o incluso horas por motivos de seguridad. A veces, es como buscar una aguja en un pajar inmenso... a oscuras. ¿Cómo de grande? muy grande, muy, muy grande, a principio del milenio se calculaba que la Deep Web contenía unas 500 veces más datos que la Internet superficial. En la actualidad, quien lo puede saber.
¿Que contiene la Web profunda?, como dice mi padre "En la viña del Señor",
en la Deep Web hay de todo. Bibliotecas y hemerotecas completas, bases de datos
universitarios, información militar y financiera, informes confidenciales,
imágenes censuradas... También tiene un lado siniestro. «Permite satisfacer una
necesidad genuina de anonimato, pero los cibercriminales se han aprovechado
para convertir la Deep Web en una plataforma de oscuridad que les da una
ventaja sobre las autoridades y las leyes», expone Jacob Thankachen, experto en
seguridad.
Se puede comprar drogas, contratar sicarios, hackear
cuentas, descargar vídeos atroces. También es un ecosistema propicio para
compartir perversiones e ideologías extremistas o para aleccionar a
terroristas. Y como todo lo oculto, genera sensacionalismo: teorías
conspiranoicas y leyendas urbanas sobre ovnis, la ubicación de la Atlántida o
peleas a muerte en directo con apuestas millonarias. Al final todo depende de las
intenciones del usuario.

¿Cómo se accede la Deep Web? La puerta de entrada más utilizada, aunque no la única, es
Tor, acrónimo de The Onion Router (el encaminamiento de la cebolla). Tor es una aplicación que se puede descargar en el ordenador o en el móvil y proporciona un entorno que, en teoría, protege el anonimato de los internautas. Sirve para navegar, enviar correos y comprar y vender sin dejar rastro. El nombre alude a la cebolla, pues está formado por muchas capas. Cuando usted usa Internet, lo normal es que su ordenador se conecte al servidor de la página que quiere visitar. El servidor anota su dirección IP, que lo identifica y localiza, y envía de vuelta la página buscada. Observar todo este tráfico es sencillo para una agencia del gobierno o para un hacker. Tor dificulta ese espionaje mediante la introducción de intermediarios.
Existen muchos mitos acerca de la Web profunda, no es una región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola, ya que en ella también se alberga lo que ahora se conoce como Academic Invisible Web (AIW), Internet Académica Invisible y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.
Los recursos del internet profunda pueden estar clasificados en las siguientes categorías:
- Contenido de acceso limitado: los sitios que limitan
el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el
estándar de exclusión de robots o captcha, que prohíben los motores de
búsqueda de la navegación por y la creación de copias en caché.
- Contenido dinámico: las páginas dinámicas que
devuelven respuesta a una pregunta presentada o acceder a través de un
formulario, especialmente si se utilizan elementos de entrada en el
dominio abierto como campos de texto.
- Contenido no enlazado: páginas que no están conectadas
con otras páginas, que pueden impedir que los programas de rastreo web
tengan acceso al contenido. Este material se conoce como páginas sin
enlaces entrantes.
- Contenido programado: páginas que solo son accesibles
a través de enlaces producidos por JavaScript, así como el contenido
descargado de manera dinámica a partir de los servidores web a través de
soluciones de Flash o Ajax.
- Sin contenido HTML: contenido textual codificado en
multimedia, imagen o video, archivos o formatos de archivo específicos no
tratados por los motores de búsqueda.
- Web privada: los sitios que requieren de registro y de
una contraseña para iniciar sesión.
- Web contextual:
páginas con contenidos diferentes para diferentes contextos de acceso, por
ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación
anterior.
Clasificación de la Web profunda según el tipo de ocultación:
Sherman y Price en su artículo The Invisible Web: Uncovering Sources Search Engines Can’t See, nos hablan de la Web invisible, y la dividen en cuatro tipo de invisibilidades: The “Opaque” Web, The Private Web, The Proprietary Web, and The Truly Invisible Web.
Web opaca: La Web opaca o la “opaque web”, consiste en archivos que podrían, pero que no están incluidos en los índices de los motores de búsqueda. La web opaca es muy grande y presenta un reto singular para un investigador. Mientras que el contenido oculto de la web realmente invisible es acesible si sabemo cómo buscar, el material de la web opaca es comúnmente más difícil que encontrar. Hay una variedad de razones por las cuales los motores de búsqueda no indizan este contenido:
- Profundidad de la indización
- Frecuencia de la indización
- Máximo número de resultados visibles
- URL desconectadas
Web privada: Se compone de archivos que no están incluidos en los motores de búsqueda, aunque se puede técnicamente indexar, por alguna de estas razones:
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador indexe la parte correspondiente al cuerpo de la página.
Web propietaria: Estas páginas son accesibles a las personas que estén de acuerdo con unos términos especiales para la visualización de los contenidos. Esta restricción puede ser una simple solicitud de registro, muchas veces gratuito, que los motores de búsqueda no pueden realizar. Otro tipo de contenido propietario es el disponible solo mediante un pago o algún tipo de mecanismo de suscripción.
Web realmente invisible: Algunas páginas son realmente
invisibles. Esto significa que hay razones técnicas por las cuales los motores
de búsqueda no pueden indexar el material de dichas páginas, como las
siguientes:
- Páginas web que incluyen formatos como PDF, PostScript,
Flash, programas ejecutables y archivos comprimidos.
- Páginas generadas dinámicamente, es decir, que se generan a
partir de datos que introduce el usuario.
- Información almacenada en bases de datos relacionales, la
cual no se puede extraer sin un query específico a la base de datos.
¿Por dónde empezar?, afortunadamente para todos, hay otras personas que se han
hecho las mismas preguntas que nosotros y nos han dejado una serie de entradas
para la web profunda que podemos aprovechar:
Recursos científicos de la Internet profunda o
Internet invisible
- La web del conocimiento:
es una de las mayores bases de datos de citas del mundo con más de 54
millones de registros
- Elseiver: es un
repositorio con más de 2000 revistas de medicina y salud
- Science Direct: más
de 2.500 revistas científicas y más de 11.000 libros
- Pubmed: es
el motor de búsqueda de medline. Contiene más de 22 millones de documentos
de investigación en biomedicina
- Ingenta:
contiene revistas de más de 12.000 publicaciones
- Us PTO:
es un buscador de patentes y marcas de Estados Unidos de América
- Espacenet: es un
buscador de patentes de los países Europeos
- Latipat:
Bajo la plataforma de espacenet agrega resultados de patentes de países de
Latinoamérica, España y Portugal
Recursos estadísticos de la Internet profunda o
Internet invisible
- Eurostat:
fuente estadistica de todos los países europeos
- Usa.gov:
fuente estadística de EEUU
Recursos sobre datos financieros de la Internet
profunda o Internet invisible
Recursos de comercio internacional de la
Internet profunda o Internet invisible
- Comtrade: base de datos
de la ONU sobre datos de import/export y códigos HS
- Cameradata: base de
datos española sobre los daos de importación y exportación
- Market
access database: datos sobre tarifas arancelarias en los distintos
países de destino a las exportaciones
- Organización mundial de
comercio: recoge informaciones legales sobre el comercio
internacional.
Recursos sobre legislación de la Internet
profunda o Internet invisible
- Eurolex:
incluye toda la información legal y disposiciones sobre la legislación y
tratados europeos
- FDA: es la
agencia de alimentación de EEUU aqui puedes encontrar todas las
regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
Como se puede comprobar, muchos de estos recursos son
conocidos y no están escondidos en ninguna parte. Lo que ocurre es que contenido no está recogido
por los buscadores.
Por supuesto estos son solo unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda, como
Deep Web Tech que tardan en llegar al dominio público.
Otros recursos de la web invisible
Aquí deberíamos hablar de varias herramientas
como:
- Complete
planet: Una herramienta que lleva ya muchos años
considerándose una de las puertas de acceso principal a la Internet
profunda. Este es un directorio con más de 70.000 bases de datos y
recursos
- Infomine: un recurso
de la universidad de california que cuenta con más de 100.000 enlaces a
otras bases de datos
- Scirus: es un
metabuscador científico especializado en institutos y universidades de
investigación
Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.
Como final de este post, le dejo el documento "White
Paper:
The Deep Web: Surfacing Hidden Value", uno de los más completo que
he leído, a pesar de estar un poco desactualizado, publicado en
"the
journal of electronic publishing" de la universidad de Michigan.
Saludos...
Un aprendiz