Web superficial versus Web profunda

oct272015

Web Superficial


La idea es muy simple, la Web superficial es básicamente la que podemos encontrar y acceder directamente por medio de los buscadores, ya que la misma es localizada por las arañas de los buscadores que continuamente recorren las páginas web, almacenando la información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Este proceso está en continua ejecución por lo que termina recorriendo todas las páginas Web accesibles, importante recordar que este proceso no termina nunca.

También debemos tener en consideración, que no todas las páginas existentes son localizadas por las arañas de los diversos buscadores. Dependiendo de la fuente que consultemos el porcentaje de Web considerada superficial varia, pero todos coinciden en un punto, el porcentaje de la Web superficial es pequeñísimo en relación con el realmente existente, lo podemos comparar con un iceberg, donde la parte que realmente se ve en ambos casos es equivalente.

Web Profunda (Deep Web) 

¿Qué es la Deep Web?, básicamente, lo que los buscadores no ven, la Web Profunda es la que está compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.


Menos resumidamente, se pude decir que es todo aquello que se escapa al radar de los motores de búsqueda: información clasificada, bases de datos protegidas, páginas dinámicas o directamente diseñadas para no ser localizadas, bien porque no pueden acceder a ellas, por ser de pago y/o necesitar contraseña, bien porque ni siquiera saben que existen, al estar diseñadas en formatos invisibles para los robots rastreadores.

En 1994, la doctora Jill Ellsworth, acuñó el término Internet Invisible para referirse a la información que no podían encontrar los buscadores más comunes. En 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que compara las búsquedas en Internet con la pesca: «Solo capturas los peces que hay en la superficie; para pescar en las grandes profundidades no basta con navegar, tienes que ponerte un traje de buzo y bajar con un arpón».


También recibe varios nombres:
  • Deep Web (Internet profunda).
  • Invisible Web (Internet invisible).
  • Deep Web (Internet profunda).
  • Dark Web (Internet oscura).
  • Hidden Web (Internet oculta).
¿Cómo Buscar?, buscar en la 'Deep Web' no tiene nada que ver con googlear. Requiere el esfuerzo de consultar directorios y foros donde se proporcionan enlaces a estas páginas. Muchos de estos links quedan obsoletos en días o incluso horas por motivos de seguridad. A veces, es como buscar una aguja en un pajar inmenso... a oscuras. ¿Cómo de grande? muy grande, muy, muy grande, a principio del milenio se calculaba que la Deep Web contenía unas 500 veces más datos que la Internet superficial. En la actualidad, quien lo puede saber.

¿Que contiene la Web profunda?, como dice mi padre "En la viña del Señor", en la Deep Web hay de todo. Bibliotecas y hemerotecas completas, bases de datos universitarios, información militar y financiera, informes confidenciales, imágenes censuradas... También tiene un lado siniestro. «Permite satisfacer una necesidad genuina de anonimato, pero los cibercriminales se han aprovechado para convertir la Deep Web en una plataforma de oscuridad que les da una ventaja sobre las autoridades y las leyes», expone Jacob Thankachen, experto en seguridad.

Se puede comprar drogas, contratar sicarios, hackear cuentas, descargar vídeos atroces. También es un ecosistema propicio para compartir perversiones e ideologías extremistas o para aleccionar a terroristas. Y como todo lo oculto, genera sensacionalismo: teorías conspiranoicas y leyendas urbanas sobre ovnis, la ubicación de la Atlántida o peleas a muerte en directo con apuestas millonarias. Al final todo depende de las intenciones del usuario.
https://www.torproject.org/

¿Cómo se accede la Deep Web? La puerta de entrada más utilizada, aunque no la única, es Tor, acrónimo de The Onion Router (el encaminamiento de la cebolla). Tor es una aplicación que se puede descargar en el ordenador o en el móvil y proporciona un entorno que, en teoría, protege el anonimato de los internautas. Sirve para navegar, enviar correos y comprar y vender sin dejar rastro. El nombre alude a la cebolla, pues está formado por muchas capas. Cuando usted usa Internet, lo normal es que su ordenador se conecte al servidor de la página que quiere visitar. El servidor anota su dirección IP, que lo identifica y localiza, y envía de vuelta la página buscada. Observar todo este tráfico es sencillo para una agencia del gobierno o para un hacker. Tor dificulta ese espionaje mediante la introducción de intermediarios.

Existen muchos mitos acerca de la Web profunda, no es una región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola, ya que en ella también se alberga lo que ahora se conoce como Academic Invisible Web (AIW), Internet Académica Invisible y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.

Los recursos del internet profunda pueden estar clasificados en las siguientes categorías:

  • Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
  • Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
  • Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
  • Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
  • Sin contenido HTML: contenido textual codificado en multimedia, imagen o video, archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
  • Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión. 
  • Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso, por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior. 

Clasificación de la Web profunda según el tipo de ocultación:

Sherman y Price en su artículo The Invisible Web: Uncovering Sources Search Engines Can’t See, nos hablan de la Web invisible, y la dividen en cuatro tipo de invisibilidades: The “Opaque” Web, The Private Web, The Proprietary Web, and The Truly Invisible Web.

Web opaca: La Web opaca o la “opaque web”, consiste en archivos que podrían, pero que no están incluidos en los índices de los motores de búsqueda. La web opaca es muy grande y presenta un reto singular para un investigador. Mientras que el contenido oculto de la web realmente invisible es acesible si sabemo cómo buscar, el material de la web opaca es comúnmente más difícil que encontrar. Hay una variedad de razones por las cuales los motores de búsqueda no indizan este contenido:
  • Profundidad de la indización
  • Frecuencia de la indización
  • Máximo número de resultados visibles
  • URL desconectadas
Web privada: Se compone de archivos que no están incluidos en los motores de búsqueda, aunque se puede técnicamente indexar, por alguna de estas razones:
  • Las páginas están protegidas por contraseñas.
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indexe la parte correspondiente al cuerpo de la página.
Web propietaria: Estas páginas son accesibles a las personas que estén de acuerdo con unos términos especiales para la visualización de los contenidos. Esta restricción puede ser una simple solicitud de registro, muchas veces gratuito, que los motores de búsqueda no pueden realizar. Otro tipo de contenido propietario es el disponible solo mediante un pago o algún tipo de mecanismo de suscripción.
Web realmente invisible: Algunas páginas son realmente invisibles. Esto significa que hay razones técnicas por las cuales los motores de búsqueda no pueden indexar el material de dichas páginas, como las siguientes:
  • Páginas web que incluyen formatos como PDF, PostScript, Flash, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales, la cual no se puede extraer sin un query específico a la base de datos.

¿Por dónde empezar?, afortunadamente para todos, hay otras personas que se han hecho las mismas preguntas que nosotros y nos han dejado una serie de entradas para la web profunda que podemos aprovechar:

Recursos científicos de la Internet profunda o Internet invisible

  • La web del conocimiento: es una de las mayores bases de datos de citas del mundo con más de 54 millones de registros
  • Elseiver: es un repositorio con más de 2000 revistas de medicina y salud
  • Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
  • Pubmed: es el motor de búsqueda de medline. Contiene más de 22 millones de documentos de investigación en biomedicina
  • Ingenta: contiene revistas de más de 12.000 publicaciones
  • Us PTO: es un buscador de patentes y marcas de Estados Unidos de América
  • Espacenet: es un buscador de patentes de los países Europeos
  • Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal

Recursos estadísticos de la Internet profunda o Internet invisible

  • Eurostat: fuente estadistica de todos los países europeos
  • Usa.gov: fuente estadística de EEUU

Recursos sobre datos financieros de la Internet profunda o Internet invisible

Recursos de comercio internacional de la Internet profunda o Internet invisible

  • Comtrade: base de datos de la ONU sobre datos de import/export y códigos HS
  • Cameradata: base de datos española sobre los daos de importación y exportación
  • Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
  • Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.

Recursos sobre legislación de la Internet profunda o Internet invisible

  • Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
  • FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
Como se puede comprobar, muchos de estos recursos son conocidos y no están escondidos en ninguna parte. Lo que ocurre es que contenido no está recogido por los buscadores.

Por supuesto estos son solo unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda, como Deep Web Tech que tardan en llegar al dominio público.

Otros recursos de la web invisible

Aquí deberíamos hablar de varias herramientas como:
  • Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con más de 70.000 bases de datos y recursos
  • Infomine: un recurso de la universidad de california que cuenta con más de 100.000 enlaces a otras bases de datos
  • Scirus: es un metabuscador científico especializado en institutos y universidades de investigación
Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

Como final de este post, le dejo el documento "White Paper: The Deep Web: Surfacing Hidden Value", uno de los más completo que he leído, a pesar de estar un poco desactualizado, publicado en "the journal of electronic publishing" de la universidad de Michigan.


Saludos...
Un aprendiz

0 comentarios : ( +add yours? )

Publicar un comentario