Web Superficial

También debemos tener en consideración, que no todas las páginas existentes son localizadas por las arañas de los diversos buscadores. Dependiendo de la fuente que consultemos el porcentaje de Web considerada superficial varia, pero todos coinciden en un punto, el porcentaje de la Web superficial es pequeñísimo en relación con el realmente existente, lo podemos comparar con un iceberg, donde la parte que realmente se ve en ambos casos es equivalente.
Web Profunda (Deep Web)
¿Qué es la Deep Web?, básicamente, lo que los buscadores no ven, la Web Profunda es la que está compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.
Menos resumidamente, se pude decir que es todo aquello que se escapa al radar de los motores de búsqueda: información clasificada, bases de datos protegidas, páginas dinámicas o directamente diseñadas para no ser localizadas, bien porque no pueden acceder a ellas, por ser de pago y/o necesitar contraseña, bien porque ni siquiera saben que existen, al estar diseñadas en formatos invisibles para los robots rastreadores.
En 1994, la doctora Jill Ellsworth, acuñó el término Internet Invisible para referirse a la información que no podían encontrar los buscadores más comunes. En 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que compara las búsquedas en Internet con la pesca: «Solo capturas los peces que hay en la superficie; para pescar en las grandes profundidades no basta con navegar, tienes que ponerte un traje de buzo y bajar con un arpón».
También recibe varios nombres:
- Deep Web (Internet profunda).
- Invisible Web (Internet invisible).
- Deep Web (Internet profunda).
- Dark Web (Internet oscura).
- Hidden Web (Internet oculta).
¿Que contiene la Web profunda?, como dice mi padre "En la viña del Señor",
en la Deep Web hay de todo. Bibliotecas y hemerotecas completas, bases de datos
universitarios, información militar y financiera, informes confidenciales,
imágenes censuradas... También tiene un lado siniestro. «Permite satisfacer una
necesidad genuina de anonimato, pero los cibercriminales se han aprovechado
para convertir la Deep Web en una plataforma de oscuridad que les da una
ventaja sobre las autoridades y las leyes», expone Jacob Thankachen, experto en
seguridad.
Se puede comprar drogas, contratar sicarios, hackear
cuentas, descargar vídeos atroces. También es un ecosistema propicio para
compartir perversiones e ideologías extremistas o para aleccionar a
terroristas. Y como todo lo oculto, genera sensacionalismo: teorías
conspiranoicas y leyendas urbanas sobre ovnis, la ubicación de la Atlántida o
peleas a muerte en directo con apuestas millonarias. Al final todo depende de las
intenciones del usuario.
¿Cómo se accede la Deep Web? La puerta de entrada más utilizada, aunque no la única, es Tor, acrónimo de The Onion Router (el encaminamiento de la cebolla). Tor es una aplicación que se puede descargar en el ordenador o en el móvil y proporciona un entorno que, en teoría, protege el anonimato de los internautas. Sirve para navegar, enviar correos y comprar y vender sin dejar rastro. El nombre alude a la cebolla, pues está formado por muchas capas. Cuando usted usa Internet, lo normal es que su ordenador se conecte al servidor de la página que quiere visitar. El servidor anota su dirección IP, que lo identifica y localiza, y envía de vuelta la página buscada. Observar todo este tráfico es sencillo para una agencia del gobierno o para un hacker. Tor dificulta ese espionaje mediante la introducción de intermediarios.
Existen muchos mitos acerca de la Web profunda, no es una región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola, ya que en ella también se alberga lo que ahora se conoce como Academic Invisible Web (AIW), Internet Académica Invisible y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.
Los recursos del internet profunda pueden estar clasificados en las siguientes categorías:
- Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
- Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
- Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
- Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
- Sin contenido HTML: contenido textual codificado en multimedia, imagen o video, archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
- Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión.
- Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso, por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior.
Clasificación de la Web profunda según el tipo de ocultación:
- Profundidad de la indización
- Frecuencia de la indización
- Máximo número de resultados visibles
- URL desconectadas
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador indexe la parte correspondiente al cuerpo de la página.
Web propietaria: Estas páginas son accesibles a las personas que estén de acuerdo con unos términos especiales para la visualización de los contenidos. Esta restricción puede ser una simple solicitud de registro, muchas veces gratuito, que los motores de búsqueda no pueden realizar. Otro tipo de contenido propietario es el disponible solo mediante un pago o algún tipo de mecanismo de suscripción.
Web realmente invisible: Algunas páginas son realmente
invisibles. Esto significa que hay razones técnicas por las cuales los motores
de búsqueda no pueden indexar el material de dichas páginas, como las
siguientes:
- Páginas web que incluyen formatos como PDF, PostScript, Flash, programas ejecutables y archivos comprimidos.
- Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
- Información almacenada en bases de datos relacionales, la cual no se puede extraer sin un query específico a la base de datos.
Recursos científicos de la Internet profunda o Internet invisible
- La web del conocimiento: es una de las mayores bases de datos de citas del mundo con más de 54 millones de registros
- Elseiver: es un repositorio con más de 2000 revistas de medicina y salud
- Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
- Pubmed: es el motor de búsqueda de medline. Contiene más de 22 millones de documentos de investigación en biomedicina
- Ingenta: contiene revistas de más de 12.000 publicaciones
- Us PTO: es un buscador de patentes y marcas de Estados Unidos de América
- Espacenet: es un buscador de patentes de los países Europeos
- Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal
Recursos estadísticos de la Internet profunda o Internet invisible
Recursos sobre datos financieros de la Internet profunda o Internet invisible
- Bureau Van Dijk: bases de datos de los registros mercantiles de países de la OCDE
- Duns and Bradstreet: informes financieros de todas las empresas del mundo
- e-informa y Axesor: datos financieros de empresas españolas y listados de marketing
Recursos de comercio internacional de la Internet profunda o Internet invisible
- Comtrade: base de datos de la ONU sobre datos de import/export y códigos HS
- Cameradata: base de datos española sobre los daos de importación y exportación
- Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
- Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.
Recursos sobre legislación de la Internet profunda o Internet invisible
- Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
- FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
Como se puede comprobar, muchos de estos recursos son
conocidos y no están escondidos en ninguna parte. Lo que ocurre es que contenido no está recogido
por los buscadores.
Otros recursos de la web invisible
Aquí deberíamos hablar de varias herramientas
como:
- Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con más de 70.000 bases de datos y recursos
- Infomine: un recurso de la universidad de california que cuenta con más de 100.000 enlaces a otras bases de datos
- Scirus: es un metabuscador científico especializado en institutos y universidades de investigación
Como final de este post, le dejo el documento "White
Paper: The Deep Web: Surfacing Hidden Value", uno de los más completo que
he leído, a pesar de estar un poco desactualizado, publicado en "the
journal of electronic publishing" de la universidad de Michigan.
Saludos...
Un aprendiz
Un aprendiz
0 comentarios : ( +add yours? )
Publicar un comentario