El arte de preguntar

oct302015
0 comentarios

Hasta para preguntar hay que saber...

En las anteriores entradas del Blog se han tratado las posibilidades que nos ofrece Internet para acceder a más herramientas de búsqueda, a búsquedas avanzadas y a información que no tengan ellos indexada (Deep Web). Dicho de otra manera, hemos vistos que disponemos de una amplia variedad de herramientas que pone Internet a nuestra disposición.

Pero con eso no basta, ya que las herramientas no suplen en ningún caso la necesidad de que nosotros, como interrogadores, sepamos plantear las búsquedas de la forma correcta. En realidad no se diferencia mucho de la forma en que realizaríamos unas series de preguntas a otra persona sobre un tema en concreto o sí.

Pues en mi opinión depende, al preguntarle a un interlocutor, existen por regla general, circunstancias que facilitan que la respuesta que se nos proporcione sea la esperada con respecto a nuestra pregunta y si dichas circunstancias no se dan, intuitivamente procederemos a aclararlas al plantear la pregunta.


Pensemos en esta circunstancia:

El contexto en el que se está produciendo la pregunta. No es lo mismo preguntar sobre una duda, por ejemplo filosófica, a un profesor mientras estamos en plena clase magistral sobre la visión de un filósofo sobre un tema concreto, que si le preguntamos al encontrárnoslo por la calle varios días después, en este caso deberemos ponerle en contexto, indicándole, el tema sobre el que versaba la clase, el concepto concreto, el autor cuya visión se analizaba, etc.

Y que sucede con las preguntas en Internet, pues que si todas estas aclaraciones que le realizamos a nuestro profesor al encontrárnoslo por la calle, se las proporcionamos a las herramientas con lo que denominamos palabras claves, obtendremos mejores resultados. Estas palabras claves las dividiremos en los tres siguiente tipos:
    1. Las palabras claves de campo temático: Son los nombres de las disciplinas y los términos imprescindibles que no pueden dejar de estar mencionadas en un documento que habla del tema de nuestra pregunta.
    2. Las palabras claves de problema específico: Son frases breves que mencionan el asunto o su núcleo problemático más específico. En realidad, no son palabras claves, sino frases específicas o expresiones claves, segmentos de texto insertos en un contexto que intentamos rescatar. Por eso es aconsejable incluir expresiones “en uso” que tengan que ver con el lenguaje que utilizamos habitualmente.
    3. Las palabras claves de referencias autorales: Son nombres de autores que se encuentran directamente relacionados con el problema, y que son considerados clásicos o referentes importantes en la materia. Sirven para identificar apellidos en listas bibliográficas que no siempre incluyen el nombre del autor, por lo tanto, es conveniente incluir sólo apellidos.
        Aunque entiendo que esta división de las palabras claves es útil en la realización de búsquedas con cualquier herramienta adaptándolas a las opciones avanzadas que nos proporcione, en este caso están enfocadas a la realización de búsquedas en el Google Académico.

        El objetivo que he planteado para mi búsqueda es encontrar algún documento que trate sobre el manejo de cálculos numéricos basado en el lenguaje de programación C.

        Se procede a continuación a introducir las palabras clave en cada categoría:

        Palabras de campo temático (con todas las palabras: programación informática estructurada Kernighan Ritchie
        Palabras de problema específico (con la frase exacta): " lenguaje C"

        En la siguiente captura podemos ver las distintas palabras claves introducidas












        Y esto ha dado: aproximadamente 88 resultados

        Para afinar la buzqueda, ya que conozco la existencia de un trabajo relizado por el Sr. Torres Moreno, lo incluyo en el campor correspondiente:

        Palabras de referencia autoral (Mostrar artículos escritos por): Moreno

        Y el resultado son solo 4 entradas, donde la primera es ...

        Saludos...
        Un aprendiz

        Web superficial versus Web profunda

        oct272015
        0 comentarios

        Web Superficial


        La idea es muy simple, la Web superficial es básicamente la que podemos encontrar y acceder directamente por medio de los buscadores, ya que la misma es localizada por las arañas de los buscadores que continuamente recorren las páginas web, almacenando la información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Este proceso está en continua ejecución por lo que termina recorriendo todas las páginas Web accesibles, importante recordar que este proceso no termina nunca.

        También debemos tener en consideración, que no todas las páginas existentes son localizadas por las arañas de los diversos buscadores. Dependiendo de la fuente que consultemos el porcentaje de Web considerada superficial varia, pero todos coinciden en un punto, el porcentaje de la Web superficial es pequeñísimo en relación con el realmente existente, lo podemos comparar con un iceberg, donde la parte que realmente se ve en ambos casos es equivalente.

        Web Profunda (Deep Web) 

        ¿Qué es la Deep Web?, básicamente, lo que los buscadores no ven, la Web Profunda es la que está compuesta por toda la información y bases de datos a las que los motores de búsqueda y directorios no tienen acceso directo.


        Menos resumidamente, se pude decir que es todo aquello que se escapa al radar de los motores de búsqueda: información clasificada, bases de datos protegidas, páginas dinámicas o directamente diseñadas para no ser localizadas, bien porque no pueden acceder a ellas, por ser de pago y/o necesitar contraseña, bien porque ni siquiera saben que existen, al estar diseñadas en formatos invisibles para los robots rastreadores.

        En 1994, la doctora Jill Ellsworth, acuñó el término Internet Invisible para referirse a la información que no podían encontrar los buscadores más comunes. En 2000, un estudio de la consultora estadounidense BrightPlanet, elaborado por Michael Bergman, confirmaba y explicaba la existencia de una Red profunda, que compara las búsquedas en Internet con la pesca: «Solo capturas los peces que hay en la superficie; para pescar en las grandes profundidades no basta con navegar, tienes que ponerte un traje de buzo y bajar con un arpón».


        También recibe varios nombres:
        • Deep Web (Internet profunda).
        • Invisible Web (Internet invisible).
        • Deep Web (Internet profunda).
        • Dark Web (Internet oscura).
        • Hidden Web (Internet oculta).
        ¿Cómo Buscar?, buscar en la 'Deep Web' no tiene nada que ver con googlear. Requiere el esfuerzo de consultar directorios y foros donde se proporcionan enlaces a estas páginas. Muchos de estos links quedan obsoletos en días o incluso horas por motivos de seguridad. A veces, es como buscar una aguja en un pajar inmenso... a oscuras. ¿Cómo de grande? muy grande, muy, muy grande, a principio del milenio se calculaba que la Deep Web contenía unas 500 veces más datos que la Internet superficial. En la actualidad, quien lo puede saber.

        ¿Que contiene la Web profunda?, como dice mi padre "En la viña del Señor", en la Deep Web hay de todo. Bibliotecas y hemerotecas completas, bases de datos universitarios, información militar y financiera, informes confidenciales, imágenes censuradas... También tiene un lado siniestro. «Permite satisfacer una necesidad genuina de anonimato, pero los cibercriminales se han aprovechado para convertir la Deep Web en una plataforma de oscuridad que les da una ventaja sobre las autoridades y las leyes», expone Jacob Thankachen, experto en seguridad.

        Se puede comprar drogas, contratar sicarios, hackear cuentas, descargar vídeos atroces. También es un ecosistema propicio para compartir perversiones e ideologías extremistas o para aleccionar a terroristas. Y como todo lo oculto, genera sensacionalismo: teorías conspiranoicas y leyendas urbanas sobre ovnis, la ubicación de la Atlántida o peleas a muerte en directo con apuestas millonarias. Al final todo depende de las intenciones del usuario.
        https://www.torproject.org/

        ¿Cómo se accede la Deep Web? La puerta de entrada más utilizada, aunque no la única, es Tor, acrónimo de The Onion Router (el encaminamiento de la cebolla). Tor es una aplicación que se puede descargar en el ordenador o en el móvil y proporciona un entorno que, en teoría, protege el anonimato de los internautas. Sirve para navegar, enviar correos y comprar y vender sin dejar rastro. El nombre alude a la cebolla, pues está formado por muchas capas. Cuando usted usa Internet, lo normal es que su ordenador se conecte al servidor de la página que quiere visitar. El servidor anota su dirección IP, que lo identifica y localiza, y envía de vuelta la página buscada. Observar todo este tráfico es sencillo para una agencia del gobierno o para un hacker. Tor dificulta ese espionaje mediante la introducción de intermediarios.

        Existen muchos mitos acerca de la Web profunda, no es una región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola, ya que en ella también se alberga lo que ahora se conoce como Academic Invisible Web (AIW), Internet Académica Invisible y se refiere a todas las bases de datos que contienen avances tecnológicos, publicaciones científicas, y material académico en general.

        Los recursos del internet profunda pueden estar clasificados en las siguientes categorías:

        • Contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.
        • Contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
        • Contenido no enlazado: páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo web tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
        • Contenido programado: páginas que solo son accesibles a través de enlaces producidos por JavaScript, así como el contenido descargado de manera dinámica a partir de los servidores web a través de soluciones de Flash o Ajax.
        • Sin contenido HTML: contenido textual codificado en multimedia, imagen o video, archivos o formatos de archivo específicos no tratados por los motores de búsqueda.
        • Web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión. 
        • Web contextual: páginas con contenidos diferentes para diferentes contextos de acceso, por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación anterior. 

        Clasificación de la Web profunda según el tipo de ocultación:

        Sherman y Price en su artículo The Invisible Web: Uncovering Sources Search Engines Can’t See, nos hablan de la Web invisible, y la dividen en cuatro tipo de invisibilidades: The “Opaque” Web, The Private Web, The Proprietary Web, and The Truly Invisible Web.

        Web opaca: La Web opaca o la “opaque web”, consiste en archivos que podrían, pero que no están incluidos en los índices de los motores de búsqueda. La web opaca es muy grande y presenta un reto singular para un investigador. Mientras que el contenido oculto de la web realmente invisible es acesible si sabemo cómo buscar, el material de la web opaca es comúnmente más difícil que encontrar. Hay una variedad de razones por las cuales los motores de búsqueda no indizan este contenido:
        • Profundidad de la indización
        • Frecuencia de la indización
        • Máximo número de resultados visibles
        • URL desconectadas
        Web privada: Se compone de archivos que no están incluidos en los motores de búsqueda, aunque se puede técnicamente indexar, por alguna de estas razones:
        • Las páginas están protegidas por contraseñas.
        • Contienen un archivo “robots.txt” para evitar ser indizadas.
        • Contienen un campo “noindex” para evitar que el buscador indexe la parte correspondiente al cuerpo de la página.
        Web propietaria: Estas páginas son accesibles a las personas que estén de acuerdo con unos términos especiales para la visualización de los contenidos. Esta restricción puede ser una simple solicitud de registro, muchas veces gratuito, que los motores de búsqueda no pueden realizar. Otro tipo de contenido propietario es el disponible solo mediante un pago o algún tipo de mecanismo de suscripción.
        Web realmente invisible: Algunas páginas son realmente invisibles. Esto significa que hay razones técnicas por las cuales los motores de búsqueda no pueden indexar el material de dichas páginas, como las siguientes:
        • Páginas web que incluyen formatos como PDF, PostScript, Flash, programas ejecutables y archivos comprimidos.
        • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
        • Información almacenada en bases de datos relacionales, la cual no se puede extraer sin un query específico a la base de datos.

        ¿Por dónde empezar?, afortunadamente para todos, hay otras personas que se han hecho las mismas preguntas que nosotros y nos han dejado una serie de entradas para la web profunda que podemos aprovechar:

        Recursos científicos de la Internet profunda o Internet invisible

        • La web del conocimiento: es una de las mayores bases de datos de citas del mundo con más de 54 millones de registros
        • Elseiver: es un repositorio con más de 2000 revistas de medicina y salud
        • Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
        • Pubmed: es el motor de búsqueda de medline. Contiene más de 22 millones de documentos de investigación en biomedicina
        • Ingenta: contiene revistas de más de 12.000 publicaciones
        • Us PTO: es un buscador de patentes y marcas de Estados Unidos de América
        • Espacenet: es un buscador de patentes de los países Europeos
        • Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal

        Recursos estadísticos de la Internet profunda o Internet invisible

        • Eurostat: fuente estadistica de todos los países europeos
        • Usa.gov: fuente estadística de EEUU

        Recursos sobre datos financieros de la Internet profunda o Internet invisible

        Recursos de comercio internacional de la Internet profunda o Internet invisible

        • Comtrade: base de datos de la ONU sobre datos de import/export y códigos HS
        • Cameradata: base de datos española sobre los daos de importación y exportación
        • Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
        • Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.

        Recursos sobre legislación de la Internet profunda o Internet invisible

        • Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
        • FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
        Como se puede comprobar, muchos de estos recursos son conocidos y no están escondidos en ninguna parte. Lo que ocurre es que contenido no está recogido por los buscadores.

        Por supuesto estos son solo unos pocos ejemplos y no llegan ni a una minúscula parte de lo que hay por ahí fuera. De hecho siempre aparecen nuevas herramientas o directorios de acceso a la web profunda, como Deep Web Tech que tardan en llegar al dominio público.

        Otros recursos de la web invisible

        Aquí deberíamos hablar de varias herramientas como:
        • Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con más de 70.000 bases de datos y recursos
        • Infomine: un recurso de la universidad de california que cuenta con más de 100.000 enlaces a otras bases de datos
        • Scirus: es un metabuscador científico especializado en institutos y universidades de investigación
        Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

        Como final de este post, le dejo el documento "White Paper: The Deep Web: Surfacing Hidden Value", uno de los más completo que he leído, a pesar de estar un poco desactualizado, publicado en "the journal of electronic publishing" de la universidad de Michigan.


        Saludos...
        Un aprendiz