Web Invisible Web Invisible En el contenido de
Web Invisible
Web Invisible • En el contenido de la Web pueden distinguirse dos partes: - Web Superficial (Surface. Web) - Web Profunda (Deep. Web)
La Web Superficial • Es lo que se conoce como WWW: - Está compuesta por un conjunto de páginas estáticas públicamente accesibles. - Constituye una porción relativamente muy pequeña de toda la Web (un 17% aproximadamente). - La información que se recupera debe ser cuidadosamente evaluada y validada.
La Web Profunda • Se conoce como Web Invisible y se compone de: - Contenidos dinámicos: páginas dinámicas que retornan en respuesta a una búsqueda o accedidas sólo por una vía. - Contenidos no enlazados: páginas que no tienen vínculos entrantes desde otras páginas.
La Web Profunda - Contenidos de acceso limitado: que requieren registrarse o que limitan el acceso a sus páginas, prohibiendo que los buscadores los incluyan en sus bases de datos. - Contenidos “scripted”: páginas que solamente son accesibles a través de enlaces producidos por Java. Script y Flash, las cuales requieren un tratamiento especial. - Contenidos no textuales: archivos multimedia, en otros formatos o “usenet”
Clasificación de La Web Profunda OPACA PRIVADA Web… PROPIETARIA REALMENTE INVISIBLE
La Web Opaca • Se compone de todas aquellas páginas que son excluidas por: - extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores. - Frecuencia de la indización: los buscadores indexan de forma periódica y la WWW cambia diariamente. - Número máximo de resultados visibles: se limita a los 200 y 1000 documentos, si bien el número de resultados es mayor. - URL’s desconectados: los buscadores presentan los resultados en base a la cantidad de referencias o enlaces a los sitios, caso contrario la página no será indizada.
La Web Privada • Las páginas Web son excluidas por alguna de estas causas: - Se encuentran protegidas por contraseñas. - Contienen un archivo “robots. txt” para evitar ser indizadas. - Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
La Web Propietaria • Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito.
La Web realmente invisible • Las páginas no son indizadas por las siguientes razones: - Incluyen formatos como PDF, Post. Script, Flash, Shockwave, programas ejecutables y archivos comprimidos. - Se generan dinámicamente, a partir de datos que introduce el usuario. - Almacenan la información en bases de datos, que no puede ser extraída a menos que se realice una petición específica.
¿Cómo buscar en la Web invisible? - Los buscadores tradicionales han añadido funcionalidades adicionales para la búsqueda en la llamada Web profunda. - También existen buscadores especializados en ese segmento de la Web, que no sólo buscan en la Web superficial, sino también en la Web Invisible.
Forman parte de la Web profunda - Las bibliotecas: digitales, catálogos de bibliotecas, bases de datos bibliográficas. - Bases de datos. - Revistas electrónicas y archivos de documentos. - Documentos en formatos no indizables, (pdf, ppt, doc, mp 3, wav, avi, mpeg, etc. ) - Catálogos de editoriales, Directorios de Publicaciones periódicas.
Forman parte de la Web profunda - Archivos (instituciones y organismos de gobierno). - Repositorios de artículos de revistas, tesis y literatura gris. - Directorios de bases de datos - Guías de sitios, Revistas electrónicas, Obras de referencia: enciclopedias, diccionarios, tesauros, etc. - Foro, Blogs, Noticias (diarios). - Sitios de remates, Paginas blancas/amarillas, Directorios
Forman parte de la Web profunda - Revistas electrónicas, en las que es necesario un registro previo y las que sólo se puede recuperar la información mediante búsquedas en su base de datos. - Organismos públicos de gobierno, ONGs, etc. , que en sus sitios web disponen de consultas a sus bases de datos.
Directorios de Bibliotecas
Catálogos Directivos
Libros
Base de datos Bibliográficas
Herramientas para el manejo de referencias bibliográficas
Directorios en Internet Invisible
Tesis
Fuentes multidisciplinarias
Archivos y depósitos de documentos
Revistas electrónicas y directorios
Archivos y depósitos de documentos
Localización de la información en la Web Invisible
El archivo de Internet - Asume el reto de preservar el pasado de Internet - La mayor parte de la información que contiene es estadounidense. - Se ingresa a través del sitio: http: //www. archive. org/index. ph p - De sus secciones se destaca Wayback MAchine, que contiene miles de millones de páginas, grabadas desde 1996
- Slides: 28