COLECCIONES DIGITALES CONVERTIDAS FORMATOS Y LENGUAJES Biblioteca Digital
COLECCIONES DIGITALES CONVERTIDAS FORMATOS Y LENGUAJES Biblioteca Digital 2021 -22 Isabel Galina Russell
Digitalización Original Proceso Código binario Formato Soporte ISABEL GALINA
ESCANE RS Libro Cama plana De tambor Diapositivas/película ISABEL GALINA
CÁMARAS DIGITALES ISABEL GALINA
FORMAT OSTEXTO Cuando se escanea una hoja de texto la computadora produce una imagen del texto, de modo facsimilar. Formato será de imagen (GIF, JPG, TIFF, BMP) No se puede editar (cambiar una palabra, tamaño o tipo de letra, corrector de ortografía) ISABEL GALINA
PARA QUÉ DIGITALIZAR TEXTO §Editarlo §Manipularlo §Reproducirlo §Imprimirlo §Búsquedas §Análisis de textos Porfirio Díaz, Presidente de los Estados Unidos Mexicanos A todos los que la presente vieren, sabed: Que el Señor Sion Xeja se ha presentado en la Secreretaría de Relaciones Exterios como originario de Turquia solicitando naturalizarse en los Estados Unidos Mexicanos á cuyo fin ha acreditado tener los requisitos legales y hecho formal renuncia de su propia nacionalidad en virtud de lo cual le he concedido la naturalización de mexicano ….
LA DIGITALIZA CIÓN DE RECURSOS TEXTUALES Tres formas §Adquirirlo en formato electrónico §Tecleado §OCR (Optical Character Recognition) ISABEL GALINA
OCR: OPTICAL CHARACTER RECOGNITION RECONOCIMIENTO ÓPTICO DE CARACTERES Convierte texto impreso a un formato digital El escaner captura el texto primero como imagen (gral como bitmap) El software del OCR software utiliza algoritmos que convierten la imagen a texto El texto es escaneado como una imagen El software analiza el layout de la página y la divide en zonas El programa registra los caracteres y los compara con imágenes pre-definidas de caracteres en su diccionario Una vez que encuentra las correspondencias, los caracteres se muestran en un archivo de texto. Las inciertas son marcadas ISABEL GALINA
EJEMPLO DE OCR ISABEL GALINA
LIMITACIONES OCR ISABEL GALINA
EJERCICIO 1) Ir a Google drive 2) 5 archivos de muestra 3) Usar Google Drive y Convertio
OBSERVACIONES GENERALES Cuando usar transcripción Cuando usar OCR Raro/especial Frágil Demasiado grande, incómodo Tiene muchas imágenes, símbolos especiales, científicos o matemáticos, o el texto está formateado de forma particular Escrito a mano Usa tipografía moderna y clara Está limpio y completo No manchado o razgado Puede utilizarse un alimentador de hojas Tiene un formato consistente
LENGUAJES
Más que un lenguaje de marcado, el SGML es un conjunto de reglas para hacer lenguajes de marcado. Los lenguajes de SGML tienen ciertas reglas acerca de crear etiquetas y lo que puedes hacer con ellas. Estas reglas se encuentran definidas en un DTD (Document Type Definition) o Declaración de Tipo de Documento. Las etiquetas se encuentran en código ASCII así que no existen problemas si el documento electrónico se visualiza en distintos sistemas ya que no está desarrollado en sistema o código propietario SGML es bastante complicado SGML (STANDARD GENERALIZED MARKUP LANGUAGE) 1985
Originalmente el HTML fue creado para que los investigadores pudieran intercambiar documentos en línea con facilidad y sin la preocupación de reglas de marcado tan estrictas. Se interesaba más en la visualización del documento que su estructura. Por lo tanto, eligió un número limitado de etiquetas que permitían al investigador marcar aspectos sencillos tales como <P>- párrafo, <B>- negritas, <H 1>encabezados, <LI>- listas entre otros. El DTD de un archivo HTML es sencillo y está integrado al propio navegador para la visualización de documentos digitales. El HTML tuvo un éxito rotundo y se convirtió en el lenguaje de la red mundial. HTML (HYPERTEXT MARKUP LANGUAGE) CREADO EN 1991 POR TIM BERNES-LEE
HTML ISABEL GALINA
HTML El gran éxito del HTML se debe a tres cosas: • su relativa sencillez • la facilidad para crear hipervínculos • el que permite incorporar texto, imágenes, video, audio y otros formatos. Sin embargo, debido precisamente a que mezcla forma y contenido el HTML tiene numerosas limitaciones en cuanto se trata de almacenamiento, intercambio, difusión y recuperación de documentos digitales, especialmente cuando se quiere manejar grandes cantidades de información. ISABEL GALINA
EJERCICIO DE HTML https: //www. uv. es/cerveron/paginasweb/notashtml
¿CÓMO FUNCIONAN LOS LENGUAJES DE MARCADO? Tomemos la siguiente oración: En El origen de las especies se menciona por primera vez la evolución de los homo sapiens. En HTML sería: En <I>El origen de las especies</I>se menciona por primera vez la evolución de los <I>homo sapiens</I>. En XML podría ser: En <TITULO>El origen de las especies</TITULO> se menciona por primera vez la evolución de los <NOMBRE_CIENTIFICO>homo sapiens </NOMBRE_CIENTIFICO>. ISABEL GALINA
XML (EXTENSIBLE MARKUP LANGUAGE) Los archivos XML se hacen a partir de un DTD (Document Type Definition). El DTD contiene las reglas de como marcar el documento El XSL (e. Xtensible Style Sheet) le dice al lector como desplegar el documento XML DTD XML + XSL = ? ISABEL GALINA
XML XSL 1 Documento HTML Información XSL 2 Documento de texto XSL 3 Lenguaje para móviles XSL 4 Otros tipos. GALINA de documentos ISABEL Archivo XML DTD
ESTÁNDARES GENERALES World Wide Web Consortium www. w 3. org Desarrolla y promueve tecnologías estándares para la red mundial ISABEL GALINA
ESTÁNDARES ABIERTOS Interoperabilidad Acceso libre
ESTÁNDARES – PUBLICACIÓN DIGITAL Electronic Publication (epub) (http: //idpf. org/epub) International Digital Publishing Forum (IDPF). Organización internacional que busca establecer especificaciones y estándares para promover la industria de la publicación electrónica Miembros: compañías de software y hardware, editores, autores, usuarios de libros electrónicos entre otros Adobe Systems American Library Association Google Internet Archive Microsoft ISABEL GALINA
ESTÁNDARES - MARCADO DE TEXTO Text Encoding Initiative (www. tei-c. org) 1987 - Estándar internacional e interdisciplinario para bibliotecas, museos, editores y académicos para representar todo tipo de textos literarios y lingüísticos para la investigación y educación en línea utilizando un mismo sistema de marcado, permitiendo fácilmente el intercambio de documentos en las humanidades ISABEL GALINA
LOS SISTEMAS PROPIETARIOS Sistemas de publicación electrónica que son desarrollados por organizaciones, generalmente con fines de lucro En general se cobra por el uso del sistema, pero lo más importante es que el código no puedo ser utilizado, modificado o copiado sin previa autorización del dueño Sistema propietarios para publicación electrónica i. Book Apple (IBA) Kindle (. azw) y Kindle Fire (KF 8)
SISTEMAS Propietarios Libres
- Slides: 29