LA CONSERVAZIONE DEGLI OGGETTI DIGITALI problematiche tecniche standard
LA CONSERVAZIONE DEGLI OGGETTI DIGITALI: problematiche, tecniche, standard metadati Corso di archivistica informatica del prof. Federico Valacchi Dipartimento di scienze della formazione, dei beni culturali e del turismo Università degli studi di Macerata Alessandro Alfier, 19 aprile 2017
Sommario degli argomenti la prospettiva (il «contesto» della conservazione) l’oggetto digitale (il «che cosa» della conservazione) l’obiettivo (il «fine» della conservazione)
PROSPETTIVA DELLA CONSERVAZIONE Utenti (socializzazione della conservazione) conoscenze capacità risorse Istituto di conservazione Oggetto digitale Utenti Oggetto digitale Conservazione top-down (istituto-centrica) Conservazione bottom-up (oggetto-centrica)
OGGETTO DIGITALE ( «digital object» ) informazione creata o usata in FORMATO DIGITALE (sequenza di dati formata da bit « 0» e « 1» ) Oggetto digitale che assume una forma di rappresentazione (testo, registrazione sonora, video, fotografia etc. ) «qualunque tipo di conoscenza che possa essere scambiata» (OAIS) Informazione
OGGETTO DIGITALE oggetto digitale nativo / non nativo
OGGETTO DIGITALE bit • è un dato binario: può assumere infatti il valore « 0» o « 1» file • una sequenza di bit, con valore « 0» « 1» , considerati come un’entità unica dal punto di vista logico
OGGETTO DIGITALE Oggetto digitale File Bit OGGETTO DIGITALE: informazione in formato digitale, cioè costituita da uno o più FILE correlati File Bit Bit
OGGETTO DIGITALE CULTURALE per finalità di conservazione, consultazione, valorizzazione di beni culturali analogici (oggetti digitali non nativi cioè riproduzioni digitali) OGGETTO DIGITALE: informazione costituita da uno o più file correlati Oggetti digitali culturali o per finalità legate all’espressione, diffusione, conservazione di valori culturali del contemporaneo (oggetti digitali nativi)
ANALOGICO versus DIGITALE un orologio a lancette è ANALOGICO perché la posizione di ciascuna di esse può indicare uno qualsiasi degli infiniti punti che formano la circonferenza del quadrante dell'orologio stesso, punti che non sono numerabili in un orologio DIGITALE le cifre che compongono l'ora, i minuti e i secondi indicano tutti gli 86. 400 possibili momenti secondi in cui può essere suddiviso un giorno: dunque tutti i momenti sono esattamente numerabili
ANALOGICO versus DIGITALE: ANALOGICO: ciò che è numerabile, rappresentabile dunque con un insieme discreto di elementi, cioè con un insieme finito, non continuo di elementi ciò che non è numerabile, non rappresentabile con un insieme discreto di elementi, ma con un insieme infinito, continuo di elementi
ANALOGICO versus DIGITALE 1 0 0 Analogico: linea sinusoidale 1 0 0 1 1 Digitale: linea spezzata
LA RIPRODUZIONE DA DIGITALE 1 1 0 0 0 1 1 Quando si effettua la copia digitale di un’informazione digitale, il risultato ottenuto è identico a quello di partenza (nessuna «perdita» di dati)
LA RIPRODUZIONE DA ANALOGICO AD ANALOGICO Quando si effettua la copia analogica di un’informazione analogica, il risultato ottenuto non è mai identico a quello di partenza ( «perdita» di dati)
LA RIPRODUZIONE DA ANALOGICO A DIGITALE 1 0 0 1 1 Quando si effettua la copia digitale di un’informazione analogica, il risultato ottenuto è «un’approssimazione» dell’informazione di partenza
OGGETTO DIGITALE: informazione costituita da uno o più file correlati FILE: sequenza di bit considerati come un’entità unica dal punto di vista logico sequenza di bit fissata con una certa organizzazione fisica su un determinato supporto di memorizzazione sequenza di bit che necessita di essere «interpretata» per poter veicolare l’informazione (contenuto + forma di rappresentazione) formato elettronico
OGGETTO DIGITALE Formato elettronico del file l’insieme di CODICI e REGOLE che, a partire dalla sequenza di bit che costituisce il file, permettono di (RI)PRODURRE, mediante software, l’informazione, nel suo contenuto e nella sua forma di rappresentazione
OGGETTO DIGITALE formati elettronici bit organizzati in file supporti di memorizzazione oggetto digitale Fruizione fortemente mediata degli oggetti digitali hardware e software ASPETTO CRITICO: la perdita di efficacia anche di una sola delle molteplici risorse di mediazione mette a rischio la fruizione finale ( «vulnerabilità del digitale» )
OGGETTO DIGITALE La fruizione degli oggetti digitali è minacciata dal rischio dell’OBSOLESCENZA che interessa le risorse di mediazione obsolescenza supporti di memorizzazione obsolescenza formati elettronici obsolescenza hardware e software OBSCOLESCENZA: la perdita di valore di un bene a causa del progresso tecnologico, che porta con sé lo sviluppo di beni sempre più raffinati. La perdita di valore causata dall'obsolescenza è però indipendente dalla funzionalità in sé del bene e quindi può riguardare anche prodotti in perfetto stato di conservazione OBSOLESCENZA DIGITALE
OGGETTO DIGITALE L’obsolescenza dei formati elettronici WORD STAR (dal 1979) DOC (dal 1983) DOCX (dal 2007) LOTUS WORD PRO (dal 1989) L’obsolescenza dei formati elettronici è un problema così rilevante che si stanno diffondendo i REGISTRI DEI FORMATI: -Library of Congress Successive release di DOC -Florida Digital Archive -National Archives of UK JPEG XR (dal 2011) JPEG (dal 1992) JPEG 2000 (dal 2000)
OGGETTO DIGITALE Web-bibliography sui registri dei formati: registro dei formati della Library of Congress <http: //www. digitalpreservation. gov/formats/fdd/browse_list. shtml> registro dei formati del Florida Digital Archive <http: //fclaweb. fcla. edu/fda_format_landing_page> registro dei formati dei National Archives of UK <http: //www. nationalarchives. gov. uk/PRONOM/Default. aspx>
OGGETTO DIGITALE Computer museum: Come si affronta l’obsolescenza digitale? Riversamento: si tengono in vita gli apparati hardware e software obsoleti Emulazione: si utilizza un software di emulazione, che replica su un hardware e software di ultima generazione il funzionamento di un hardware e di un software obsoleti la strategia più usata per far fronte all’obsolescenza digitale (può comportare la perdita di informazioni) Normalizzazione: decisione di utilizzare solo pochi formati, caratterizzati da apertura, sicurezza, portabilità, diffusione (ad esempio l’XML)
OGGETTO DIGITALE RIVERSAMENTO DIRETTO (refreshing): interessa i supporti di memorizzazione RIVERSAMENTO SOSTITUTIVO (migration): interessa i formati elettronici RIVERSAMENTO
OGGETTO DIGITALE RIVERSAMENTO SOSTITUTIVO conversione di formato 1 formato 2 formato n. software 1 software 2 software n. hardware 1 hardware n.
OGGETTO DIGITALE gli oggetti digitali NON CONSERVANO LA LORO FRUIBILITA’ DA SOLI, Obsolescenza dell’oggetto digitale ma per garantire la loro fruibilità nel tempo è necessaria una cura continua, una gestione che ha inizio ancor prima della generazione dell’oggetto digitale, con la preliminare scelta dell’idoneo formato elettronico e dell’idoneo supporto di memorizzazione, e che prosegue nel tempo continue operazioni di riversamento diretto e sostitutivo
OGGETTO DIGITALE L’oggetto digitale deve essere gestito per garantire la sua fruibilità nel tempo, cioè per garantire la sua stabilità Stabilità: capacità dell’oggetto digitale di mantenere inalterati nel tempo contenuto e forma di rappresentazione possibilità di recupero della sequenza binaria dai supporti in cui è memorizzata possibilità di interpretare la sequenza binaria in base al formato elettronico integrità della sequenza binaria
OGGETTO DIGITALE Integrità della sequenza di bit Esempi di corruzione della sequenza di bit
OBIETTIVO L’oggetto digitale deve essere gestito per garantire la sua fruibilità nel tempo, cioè per garantire la sua stabilità Cosa vuol dire conservare l’oggetto digitale? Significa, prima di tutto, farsi carico della sua stabilità Il conservare l’oggetto digitale si esaurisce nel prendersi carico della sua stabilità?
OBIETTIVO Storage Conservazione (a lungo termine)
OBIETTIVO Storage Definizione Obiettivo la semplice memorizzazione su supporti di uso personale (penne USB, DVD etc. ) la memorizzazione persistente dei dati, garantire l’integrità della sequenza di bit cioè la loro salvaguardia anche tramite procedure di backup Soluzioni la memorizzazione in data center oppure la memorizzazione in rete tramite cloud storage
OBIETTIVO Conservazione (a lungo termine) l’azione di mantenimento a lungo termine degli oggetti digitali, in una forma corretta (OAIS) Lungo termine: la conservazione va calibrata su un intervallo di tempo sufficientemente ampio da tenere in considerazione l’impatto prodotto sugli oggetti digitali dai cambiamenti tecnologici (obsolescenza) Forma corretta: la conservazione deve garantire che la fruibilità degli oggetti digitali sia protetta da ogni pericolo di alterazione, manipolazione (autenticità)
OBIETTIVO Conservazione a lungo termine Obiettivo Soluzioni tenere sotto controllo la dipendenza degli oggetti digitali dai cambiamenti tecnologici e garantire la loro autenticità repository digitali conformi al modello OAIS (reference model for an Open Archival Information System, ISO 14721: 2012)
OBIETTIVO Bibliografia su OAIS: testo originale dello standard nell’ultima versione del 2012: <http: //public. ccsds. org/publications/archive/650 x 0 m 2. pdf> traduzione italiana dello standard nella prima versione del 2002: OAIS: sistema informativo aperto per l’archiviazione, a cura di G. MICHETTI, Roma, ICCU, 2007
OBIETTIVO CONSERVAZIONE A LUNGO TERMINE Traducibilità: un determinato hardware e software sono in grado di interpretare la sequenza di bit e di restituire l’oggetto digitale nel suo contenuto e forma di rappresentazione (riversamento diretto e sostitutivo) Autenticità: vi sono sufficienti garanzie che l’oggetto digitale è esattamente ciò che sembra essere e dunque non è stato (involontariamente o con dolo) alterato, manipolato, o addirittura falsificato le sequenze di bit sono integre e leggibili, come sequenze, da un elaboratore dal primo all’ultimo bit STORAGE Integrità della sequenza di bit o vitalità:
OBIETTIVO l’oggetto digitale è autentico (affidabile) se è ciò che pretende di essere chi o che cosa «certifica» l’autenticità dell’oggetto digitale?
OBIETTIVO Autenticità la dimensioni critica fondamentale per la conservazione a lungo termine dell’oggetto digitale è rappresentata dal tempo (in misura minore dallo spazio) l’obsolescenza tecnologica dei supporti fisici di memorizzazione e dei formati file obbliga a continui processi di riversamento diretto e sostitutivo Tempo
OBIETTIVO Autenticità la conservazione a lungo termine è costretta, sull’onda dei riversamenti, a produrre nel tempo una serie di «copie» a partire dall’oggetto digitale «originale» nella dimensione digitale viene sostanzialmente meno la distinzione propria della dimensione analogica tra «originale» e «copia» Originale Copia dell’originale Copia della copia Tempo . . . … ….
OBIETTIVO Autenticità Nel processo di generazione delle «copie» dell’oggetto digitale va garantito che ciascuna di esse sia fedele alla precedente e in ultima analisi all’ «originale» . Va dunque assicurato che le «copie» prodotte siano autentiche. Il processo di riversamento può essere potenzialmente l’occasione per un’alterazione (voluta o meno) dell’oggetto digitale. Infatti solo «copie» autentiche dell’oggetto digitale sono equipollenti al suo «originale» , in grado dunque di avere lo stesso valore di testimonianza posseduto dall’originale In ogni caso il riversamento sostitutivo porta a una modifica dell’integrità della sequenza di bit Originale Copia autentiche rispetto all’originale? Tempo
OBIETTIVO Autenticità • la conservazione a lungo termine dell’oggetto digitale equivale alla conservazione della capacità di produrre nel tempo «copie» autentiche rispetto all’oggetto digitale «originale» (progetto INTERPARES) • la produzione di «copie» autentiche non può essere garantita da sole risorse tecnologiche, ma deve essere assicurata ( «certificata» ) da informazioni associate a ciascuna «copia»
OBIETTIVO Autenticità dell’oggetto digitale: l’oggetto digitale è ciò che pretende di essere metadati tecniche di hash Identità Integrità metadati storage
OBIETTIVO Autenticità Integrità dell’oggetto digitale tecnica di hash metadati in input può esservi qualsiasi sequenza di bit; dall’hash sum non si può ricostruire l’input; le probabilità che un hash sum corrisponda a 2 diversi input sono scarsamente probabili
OBIETTIVO Autenticità Integrità dell’oggetto digitale tecnica di hash il processo di conservazione a lungo termine impone processi di riversamento sostitutivo, che alterano la sequenza di bit metadati Piena utilità per la conservazione a lungo termine garantisce l’assoluta integrità della sequenza di bit Utilità relativa per la conservazione a lungo termine
OBIETTIVO Integrità dell’oggetto digitale Autenticità l’integrità fisica dell’oggetto digitale (la sequenza di bit) può anche in parte essere compromessa, a seguito del processo di riversamento sostitutivo l’integrità è allora rispettata se, sostanzialmente, l’oggetto digitale risulta completo nei suoi aspetti essenziali quindi l’oggetto digitale è integro se mantiene tutti gli aspetti essenziali del suo contenuto e forma di rappresentazione
OBIETTIVO Identità dell’oggetto digitale: Autenticità è costituita dai caratteri distintivi e peculiari di quel dato oggetto digitale, che lo caratterizzano in modo univoco fin dalla sua origine e che lo distinguono da qualsiasi altro oggetto digitale • informazioni sulle persone che, a vario titolo, hanno concorso alla sua creazione ruolo fondamentale svolto dai metadati, cioè da informazioni stabilmente associate all’oggetto digitale • informazioni sul luogo e data di creazione • informazioni sull’evento che ha occasionato la sua creazione, sull’argomento od oggetto documentato (metadati di contesto) • informazioni sui collegamenti con altri oggetti (digitali o analogici) • Informazioni su … … …
OBIETTIVO Autenticità I metadati sono informazioni strutturare associate stabilmente all’oggetto digitale metadatiincorporati all’interno dei file dell’oggetto digitale Come avviene l’associazione tra metadati ed oggetto digitale? metadati memorizzati all’intero di uno specifico file, distinto dai file che costituiscono l’oggetto digitale vero e proprio Problema: l’obsolescenza tecnologica investe i file che formano l’oggetto digitale, ma anche il file con i metadati. Vi è un circolo vizioso senza fine?
OBIETTIVO Autenticità Il file che contiene i metadati relativi all’oggetto digitale è solitamente in formato XML Un file XML è meno soggetto di altri all’obsolescenza tecnologica. Quindi il suo contenuto rimarrà correttamente interpretabile anche dopo molto tempo garanzia di stabilità per i metadati associati ai file che costituiscono l’oggetto digitale vero e proprio XML (e. Xtensible Markup Language) è un formato FILE: - non proprietario, cioè libero - aperto, cioè pubblico - standard - trasparente, cioè non binario
OBIETTIVO Metadati memorizzati all’intero di uno file distinto dai file che costituiscono l’oggetto digitale vero e proprio Autenticità DIP SIP AIP L’oggetto digitale come pacchetto informativo (OAIS)
OBIETTIVO Autenticità Vantaggi nel ricorso a uno standard: Per metadatare gli oggetti digitali esistono molteplici standard Dublin core lo standard aiuta a individuare le informazioni che più utilmente debbono essere metadatate (approccio non improvvisato e soggettivo) METS lo standard permette di produrre dei metadati che sono conformi a quelli prodotti da altri soggetti, facilitando dunque lo scambio di informazioni e la disseminazione degli oggetti digitali sul web MAG Standard di catalogazione e descrizione archivistica: MODS /MADS PREMIS Ø ISBD, REICAT, UNIMARC … Ø ISAD (G), ISAAR (CPF), EAD, EAC …
OBIETTIVO Autenticità DUBLIN CORE: standard ISO di carattere molto generale che individua 15 «attributi» (metadati) per la descrizione degli oggetti digitali, in particolare le pagine web. E’ pensato per essere utilizzato nel più ampio insieme possibile di casi, senza particolari caratterizzazioni in senso catalografico o archivistico e con la finalità di facilitare la ricerca, l’identificazione e il recupero degli oggetti digitali. <http: //dublincore. org/> MAG (Metadati amministrativi e gestionali): standard italiano espresso con una sintassi XML, che ha l’obiettivo di fornire le specifiche per la raccolta e gestione dei metadati e dei relativi oggetti digitali nei rispettivi archivi e per la loro disseminazione. <http: //www. iccu. sbn. it/opencms/documenti/manuale. html> MODS (Metadata object description schema) / MADS (Metadata authority description schema): standard mantenuti dalla Library of Congress e basati sulla sintassi XML. Di derivazione bibliografica, sono stati elaborati soprattutto per gli oggetti digitali pubblicati sul web. Hanno dunque una natura prevalentemente descrittiva. <http: //www. loc. gov/standards/mods/ e http: //www. loc. gov/standards/mads/>
OBIETTIVO Autenticità METS (Metadata enconding and trasmission standard): standard mantenuto dalla Library of Congress, basato sulla sintassi XML e finalizzato alla codifica di metadati descrittivi, amministrativi e strutturali di un oggetto digitale. Lo standard si presta quindi per la gestione e conservazione degli oggetti digitali, per il loro scambio tra diversi repository, ma anche per la loro trasmissione a un utente finale. http: //www. loc. gov/standards/mets/ PREMIS (Preservation metadata: implementation strategies): standard internazionale, mantenuto dalla Library of Congress. Supporta la sintassi XML. E’ finalizzato alla produzione dei metadati utili a supportare corretti processi per la conservazione e l’usabilità a lungo termine degli oggetti digitali. Per questo lo standard fa sostanzialmente riferimento ai metadati che devono essere prodotti a partire dal momento in cui gli oggetto digitali sono affidati a un sistema di conservazione. http: //www. loc. gov/standards/premis/
- Slides: 49