Sinn und Zweck der Formaterkennung und deren Grenzen

  • Slides: 24
Download presentation
Sinn und Zweck der Formaterkennung und deren Grenzen nestor-Praktikertag 2017, ZBW Kiel, 28. 06.

Sinn und Zweck der Formaterkennung und deren Grenzen nestor-Praktikertag 2017, ZBW Kiel, 28. 06. 2017 Claire Röthlisberger-Jourdan

Inhaltsverzeichnis • • Wie funktioniert die Formaterkennung Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung

Inhaltsverzeichnis • • Wie funktioniert die Formaterkennung Grenzen der Formaterkennung Unterschied Formaterkennung & -validierung Erkenntnisse aus der Praxis • Sinn und Zweck • Fazit KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 2

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) –

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) – Ist eigentlich eine Dateinamenserweiterung und Test. pdf bezeichnet den letzten Teil eines Dateinamens und wird gewöhnlich mit einem Punkt abgetrennt. – Die Dateiendung wird oft eingesetzt, um das Format einer Datei erkennbar zu machen, um sie so beispielsweise gleich mit einem passenden Programm öffnen zu können. KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 3

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) –

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) – Die Dateiendung ist nicht eindeutig. – Die Dateiendung kann sehr einfach geändert werden. – Diese Erkennung ist sehr einfach und sehr schnell. KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 4

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) txt

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) txt csv zip jpg mp 3 mov tiff mp 4 siard xml pdfsql mkv doc arc jpx html xsl avi jp 2 odt warc exe wav KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 5

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) Test.

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) Test. pdf KOST Kuh 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 6

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) Diese

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) Diese Fragen solltet Ihr euch für jeden Typ der Formaterkennung stellen! Ich werde diese am Schluss aus meiner Sicht beantworten: – Genügt dies? – Ist es sinnvoll, sich darauf zu verlassen? – Für welchen Zweck kann ich es einsetzen? KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 7

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic number) – Die magische Zahl ist ein spezieller Wert, der ein bestimmtes Dateiformat am Dateibeginn kennzeichnet. – Die magische Zahl ist ein Bestandteil der Datei. – Die magische Zahl ist nicht eindeutig. – Die magische Zahl kann einfach geändert werden. – Diese Erkennung ist für ein Programm einfach und schnell. KOST Magische Zahl (Hex) Text Beschreibung Dateiendungen 25 50 44 46 25 21 50 53 89 50 4 E 47 0 D 0 A 1 A 0 A 50 4 B 03 04 %PDF %!PS. PNG. . PK. . PDF Datei Post. Script Datei PNG Bild ZIP Datei pdf ps png zip, jar, siard, docx, xlsx … 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 8

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic number) Test. pdf KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 9

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 2. Magische Zahl (magic number) – Genügt dies? – Ist es sinnvoll, sich darauf zu verlassen? – Für welchen Zweck kann ich es einsetzen? Kann nicht die Dateiendung mit der magischen Zahl kombinieren werden? Natürlich KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 10

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2.

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2. Magische Zahl (magic number) KOST Kuh 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 11

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 3. Interne Bytesequenz (internal

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 3. Interne Bytesequenz (internal byte sequence) – Ist eine spezielle Sequenz, welche ein bestimmtes Dateiformat enthält. – Die Bytesequenz ist ein Bestandteil innerhalb der Datei. – Die Position innerhalb der Datei ist nicht immer gegeben. – Die Bytesequenz kann Variablen enthalten. – Es können mehrere Bytesequenzen kombiniert werden. – Die Bytesequenz erlaubt eine feinere Granularität. – Die Bytesequenz kann geändert werden. – Diese Erkennung ist nicht besonders schnell und einfach. KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 12

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung 2. Magische

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung 2. Magische Zahl 3. Interne Bytesequenz %PDF-1. 0 bis %PDF-1. 7 KOST 28. 06. 17 nestor-Praktikertag xmlns: pdfaid="http: //www. aiim. org/pdfa/ns/id/"> <pdfaid: part>1</pdfaid: part> <pdfaid: conformance>B</pdfaid: conformance> C. Röthlisberger-Jourdan 13

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2.

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2. Magische Zahl (magic number) 3. Interne Bytesequenz (internal byte sequence) KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 14

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2.

Wie funktioniert die Formaterkennung? • Erkennung überprüft nur minimalste Eigenschaften 1. Dateiendung (Extension) 2. Magische Zahl (magic number) 3. Interne Bytesequenz (internal byte sequence) KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan Kuh 15

Grenzen der Formaterkennung • Die Formaterkennung ändert sich stetig - • Die Formaterkennung ist

Grenzen der Formaterkennung • Die Formaterkennung ändert sich stetig - • Die Formaterkennung ist nur ein aktuelles Indiz - • Neue Formate können die Erkennung bestehender Formate ändern Die bestehende Erkennung kommt mit neuen Formate an ihre Grenzen Das Resultat kann sich nach jeder Aktualisierung (Programm oder Formatdatenbank) ändern Die notwendige Granularität ist variabel - Je nach Prozess und Format unterschiedlich Auf «Vorrat» Erkennen macht keinen Sinn KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 16

Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung? • Erkennung überprüft nur minimalste Eigenschaften

Was ist der Unterschied zwischen Formaterkennung und Formatvalidierung? • Erkennung überprüft nur minimalste Eigenschaften • Viewer "überprüft", ob das Format geöffnet werden kann (d. h. nicht komplett defekt ist) und liest ggf. einige Metadaten • Validator überprüft alle notwendigen Eigenschaften KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 17

Sinn und Zweck der Formaterkennung 1. Dateiendung (Extension) 2. Magische Zahl (magic number) 3.

Sinn und Zweck der Formaterkennung 1. Dateiendung (Extension) 2. Magische Zahl (magic number) 3. Interne Bytesequenz (internal byte sequence) – Genügt dies? Nicht wirklich – Ist es sinnvoll, sich darauf zu verlassen? Nur bedingt – Für welchen Zweck kann ich es einsetzen? Kommt auf die Situation an KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 18

Sinn und Zweck der Formaterkennung ? Informationen zu einer «unbekannten» Datei erhalten 1&2&3 •

Sinn und Zweck der Formaterkennung ? Informationen zu einer «unbekannten» Datei erhalten 1&2&3 • Durch den Einsatz eines PRONOM-basierten Tools bekommt man die Informationen Ø Sehr zeitintensiv und nicht ideal für einen automatischen Prozess mit vielen Dateien KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan : / … fmt/493 (PDF/E-1) 19

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: KOST-Val als Formatvalidator diverser Formate) • Grobeinteilung anhand der Dateiendungen [1] • Verifikation der Einteilung anhand der Magischen Zahl [2] (auf die Erkennung der Internen Bytesequenz [3] wird bewusst verzichtet) • Validierung des Formates KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 20

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im

Sinn und Zweck der Formaterkennung Den korrekten Nachfolgeprozess auslösen (als Beispiel: Preservation Action im Repository) • Entnahme anhand der Dateiendungen [1] (auf die genauere Erkennung [2 & 3] wird bewusst verzichtet, da die Dateiendung vor dem Ablegen ins Repository validiert wurde und die feinere Granularität nicht notwendig ist) • Ermitteln der betroffenen Dateien (i. d. R. fehlerhafter Inhalt) durch spezifische, fallbezogene Tools • Durchführung der Preservation Action an den betroffenen Dateien KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 21

Fazit • Keine Erkennung auf Vorrat • Der Einbau der Formaterkennung in einen automatischen

Fazit • Keine Erkennung auf Vorrat • Der Einbau der Formaterkennung in einen automatischen Prozess ähnelt der Verkehrsplanung: Die Masse ist die Hürde! KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 22

Fazit • Auch die Formaterkennung ist nicht perfekt Kuh KOST 28. 06. 17 nestor-Praktikertag

Fazit • Auch die Formaterkennung ist nicht perfekt Kuh KOST 28. 06. 17 nestor-Praktikertag C. Röthlisberger-Jourdan 23

Claire Röthlisberger-Jourdan Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24

Claire Röthlisberger-Jourdan Koordinationsstelle für die Archivierung elektronischer Unterlagen KOST c/o Schweizerisches Bundesarchiv Archivstrasse 24 CH-3003 Bern T +41 79 464 07 41 E claire. roethlisberger@kost. admin. ch W www. kost-ceco. ch