Metadaten in der Praxis http doi org10 5281zenodo

  • Slides: 26
Download presentation
Metadaten in der Praxis http: //doi. org/10. 5281/zenodo. 2660187

Metadaten in der Praxis http: //doi. org/10. 5281/zenodo. 2660187

Inhalt § Planung der Dokumentation § § § [optional] Diskussion: Wie dokumentieren Sie Ihre

Inhalt § Planung der Dokumentation § § § [optional] Diskussion: Wie dokumentieren Sie Ihre Forschungsdaten? Was braucht man, um Daten zu finden und zu verstehen? [optional] Übung: Welche Metadaten erfassen? [optional] Übung: Schlecht dokumentierten Datensatz ergänzen [optional] Übung: eigenen Datensatz erklären (in Partnerarbeit) § Dokumentation von Forschungsprozessen § [optional] Übung: Dokumentation von Forschungsprozessen § Strukturierte Metadaten bevorzugt § [optional] Strukturierung von Metadaten § [optional] Beispiel: XML-Metadaten zur maschinellen Verarbeitung § Metadaten speichern § Verknüpfung von Daten und Metadaten § [optional] Dokumentation von Tabellen § Automatisch erfasste Metadaten § [optional] Beispiel: Geosetter zur Verwaltung von Bildmetadaten § Metadaten-Extraktion § [optional] Übung: Metadaten-Extraktion mit Apache Tika § Datenmanagementsoftware - The Fine Art § [optional] Daten- und Metadatenmanagement mit MASi § Metadaten als Grundlage für FAIR-Data § Anforderungen an Metadaten zu FAIR-Data

Planung der Dokumentation § Welche Informationen möchten Sie abbilden? § Welche Standards gibt es

Planung der Dokumentation § Welche Informationen möchten Sie abbilden? § Welche Standards gibt es dafür? § Gibt es Regelungen in der Arbeitsgruppe/dem Projekt/dem Institut zur Beschreibung von Daten? § Wo möchten Sie die Metadaten wiederverwenden? Wollen/Müssen Sie die Daten später veröffentlichen/teilen? Sollen sie anderen in der Arbeitsgruppe zur Verfügung stehen? § Was kann die Dokumentation erleichtern? § § Skripte zur Automatisierung Formulare für häufig verwendete Datensätze Metadatenwerkzeuge Datenbanken, Oberflächen

[optional] Diskussion: Wie dokumentieren Sie Ihre Forschungsdaten? § Diskutieren Sie in Kleingruppen [7 min]

[optional] Diskussion: Wie dokumentieren Sie Ihre Forschungsdaten? § Diskutieren Sie in Kleingruppen [7 min] § Welche Metadaten erfassen Sie? § Notieren Sie Stichpunkte auf den Moderationskärtchen § Vorstellung der Ergebnisse im Plenum [8 min] § Finden Sie Gemeinsamkeiten oder Unterschiede?

Was braucht man, um … … Daten zu finden § Generelle Suchkriterien: Link zur

Was braucht man, um … … Daten zu finden § Generelle Suchkriterien: Link zur Veröffentlichung, Autor, Jahr, Projekt § Allgemeine Suchkriterien zur Fragestellung: Erhobene/simulierte/betrachtete Variablen, kontrollierte Variablen, Randbedingungen und Parameter § Fachspezifische Suchkriterien: Parameter des betrachteten Systems (z. B. Kraftfelder in der Thermodynamik), Parameter der Erhebungsmethode (z. B. zeitliche und räumliche Auflösung, geografische Einordnung) … Daten zu verstehen § Abbildung des Forschungsprozesses: Schritte, Methoden, Software, Hardware, Parameter § Erhobene/Beobachtete/Simulierte Variablen § Kontrollierte Variablen

[optional] Übung: Welche Metadaten erfassen? § Stellen Sie sich vor… § Sie lesen von

[optional] Übung: Welche Metadaten erfassen? § Stellen Sie sich vor… § Sie lesen von einem interessanten Ergebnis in einem Paper und versuchen, die Ergebnisse zu replizieren… § Sie suchen nach (Experimental-)Daten, mit denen Sie Ihre Forschung validieren können … § Sie möchten bestimmte Daten, die Sie vor einiger Zeit erhoben haben, noch einmal für eine andere Fragestellung nutzen … § Wonach würden Sie gerne suchen können? § Notieren Sie Stichpunkte auf Moderationskärtchen [7 min] § Vorstellung der Ergebnisse im Plenum [8 min]

[optional] Übung: Schlecht dokumentierten Datensatz ergänzen § Beispiel für schlecht dokumentierten Datensatz § Informationen

[optional] Übung: Schlecht dokumentierten Datensatz ergänzen § Beispiel für schlecht dokumentierten Datensatz § Informationen nach und nach hinzufügen

[optional] Übung: eigenen Datensatz erklären (in Partnerarbeit) § Finden Sie sich paarweise zusammen §

[optional] Übung: eigenen Datensatz erklären (in Partnerarbeit) § Finden Sie sich paarweise zusammen § Jetzt denken Sie an einen konkreten Datensatz aus Ihrer Arbeit (idealerweise haben die Teilnehmer/-innen eigene Datensätze dabei) § Erklären Sie diesen Datensatz Ihrem Partner § Welche Informationen sind notwendig, um diesen Datensatz zu verstehen? § Wie könnten Sie diesen Datensatz dokumentieren?

Dokumentation von Forschungsprozessen Ein Prozess ist eine Folge von Tätigkeiten, die einen zeitlichen Beginn

Dokumentation von Forschungsprozessen Ein Prozess ist eine Folge von Tätigkeiten, die einen zeitlichen Beginn und ein Ende haben § Prozessdenken passt gut zur wissenschaftlichen Arbeitsweise § Flussdiagramme dienen der Visualisierung von Prozessen und eignen sich, Forschungsprozesse nachvollziehbar zu dokumentieren § Visualisierung unterstützt strukturiertes Arbeiten! § einfachste Darstellung eines Prozesses ist die Black Box als Sinnbild für „Eingang-Verarbeitung-Ausgang“ (EVA-Prinzip) § Modularisierung komplexer Zusammenhänge Input Prozess Output

[optional] Übung: Dokumentation von Forschungsprozessen § Überlegen Sie sich einen Prozess aus Ihrer Forschungsarbeit

[optional] Übung: Dokumentation von Forschungsprozessen § Überlegen Sie sich einen Prozess aus Ihrer Forschungsarbeit [5 min/Prozess] § Modularisieren Sie diesen in sinnvolle Arbeitsschritte § Überlegen Sie, was Input/Output zum Prozess ist, welche Parameter den Prozess bestimmen, welche Daten erzeugt werden… § Erstellen Sie ein Flussdiagramm in Power. Point (alternativ auf Papier) [15 min] § Verwenden Sie dabei die Symbole für Flussdiagramms (DIN 66001) § Präsentieren Sie Ihren Prozess der Gruppe [3 -5 min/Prozess]

[optional] Dokumentation von Forschungsprozessen Beispielprozess Kaffee kochen Kaffeefilter Kaffeewunsch nachgehen Kaffeebohnen Wasser Kaffeebohnen mahlen

[optional] Dokumentation von Forschungsprozessen Beispielprozess Kaffee kochen Kaffeefilter Kaffeewunsch nachgehen Kaffeebohnen Wasser Kaffeebohnen mahlen Maschine bestücken Maschine einschalten Mahlgrad Porengröße (Filter) Wassertemperatur Mahltemperatur Kaffeepulvermenge Wasserhärte p. H-Wert (Wasser Kaffee brühen Kaffee entnehmen Durchlaufzeit Stehzeit des Kaffees Durchlauftemperatur Kaffeegetränk Kaffee trinken

[optional] Dokumentation von Forschungsprozessen Visualisierung mit Flussdiagramm (Symbole nach DIN 66001) Symbol Name Bedeutung

[optional] Dokumentation von Forschungsprozessen Visualisierung mit Flussdiagramm (Symbole nach DIN 66001) Symbol Name Bedeutung Grenzstelle/ terminator Prozesse beginnen und enden mit Start- und Endereignis(-sen), auch innerhalb von Prozessen können Ereignisse auftreten, keinen Zeitverbrauch, keine Verantwortlichkeiten. Verarbeitung/ process Tätigkeiten/Arbeitsschritte, die im Rahmen des Prozesses anfallen Teilprozess/ predefined process Möglichkeit auf Unterprozesse zu verweisen, die an anderer Stelle dokumentiert sind Daten/ data Allgemeines Symbol für Daten, auch als Ein-/Ausgabeobjekt zum Prozess zu verwenden Verzweigung/ decision Für Prüf- oder Entscheidungsstellen im Prozess, entsprechend festgelegter Kriterien können an diesem Punkt Prozesse unterschiedliche Verläufe nehmen Verbinder Verbindungspfeile zeigen, welche Elemente in welcher Reihenfolge miteinander verknüpft sind

Strukturierte Metadaten bevorzugt § Sowohl menschen- als auch maschinelesbar § Ergänzend kurze textuelle Beschreibung

Strukturierte Metadaten bevorzugt § Sowohl menschen- als auch maschinelesbar § Ergänzend kurze textuelle Beschreibung möglich § Volltextindizierung und -suche möglich § Aber: Suchergebnisse weniger präzise (Erinnern Sie sich an den Nutzen vieler Google-Suchergebnisse) § Bei Datenveröffentlichung: link zum Paper oder Report (Beschreibung, Metadaten, Verwendung, Bezugsquellen. . ) ergänzen § Metadatenschema (z. B. ICAD) § Nutzen Sie einen Standard oder bieten Sie ein Mapping an) Unstrukturiert Strukturiert "Das Experiment wurde am 12. Mai 2016 in Dresden durchgeführt" "Datum: 20160512; Ort: Dresden. . . " Leicht lesbar für Menschen, aber nur schwer maschinell zu verarbeiten Kann sowohl von Menschen als auch von Maschinen gelesen werden.

[optional] Strukturierung von Metadaten Menschenlesbar HTML-Seite mit semantischer Auszeichnung Notizzettel Readme im Ordner XML-Metadaten

[optional] Strukturierung von Metadaten Menschenlesbar HTML-Seite mit semantischer Auszeichnung Notizzettel Readme im Ordner XML-Metadaten Key-value-Paare im Header einer binären Datei Maschinenlesbar

[optional] Beispiel: XML-Metadaten zur maschinellen Verarbeitung § XML-Code, in dem Metadaten eindeutigen Kategorien zugeordnet

[optional] Beispiel: XML-Metadaten zur maschinellen Verarbeitung § XML-Code, in dem Metadaten eindeutigen Kategorien zugeordnet werden. § XML-Code kann von Computerprogrammen automatisiert verarbeitet werden.

Metadaten speichern § Innerhalb der Datei (für viele Dateiformate gibt es Standards) § In

Metadaten speichern § Innerhalb der Datei (für viele Dateiformate gibt es Standards) § In einer README-Datei oder anderen Textdatei, Tabelle, XML-Datei… § Datenbank § Datenmanagementsystem (z. B. ICAT, MASI-Metadata Management for Applied Sciences). . . Herausforderungen § Skalierbarkeit mit wachsender Datenmenge § Verbindung von Daten und Metadaten (Nutzen von Links und PIDs)

Verknüpfung von Daten und Metadaten Persistente Identifier mit Verknüpfung von Metadaten und Daten (z.

Verknüpfung von Daten und Metadaten Persistente Identifier mit Verknüpfung von Metadaten und Daten (z. B. DOI, EPIC-PID, URN Metadaten Daten PID L UR Metadaten bei den Daten (z. B. readme-file, metadata) Metadaten -DB ata Met adat en Data URL Daten tad Daten Metadaten an den Daten (z. B. Object-Storage, Dateiund Ordnerbezeichnungen) L UR Me Metadaten in den Daten (im Header von Datenformaten, z. B. HDF 5) ta Da Metadaten-DB mit Link zu den Daten (z. B. Suchindex, Repositorium) Metadaten

[optional] Dokumentation von Tabellen Empfehlung: Informationen in Datei selbst (z. B. erstes Tabellenblatt) Metadatum

[optional] Dokumentation von Tabellen Empfehlung: Informationen in Datei selbst (z. B. erstes Tabellenblatt) Metadatum Beschreibung der Tabelle/Arbeitsblätter Welchen Zweck verfolgt die Tabelle/ Arbeitsblätter? Bezeichnung der Arbeitsblätter Auflistung der Bezeichnungen der Arbeitsblätter. Spaltenüberschrift Jede Spalte einer Tabelle muss einen Namen haben. Spaltenbeschreibung Beschreibung und Auflistung der in der jeweiligen Spalte verwendeten Formatvorgaben, Abkürzungen, Codes, Wertelisten, Eingabekonventionen, Fachvokabulare, Zeichen für leere Zellen oder Maßeinheiten. Anzahl Spalten/Zeilen/Arbeitsblätter Relationen/Formeln/Makros Wie viele Spalten/Zeilen/Arbeitsblätter enthält die Tabelle/Tabellenkalkulation? Welche Relationen/Formeln/Makros gibt es in der Tabellenkalkulation

Automatisch erfasste Metadaten § z. T. erfassen Geräte/Software relevante Metadaten § Kamera schreibt automatisch

Automatisch erfasste Metadaten § z. T. erfassen Geräte/Software relevante Metadaten § Kamera schreibt automatisch Metadaten in die erzeugte Bilddatei § Messinstrumente schreiben Metadaten in den Header zu den Messdaten § Geräte erzeugen neben den Messdaten separate Konfigurationsdateien/ Metadatenfiles § z. T. kann in der Gerätesoftware die Metadatenerfassung konfiguriert werden § z. T. muss der Export der Metadaten bewusst veranlasst werden Beispiel: Metadaten im Header zum Datenlog einer akustischen Bohrlochmesssonde

[optional] Beispiel: Geosetter § Geosetter - Verwaltung von Bildmetadaten einschließlich Geodaten, Tags. .

[optional] Beispiel: Geosetter § Geosetter - Verwaltung von Bildmetadaten einschließlich Geodaten, Tags. .

Metadaten-Extraktion § Automatische Extraktion von Metadaten - Schluss mit der manuellen Arbeit! § Unterstützt

Metadaten-Extraktion § Automatische Extraktion von Metadaten - Schluss mit der manuellen Arbeit! § Unterstützt das Sammeln von Metadaten bei gleichförmigen Datensätzen! § Sammeln Sie Metadaten in der eigenen Arbeitsumgebung! § Wo sind die Metadaten versteckt? § Können sie automatisch extrahiert werden? Mit einem Skript? § Software zur Metadatenextraktion - Beispiel: Apache Tika § § Basiert auf Java → Windows, Linux, Mac Extrahiert aus vielen Dateitypen Ausgabe von Metadaten in verschiedenen Formaten Grafische Benutzeroberfläche sowie Kommandozeilen-Tool oder Server

[optional] Übung: Metadaten-Extraktion mit Apache Tika 1. Java-Installation erforderlich 2. tika-app-1. 18. jar herunterladen

[optional] Übung: Metadaten-Extraktion mit Apache Tika 1. Java-Installation erforderlich 2. tika-app-1. 18. jar herunterladen von https: //tika. apache. org/download. html 3. Windows 1. Windows-key �search for “cmd” – start it 2. “cd UsersMYUSERNAMEDownloads” (or go to directory where you stored tika) 3. Eingabe “java –jar tika-app-1. 18. jar” 4. Linux: Kommandozeile “java -jar tmp/tika-app-1. 18. jar“ 5. Ziehen Sie ein Image/pdf/. . . in das Tika-Fenster, um die Metadaten zu extrahieren 6. Probieren Sie verschiedene Ausgabeformate mit "Views" aus

Datenmanagementsoftware - The Fine Art § Speichert sowohl Metadaten als auch Daten § Erforderliche

Datenmanagementsoftware - The Fine Art § Speichert sowohl Metadaten als auch Daten § Erforderliche Funktionen § § Suchfunktion (Daten über Metadaten finden) Unterstützung der Metadatenextraktion, -erstellung, -bearbeitung. . Integration in die Benutzerumgebung (z. B. browserbasiert) Schnittstellen für den Zugriff auf die Daten, die in die Analyseumgebung integriert werden sollen (z. B. POSIX, http, REST-API) § Achtung: Verhindern Sie eine Abhängigkeit von Software - Können Daten/Metadaten aus dem System exportiert werden? § Beispiele: ICAT, MASI, KIT Datamanager

[optional] Daten- und Metadatenmanagement mit MASi § Daten- und Metadatenspeicherung § Skalierbar für große

[optional] Daten- und Metadatenmanagement mit MASi § Daten- und Metadatenspeicherung § Skalierbar für große Datensätze (Millionen von Dateien) § Weitergabe von Daten § Automatisierung der Datenaufnahme § Metadaten. Extraktionswerkzeuge für den Ingest-Workflow § Zugriff über Webbrowser § Suche nach Daten § Bearbeiten von Metadaten. . .

Metadaten als Grundlage für FAIR-Data Findable – Accessible – Interoperable - Reusable Wilkinson, Mark

Metadaten als Grundlage für FAIR-Data Findable – Accessible – Interoperable - Reusable Wilkinson, Mark D. ; Dumontier, Michel; Aalbersberg, IJsbrand Jan; Appleton, Gabrielle; Axton, Myles; Baak, Arie et al. (2016): The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific Data 3, 160018 EP -. DOI: 10. 1038/sdata. 2016. 18. § Findable (Suchbar) haben eine ID sind mit Metadaten (MD) beschrieben MD sind indiziert MD enthalten Link zu Daten § Accessible (Zugänglich) Sind über standardisiertes (offenes, freies) Protokoll (mit Authentifizierung wenn nötig) erreichbar § Interoperable (mit verschiedenen Systemen nutzbar) MD nutzen formale, akzeptierte Sprache MD nutzen standardisierte Vokabularien § Reuseable (nachnutzbar) MD legen fest, welche Nutzung erlaubt ist (Lizenz) MD beschreiben die Entstehung der Daten (Provenance) MD beschreiben die Daten ausreichend und nach fachlichen Standards

Anforderungen an Metadaten zu FAIR-Data Suchoberfläche Suchindex Indiziert in Autor Suchkriterien z. B. Keywords

Anforderungen an Metadaten zu FAIR-Data Suchoberfläche Suchindex Indiziert in Autor Suchkriterien z. B. Keywords Metadaten enthalten Beschreibung der Datenentstehung nutzen Formale, maschinenlesbare Sprache Standardisierte Vokabularien Beschreibung der Daten z. B. JSON XML z. B. Lizenz für Nutzung Link zu den Daten DOI GND SH PID z. B. URN EPIC Fachliche Standards