Datenqualitt Seminar Informationsintegration und Informationsqualitt TU Kaiserslautern SS
- Slides: 36
Datenqualität Seminar Informationsintegration und Informationsqualität TU Kaiserslautern SS 2006 Lehrgebiet Datenverwaltungssysteme Siegfried Wirth 14. 07. 2006
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Bedeutung der Datenqualität n Heterogene Informationssysteme ¡ Datenquellen sind n n autonom heterogen verteilt Beispiele ¡ ¡ ¡ Metasuchmaschinen Gen-Datenbanken Börsenkurse
Verarbeitung von Anfragen n Auswahl von Datenquellen ¡ ¡ ¡ Relevante Datenquellen finden Integration zu einem guten Ergebnis Auswahl der besten Quellen n Beschreibung von Güte / Qualität Begriff der Datenqualität Beurteilung von Datenqualität
Architekturmodell Integrierte Schema View auf Wrapper modellieren Datenquellen als relationale Schemata Heterogene Datenquellen
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Qualitätskriterien n n Inhaltsbezogene Technische Intellektuelle Präsentationsbezogene
Inhaltsbezogene n Eigenschaften der Daten in der Datenquelle ¡ ¡ ¡ Genauigkeit: Anteil von Daten ohne Datenfehler Vollständigkeit: Verhältnis von Not-Null-Werten zu allen Werten in der Anwendungsdomäne Relevanz: Wie gut sind die Daten im Bezug auf die Anforderungen des Nutzers ID Name Geburtsdatum Alter Telefon PLZ 14 Müller 24. 11. 1966 18 0640390070 35398 19 Meier 24. 12. 1956 50 0999999 67663 14 Schmidt 18. 1986 20 06303412314 67662
Technische n Hard- und Software des Mediators, der Wrapper, des Netzwerks und aller sonstigen Komponenten des Informationssystems ¡ Verfügbarkeit: Wahrscheinlichkeit, dass die Datenquelle auf eine Anfrage antwortet n n ¡ ¡ Statistische Wahrscheinlichkeit Komplexe Schwankungen Latenzzeit: Zeit bis zum Erhalt der ersten Werte Aktualität: Durchschnittliches Alter der Daten
Intellektuelle (1) n Subjektive Einstellungen und Meinungen über Datenquellen ¡ Reputation: „Guter Ruf“ der Datenquelle n n Bekannte Forschungsinstitute Interne Datenquellen
Intellektuelle (2) ¡ Objektivität: Unverfälschte und unbeeinflusste Daten n n Schwer festzustellen, falls nicht angegeben Beispiel: Beeinflusstes Ranking in Suchmaschinen
Präsentationsbezogene (1) n Merkmale konkret gelieferter Datensätze ¡ Verständlichkeit: Adäquate Darstellung n n n In Mediator-Wrapper-Architektur immer relationales Schema Präsentation der Datenquelle verdeckt Ausnahme z. B. bei Bildern, Texten
Präsentationsbezogene (2) ¡ Datenmenge: Größe des gelieferten Suchergebnisses
Anwendung n Qualitätskriterien müssen für jede Anwendung spezifisch interpretiert werden ¡ n Für jede Anwendung muss eine sinnvolle Auswahl getroffen werden ¡ n Beispiel: Aktualität in Tagen oder Sekunden, Definition von Null-Werten Beispiel: Reputation bei Suchmaschinen unwichtig, Relevanz sehr wichtig Beides zusammen definiert n-dimensionalen Raum von Qualitätsvektoren
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Klassen von Qualitätsdaten Reputation Latenzzeit Genauigkeit
Datenerhebung (1) n Subjektive Qualitätskriterien ¡ ¡ Können nur durch den Nutzer festgelegt werden Angabe auf Skalen durch einfach Formulare n n Es gibt keine natürlichen Einheiten, daher meist von 1 (sehr schlecht) – 10 (sehr gut) Anfragespezifische ¡ ¡ Hängen von der konkreten Anfrage ab Können vor Bearbeitung nur geschätzt werden Datenerhebung während der Anfragebearbeitung zur Verbesserung der Statistik Beispiel: Eine sehr komplexe Anfrage aus alten Daten hat längere Latenzzeit, als Abfrage eines Wertes, der im Cache vorhanden ist
Datenerhebung (2) n Objektive ¡ ¡ ¡ n Können objektiv festgestellt werden Prinzipiell sind Datenquellen in der Lage dazu Angaben zu machen Zumeist Datenerhebung durch Stichproben, Hochrechnungen Aktualisierung der Daten ¡ ¡ Bei starken Qualitätsänderungen (der autonomen Datenquellen) müssen die Werte aktualisiert werden Regelmäßige Stichproben erforderlich
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Qualitätsmodell (1) n Mathematische Modellierung der Qualität ¡ ¡ ¡ Beurteilung der Datenquellen auf Grund der erhobenen Qualitätswerte Ordnung auf dem n-dimensionalen Raum der Qualitätsvektoren festlegen Vergleich von Datenquellen gemäß ihrer Datenqualität
Qualitätsmodell (2) n Beispiel: Suchmaschinen ¡ Relevanz und Aktualität Prozent 1 2 3 [0, 5… 0, 999] Positives K. Relevanz 0, 5 0, 75 0, 9 0, 1, 2, …, 50 Negatives K. Aktualität 3 10 5 Tage
Qualitätsmodell (3) n Skalierung ¡ ¡ 1 2 3 Abbildung der einzelnen Werte auf [0… 1] Berücksichtigung positiver und negativer Qualitätskriterien Relevanz 0 0, 65 1 Aktualität 1 0 0, 71
SAW-Methode (1) n Bewertung von Datenquellen ¡ ¡ n Berechnung eines Gesamtwertes in [0… 1] für jede Datenquelle Berücksichtigung der Wichtigkeit der einzelnen Kriterien durch entsprechende Gewichtung auf Skala 0 (nicht wichtig) – 10 (sehr wichtig) Single Additive Weighting (SAW) ¡ ¡ Nutzer gibt Gewichtung vor Einfache Berechnung auf Basis der skalierten Werte
SAW-Methode (2) n Gewichtung ¡ ¡ Aktualität: 3 = weniger wichtig Relevanz: 9 = sehr wichtig *0, 75 1 2 3 Relevanz 0 0, 65 1 + Legt Ordnung fest *0, 25 Aktualität 1 0 0, 71 0, 25 0, 47 0, 93
DEA-Methode (1) n Data Envelopment Analysis (DEA) ¡ ¡ Keine Angabe von Wichtigkeiten durch den Nutzer Optimierungsproblem mit den Gewichtungen als zu optimierenden Parametern
DEA-Methode (2) ¡ Beispiel in 2 -D
DEA-Methode (3) ¡ ¡ Analog für mehr Dimensionen Komplexere Berechnung n n ¡ Unterteilt Datenquellen in „gute“ und „schlechte“ Datenquellen n ¡ Mit Methoden aus der Optimierung Komplexität beherrschbar Schwieriger zu verstehen Keine Ordnung auf dem Raum der Qualitätsvektoren Probleme berücksichtigen: n Viele Qualitätskriterien bei wenigen Datenquellen führt mit hoher Wahrscheinlichkeit zu (fast) nur „guten“ Datenquellen ¡ Jede Datenquelle, die in irgendeiner Dimension die beste ist, ist „gut“
Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
Integration Firmenname Firmenprofil Aktienwert Entwicklung
Reduziere Komplexität n n Schlechte Datenquellen nicht betrachten Nutze DEA-Methode zur Reduktion
Berechne Anfragepläne Firmenname Firmenprofil Aktienwert Entwicklung
Bewerte Anfragepläne n Bewerte nicht mehr Datenquellen, sondern komplette Anfragepläne 0, 5 9 s Skalierung 0, 7 SAW 0, 56 0, 7 Erreichbarkeit 9 s 9 s Latenzzeit 0, 8 2 s 0, 9 3 s
Merge-Funktionen n Berechne Qualitätswert nach einem Join aus Werten an den eingehenden Kanten ¡ Qualitätswert unabhängig von Reihenfolge n n ¡ Assoziativität Kommutativität Unterschiedliche Funktionen n Erreichbarkeit: Produkt Latenzzeit: Maximum …
Anfragebearbeitung n n n Reduziere Komplexität Berechne und bewerte die Anfragepläne Führe die N besten Pläne aus
Zusammenfassung n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration
- Medienzentrum ludwigshafen
- Studienseminar kaiserslautern grundschule
- Eventveranstaltungen kaiserslautern
- Dfki kaiserslautern jobs
- Ap capstone quest
- Glass castle discussion questions
- Softwareentwicklung
- Socratic seminar ground rules
- Socratic seminar rules of engagement
- Samostalni seminar iz istraživanja u fizici
- Herzlich willkommen zum seminar
- Xbrl conference
- Personal care products seminar
- Theme seminar
- Houston marine insurance seminar
- Makalah seminar akuntansi
- Public relations seminar
- Ipma level d seminar
- Contoh sop kegiatan seminar
- Gui programing
- Pertanyaan untuk pemateri seminar
- Final year project presentation
- Airport security seminar
- Acara pemuda advent
- Transformer seminar
- Indexing in data warehouse
- Ap seminar memes
- Cyberbullying seminar
- Socratic seminar definition
- Crystal reports seminar
- Setting up ria
- Happy family with god
- Single touch payroll seminar
- Soft skills seminar
- Socrates way of teaching
- Poster seminar internasional
- Language