Datenqualitt Seminar Informationsintegration und Informationsqualitt TU Kaiserslautern SS

  • Slides: 36
Download presentation
Datenqualität Seminar Informationsintegration und Informationsqualität TU Kaiserslautern SS 2006 Lehrgebiet Datenverwaltungssysteme Siegfried Wirth 14.

Datenqualität Seminar Informationsintegration und Informationsqualität TU Kaiserslautern SS 2006 Lehrgebiet Datenverwaltungssysteme Siegfried Wirth 14. 07. 2006

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Bedeutung der Datenqualität n Heterogene Informationssysteme ¡ Datenquellen sind n n autonom heterogen verteilt

Bedeutung der Datenqualität n Heterogene Informationssysteme ¡ Datenquellen sind n n autonom heterogen verteilt Beispiele ¡ ¡ ¡ Metasuchmaschinen Gen-Datenbanken Börsenkurse

Verarbeitung von Anfragen n Auswahl von Datenquellen ¡ ¡ ¡ Relevante Datenquellen finden Integration

Verarbeitung von Anfragen n Auswahl von Datenquellen ¡ ¡ ¡ Relevante Datenquellen finden Integration zu einem guten Ergebnis Auswahl der besten Quellen n Beschreibung von Güte / Qualität Begriff der Datenqualität Beurteilung von Datenqualität

Architekturmodell Integrierte Schema View auf Wrapper modellieren Datenquellen als relationale Schemata Heterogene Datenquellen

Architekturmodell Integrierte Schema View auf Wrapper modellieren Datenquellen als relationale Schemata Heterogene Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Qualitätskriterien n n Inhaltsbezogene Technische Intellektuelle Präsentationsbezogene

Qualitätskriterien n n Inhaltsbezogene Technische Intellektuelle Präsentationsbezogene

Inhaltsbezogene n Eigenschaften der Daten in der Datenquelle ¡ ¡ ¡ Genauigkeit: Anteil von

Inhaltsbezogene n Eigenschaften der Daten in der Datenquelle ¡ ¡ ¡ Genauigkeit: Anteil von Daten ohne Datenfehler Vollständigkeit: Verhältnis von Not-Null-Werten zu allen Werten in der Anwendungsdomäne Relevanz: Wie gut sind die Daten im Bezug auf die Anforderungen des Nutzers ID Name Geburtsdatum Alter Telefon PLZ 14 Müller 24. 11. 1966 18 0640390070 35398 19 Meier 24. 12. 1956 50 0999999 67663 14 Schmidt 18. 1986 20 06303412314 67662

Technische n Hard- und Software des Mediators, der Wrapper, des Netzwerks und aller sonstigen

Technische n Hard- und Software des Mediators, der Wrapper, des Netzwerks und aller sonstigen Komponenten des Informationssystems ¡ Verfügbarkeit: Wahrscheinlichkeit, dass die Datenquelle auf eine Anfrage antwortet n n ¡ ¡ Statistische Wahrscheinlichkeit Komplexe Schwankungen Latenzzeit: Zeit bis zum Erhalt der ersten Werte Aktualität: Durchschnittliches Alter der Daten

Intellektuelle (1) n Subjektive Einstellungen und Meinungen über Datenquellen ¡ Reputation: „Guter Ruf“ der

Intellektuelle (1) n Subjektive Einstellungen und Meinungen über Datenquellen ¡ Reputation: „Guter Ruf“ der Datenquelle n n Bekannte Forschungsinstitute Interne Datenquellen

Intellektuelle (2) ¡ Objektivität: Unverfälschte und unbeeinflusste Daten n n Schwer festzustellen, falls nicht

Intellektuelle (2) ¡ Objektivität: Unverfälschte und unbeeinflusste Daten n n Schwer festzustellen, falls nicht angegeben Beispiel: Beeinflusstes Ranking in Suchmaschinen

Präsentationsbezogene (1) n Merkmale konkret gelieferter Datensätze ¡ Verständlichkeit: Adäquate Darstellung n n n

Präsentationsbezogene (1) n Merkmale konkret gelieferter Datensätze ¡ Verständlichkeit: Adäquate Darstellung n n n In Mediator-Wrapper-Architektur immer relationales Schema Präsentation der Datenquelle verdeckt Ausnahme z. B. bei Bildern, Texten

Präsentationsbezogene (2) ¡ Datenmenge: Größe des gelieferten Suchergebnisses

Präsentationsbezogene (2) ¡ Datenmenge: Größe des gelieferten Suchergebnisses

Anwendung n Qualitätskriterien müssen für jede Anwendung spezifisch interpretiert werden ¡ n Für jede

Anwendung n Qualitätskriterien müssen für jede Anwendung spezifisch interpretiert werden ¡ n Für jede Anwendung muss eine sinnvolle Auswahl getroffen werden ¡ n Beispiel: Aktualität in Tagen oder Sekunden, Definition von Null-Werten Beispiel: Reputation bei Suchmaschinen unwichtig, Relevanz sehr wichtig Beides zusammen definiert n-dimensionalen Raum von Qualitätsvektoren

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Klassen von Qualitätsdaten Reputation Latenzzeit Genauigkeit

Klassen von Qualitätsdaten Reputation Latenzzeit Genauigkeit

Datenerhebung (1) n Subjektive Qualitätskriterien ¡ ¡ Können nur durch den Nutzer festgelegt werden

Datenerhebung (1) n Subjektive Qualitätskriterien ¡ ¡ Können nur durch den Nutzer festgelegt werden Angabe auf Skalen durch einfach Formulare n n Es gibt keine natürlichen Einheiten, daher meist von 1 (sehr schlecht) – 10 (sehr gut) Anfragespezifische ¡ ¡ Hängen von der konkreten Anfrage ab Können vor Bearbeitung nur geschätzt werden Datenerhebung während der Anfragebearbeitung zur Verbesserung der Statistik Beispiel: Eine sehr komplexe Anfrage aus alten Daten hat längere Latenzzeit, als Abfrage eines Wertes, der im Cache vorhanden ist

Datenerhebung (2) n Objektive ¡ ¡ ¡ n Können objektiv festgestellt werden Prinzipiell sind

Datenerhebung (2) n Objektive ¡ ¡ ¡ n Können objektiv festgestellt werden Prinzipiell sind Datenquellen in der Lage dazu Angaben zu machen Zumeist Datenerhebung durch Stichproben, Hochrechnungen Aktualisierung der Daten ¡ ¡ Bei starken Qualitätsänderungen (der autonomen Datenquellen) müssen die Werte aktualisiert werden Regelmäßige Stichproben erforderlich

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Qualitätsmodell (1) n Mathematische Modellierung der Qualität ¡ ¡ ¡ Beurteilung der Datenquellen auf

Qualitätsmodell (1) n Mathematische Modellierung der Qualität ¡ ¡ ¡ Beurteilung der Datenquellen auf Grund der erhobenen Qualitätswerte Ordnung auf dem n-dimensionalen Raum der Qualitätsvektoren festlegen Vergleich von Datenquellen gemäß ihrer Datenqualität

Qualitätsmodell (2) n Beispiel: Suchmaschinen ¡ Relevanz und Aktualität Prozent 1 2 3 [0,

Qualitätsmodell (2) n Beispiel: Suchmaschinen ¡ Relevanz und Aktualität Prozent 1 2 3 [0, 5… 0, 999] Positives K. Relevanz 0, 5 0, 75 0, 9 0, 1, 2, …, 50 Negatives K. Aktualität 3 10 5 Tage

Qualitätsmodell (3) n Skalierung ¡ ¡ 1 2 3 Abbildung der einzelnen Werte auf

Qualitätsmodell (3) n Skalierung ¡ ¡ 1 2 3 Abbildung der einzelnen Werte auf [0… 1] Berücksichtigung positiver und negativer Qualitätskriterien Relevanz 0 0, 65 1 Aktualität 1 0 0, 71

SAW-Methode (1) n Bewertung von Datenquellen ¡ ¡ n Berechnung eines Gesamtwertes in [0…

SAW-Methode (1) n Bewertung von Datenquellen ¡ ¡ n Berechnung eines Gesamtwertes in [0… 1] für jede Datenquelle Berücksichtigung der Wichtigkeit der einzelnen Kriterien durch entsprechende Gewichtung auf Skala 0 (nicht wichtig) – 10 (sehr wichtig) Single Additive Weighting (SAW) ¡ ¡ Nutzer gibt Gewichtung vor Einfache Berechnung auf Basis der skalierten Werte

SAW-Methode (2) n Gewichtung ¡ ¡ Aktualität: 3 = weniger wichtig Relevanz: 9 =

SAW-Methode (2) n Gewichtung ¡ ¡ Aktualität: 3 = weniger wichtig Relevanz: 9 = sehr wichtig *0, 75 1 2 3 Relevanz 0 0, 65 1 + Legt Ordnung fest *0, 25 Aktualität 1 0 0, 71 0, 25 0, 47 0, 93

DEA-Methode (1) n Data Envelopment Analysis (DEA) ¡ ¡ Keine Angabe von Wichtigkeiten durch

DEA-Methode (1) n Data Envelopment Analysis (DEA) ¡ ¡ Keine Angabe von Wichtigkeiten durch den Nutzer Optimierungsproblem mit den Gewichtungen als zu optimierenden Parametern

DEA-Methode (2) ¡ Beispiel in 2 -D

DEA-Methode (2) ¡ Beispiel in 2 -D

DEA-Methode (3) ¡ ¡ Analog für mehr Dimensionen Komplexere Berechnung n n ¡ Unterteilt

DEA-Methode (3) ¡ ¡ Analog für mehr Dimensionen Komplexere Berechnung n n ¡ Unterteilt Datenquellen in „gute“ und „schlechte“ Datenquellen n ¡ Mit Methoden aus der Optimierung Komplexität beherrschbar Schwieriger zu verstehen Keine Ordnung auf dem Raum der Qualitätsvektoren Probleme berücksichtigen: n Viele Qualitätskriterien bei wenigen Datenquellen führt mit hoher Wahrscheinlichkeit zu (fast) nur „guten“ Datenquellen ¡ Jede Datenquelle, die in irgendeiner Dimension die beste ist, ist „gut“

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Übersicht n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration

Integration Firmenname Firmenprofil Aktienwert Entwicklung

Integration Firmenname Firmenprofil Aktienwert Entwicklung

Reduziere Komplexität n n Schlechte Datenquellen nicht betrachten Nutze DEA-Methode zur Reduktion

Reduziere Komplexität n n Schlechte Datenquellen nicht betrachten Nutze DEA-Methode zur Reduktion

Berechne Anfragepläne Firmenname Firmenprofil Aktienwert Entwicklung

Berechne Anfragepläne Firmenname Firmenprofil Aktienwert Entwicklung

Bewerte Anfragepläne n Bewerte nicht mehr Datenquellen, sondern komplette Anfragepläne 0, 5 9 s

Bewerte Anfragepläne n Bewerte nicht mehr Datenquellen, sondern komplette Anfragepläne 0, 5 9 s Skalierung 0, 7 SAW 0, 56 0, 7 Erreichbarkeit 9 s 9 s Latenzzeit 0, 8 2 s 0, 9 3 s

Merge-Funktionen n Berechne Qualitätswert nach einem Join aus Werten an den eingehenden Kanten ¡

Merge-Funktionen n Berechne Qualitätswert nach einem Join aus Werten an den eingehenden Kanten ¡ Qualitätswert unabhängig von Reihenfolge n n ¡ Assoziativität Kommutativität Unterschiedliche Funktionen n Erreichbarkeit: Produkt Latenzzeit: Maximum …

Anfragebearbeitung n n n Reduziere Komplexität Berechne und bewerte die Anfragepläne Führe die N

Anfragebearbeitung n n n Reduziere Komplexität Berechne und bewerte die Anfragepläne Führe die N besten Pläne aus

Zusammenfassung n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen

Zusammenfassung n n n Motivation und Architekturmodell Qualitätskriterien Erhebung von Qualitätsdaten Bewertung von Datenquellen Qualitätsgetriebene Integration