Porovnvanie intanci v DB a mapovanie truktr Ondrej

  • Slides: 8
Download presentation
Porovnávanie inštancií v DB a mapovanie štruktúr Ondrej Dančík

Porovnávanie inštancií v DB a mapovanie štruktúr Ondrej Dančík

Motivácia • Potreba porovnávať dáta s rôznych zdrojov – Mapovanie – Unifikovanie • Duplikátne

Motivácia • Potreba porovnávať dáta s rôznych zdrojov – Mapovanie – Unifikovanie • Duplikátne údaje v dátových úložiskách – Odstraňovanie • Potreba vyhľadávať podobné údaje – Inzeráty – Biológia – Medicína

Mapovanie štruktúr • Ide o porovnávanie štruktúry a nie obsahu – Porovnávanie položiek na

Mapovanie štruktúr • Ide o porovnávanie štruktúry a nie obsahu – Porovnávanie položiek na základe metadát • typy atribútov (integer, string, real, text) • názvy atribútov (alebo súčasť názvu atribútov) – Porovnávanie položiek na základe povahy dát • • dĺžku atribútov (v znakoch) formát atribútov (telefónne číslo) číselná hodnota atribútov (desiatky, tisícky, desatinné čísla) výskyt slov v atribúte (početnosť výskytu daného slova) • Mapovanie pomocou učiteľa následná generalizácia

Multi-Strategy Learning Štruktúra 1 Štruktúra 2 Mediá n

Multi-Strategy Learning Štruktúra 1 Štruktúra 2 Mediá n

Porovnávanie inštancií • Porovnávanie jednotlivých atribútov známymi metódami – String similarity metrics – rôzne

Porovnávanie inštancií • Porovnávanie jednotlivých atribútov známymi metódami – String similarity metrics – rôzne metódy – Porovnávanie čísiel • Priradenie porovnávačov atribútom • Porovnávače slúžia ako vstup do vyhodnocovača, ktorý priraďuje jednotlivým porovnávačom dôležitosť na základe spätnej väzby od používateľa – Neurónová sieť

Model porovnávania inštancií Experti – Vzorky – Vlastnosti jednotlivých položiek Na co su vhodny

Model porovnávania inštancií Experti – Vzorky – Vlastnosti jednotlivých položiek Na co su vhodny Objekt 1 Objekt 2 Experti Polozka Priradenie experta yes P 1 no Expert 1 P 2 P 5 Expert N abs(d - o) < e P 3 Dialog P 4 Uziavtel ohodnoti Backprop() Next()

Model integrácie Mapovanie štruktúr - Clustrovanie – lacná metrika Zdroj 1 Cluster 2 Zdroj

Model integrácie Mapovanie štruktúr - Clustrovanie – lacná metrika Zdroj 1 Cluster 2 Zdroj 2 Schéma Zdroj 3 Cluster 4 Cluster 3 Record 1 Record 2 Edit distance – drahá metrika

Ďakujem za pozornosť

Ďakujem za pozornosť