Zpracovn informac a znalost Booleovsk model vyhledvn dokument
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
Booleovský model a jeho rozšiřování Literatura: Rauch, J. : Metody zpracování informací II, kapitoly 6, 8 SALTON, G. - Mc. GILL, M. : Introduction to Modern Information Retrieval. Tokyo, Mc. Graw-Hill Book Company Japan 1983, 448 s. KOWALSKI, J. G. – MAYBURY, M. T. : Information Storage and Retrieval Systems. Theory and Implementation. Kluwer Academic Publishers 2000, 318 s. 2
Booleovský model a jeho rozšiřování n Booleovská logika n Boolevský model vyhledávání dokumentů – přehled n Přesnost a úplnost v booleovském modelu n Důvody rozšiřování booleovského modelu - experiment se Stairs n Cíle rozšiřování n Rozšíření pomocí fuzzy logiky n Geometrické rozšíření 3
Booleovská logika - 1 n Booleovská (výroková) logika se zabývá výroky a jejich pravdivostí. n Každý výrok je buď pravdivý nebo nepravdivý n Rozlišujeme základní a složené výroky n Pravdivost základních výroků je dána vnějšími okolnostmi n Složené výroky se vytvářejí pomocí výrokových spojek n Používají se pravdivostní tabulky pro výrokové spojky 4
Booleovská logika - 2 Příklady složených výroků: U, U V, U (V W) U, V, W jsou základní výroky U V U V U 1 1 0 1 0 0 1 5
Booleovská logika - 3 U (V W) vyhodnocení složeného výroku V W U (V W) U V W 1 1 1 1 0 0 0 1 1 1 0 0 0 1 1 0 0 0 6
Booleovský model a jeho rozšiřování n Booleovská logika n Boolevský model vyhledávání dokumentů – přehled n Přesnost a úplnost v booleovském modelu n Důvody rozšiřování booleovského modelu - experiment se Stairs n Cíle rozšiřování n Rozšíření pomocí fuzzy logiky n Geometrické rozšíření 7
Booleovský model vyhledávání dokumentů – přehled n Pro bibliografické záznamy i záznamy (s úseky) plných textů n Základní výroky se týkají výskytu výrazů n Používají se logické spojky AND, OR, NOT n A NOT B znamená A AND NOT B n Jsou k dispozici vzdálenostní (proximitní) operátory n Je k dispozici pravostranné rozšíření n Různé systémy mají různé další možnosti 8
Booleovský model vyhledávání dokumentů – příklad 9
Booleovský model– přesnost a úplnost 1 * * Přesnost 0. 5 0 * úzké dotazy (AND) * * * * 0. 5 * * * Úplnost široké dotazy (OR) * * 10
Experiment se STAIRS (1985) 40 000 právnických textů - soudní případy, protokoly, výslechy - celkem 350 000 stran 51 požadavků – podklady pro případy přání: výsledek: úplnost ~ 75% přesnost ~ 80% úplnost ~ 20% ! 11
Booleovský model a jeho rozšiřování n Booleovská logika n Bopolevský model vyhledávání dokumentů – přehled n Přesnost a úplnost v booleovském modelu n Důvody rozšiřování booleovského modelu - experiment se Stairs n Cíle rozšiřování n Rozšíření pomocí fuzzy logiky n Geometrické rozšíření 12
Cíle rozšiřování Booleovského modelu n Rozlišení důležitosti deskriptorů v dokumentu n Rozlišení důležitosti deskriptorů v dotazu n Řazení vybraných dokumentů podle důležitosti n Odstranění tvrdosti booleovských operací (AND) 13
Booleovský model a jeho rozšiřování n Booleovská logika n Bopolevský model vyhledávání dokumentů – přehled n Přesnost a úplnost v booleovském modelu n Důvody rozšiřování booleovského modelu - experiment se Stairs n Cíle rozšiřování n Rozšíření pomocí fuzzy logiky n Geometrické rozšíření 14
Fuzzy logika n Fuzzy = chomáčovitý, chmýřivý, kučeravý, zakalený, nalíznutý, matný, mlhavý, neostrý, … n Fuzzy logika je rozšířením booleovské logiky n Připouští různé úrovně pravdivosti n Pr ("Míč je veliký") = 0. 6 n Pr („CD-ROM je deskriptorem pro dokument A") = 0. 9 15
Pravdivost složených výroků ve fuzzy logice Pr(U) Pr(V) Pr (U OR V) max( Pr(U), Pr(V)) Pr (U AND V) min( Pr(U), Pr(V)) Pr(NON U) 1 - Pr(U) 1 1 0 1 0. 7 0. 4 0. 3 0. 7 0 0. 3 1 0 0 0 1 1 0 0. 4 0 1 0 0 1 16
Váha deskriptoru v dokumentu a v dotazu - příklady váha deskriptorů dokument výsledná váha dotazu U V [U; 0. 7] OR [V; 0. 9] [U; 0. 7] AND [V; 0. 9] D 1 1 1 0. 9 0. 7 D 2 1 0 0. 7 0. 0 D 3 0. 6 0. 8 0. 72 0. 42 D 4 0 0. 9 0. 81 0. 0 Výpočet pro D 3 : Váha ( [U; 0. 7] OR [V; 0. 9] ) = max (0. 6 * 0. 7, 0. 8 * 0. 9) = 0. 72 17
Složené výroky ve fuzzy logice – příklady Pr(U) Pr(V) Pr (W) Pr(U OR V OR W) Pr (U AND V AND W) 1 1 1 0. 9 0. 2 0. 9 0. 1 0. 8 0. 9 0. 8 0 0. 9 0. 1 0. 7 0. 3 0. 1 0. 7 0. 1 0. 1 18
Rozšíření booleovského modelu pomocí fuzzy logiky n Rozlišení důležitosti deskriptorů v dokumentu – vyřešeno n Rozlišení důležitosti deskriptorů v dotazu – vyřešeno n Řazení vybraných dokumentů podle důležitosti – vyřešeno n Odstranění tvrdosti booleovských operací (AND) – NE! 19
Booleovský model a jeho rozšiřování n Booleovská logika n Bopolevský model vyhledávání dokumentů – přehled n Přesnost a úplnost v booleovském modelu n Důvody rozšiřování booleovského modelu - experiment se Stairs n Cíle rozšiřování n Rozšíření pomocí fuzzy logiky n Geometrické rozšíření 20
Geometrické rozšíření booleovského modelu Cíl: Odstranit tvrdost booleovských operací Princip: n Připouští váhy slov v dotazu i v dokumentu n Dokument = bod v prostoru n Hodnota (U AND V) Hodnota (U OR V) Příklad: Dvě klíčová slova: prostor = rovina 21
Dokument – bod v rovině Dokument D - klíčová slova: U s vahou r V s vahou s [1, 1] [0, 1] D: [r, s] [0, 0] [1, 0] 22
Hodnota (U OR V) - přímo úměrná vzdálenosti [r, s] od [0, 0] [1, 1] [0, 1] D: [r, s] s [0, 0] r [1, 0] 23
Hodnota (U AND V) - nepřímo úměrná vzdálenosti [r, s] od [1, 1] [0, 1] 1 -s D: [r, s] [0, 0] 1 -r [1, 0] 24
Složené výroky v geometrickém rozšíření – příklad Dokument D, deskriptory U a V s váhou v dokumentu váha U váha V Hodnota (U OR V) hodnota (U AND V) 1 1 1 0 0. 7 0. 3 0. 8 0. 6 0. 5 0 1 0. 7 0. 3 0 0 25
Porovnání standardního modelu s rozšířenými Přesnost pro konstantní úplnost Fond dokumentů dotazů Booleovský CACM 3 024 52 0. 179 Fuzzy 0. 156 -14% CISI 1 460 INSPEC 12 684 MED 1 033 35 77 30 0. 119 0. 116 0. 207 0. 100 Geom. rozš. 0. 331 +72% 0. 180 -11% +62% 0. 131 0. 270 +13% +133% 0. 237 0. 557 +15% +167% 26
Oprava Ve skriptech : Rauch, J. : Metody zpracování informací II, Odstavec 8. 4, str. 49 má být hodnota ([U, a] AND [V, b]) = místo hodnota ([U, a] AND [V, b]) = 27
- Slides: 27