Zskvn informac z webu Information Retrieval on the
Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner
Počet webových stránek • v roce 1999 kolem 800 milionů • v lednu 2005 asi 11, 5 miliardy - pouze veřejné indexovatelné stránky Nutné používat efektivní vyhledávací nástroje. Potřeba zvolit vhodný způsob vyhodnocování dotazů
Získávání informací - zde všechny činnosti nutné k výběrů dokumentů, které nás zajímají, z dané kolekce dokumentů • dotaz nezávislý na systému pro získávání informací (nutnost překladu)
Kolekce dokumentů • Např. zákony České republiky nebo články publikované v časopisu ACM • Každá taková kolekce může být spravována systémem pro získávání informací • Pokud uživatel zadá dotaz, dostane odpověď týkající se daného tématu • Dokumenty jsou uchovávány jako čistý text • Prohledávány jsou celé dokumenty fulltextové vyhledávání
Získávání informací z webu Specifika: • jako dokumenty zde máme webové stránky • stránky jsou provázány odkazy – naznačují logickou souvislost
Historie První vyhledávače se objevily v roce 1994: • Lycos – vyvinutý na Carnegie Mellon University • Web. Crawler – vyvinutý na University of Washington Do té doby jen vyhledávání podle názvů stránek a URL. Pak následoval rozkvět podobných nástrojů, např. Altavista (1995)
Schéma nástrojů pro získávání informací z webu
1. Výběr dokumentů Získávání dokumentů: - webové stránky dodávají uživatelé webu - webové stránky jsou získávány procházením webu pomocí programu – robota (crawler, spider, worm, robot) Uchovávání dat: - dokumenty po indexování zahozeny - dokumenty stále uchovávány
2. Indexování - z každého dokumentu je vytvořena reprezentace umožňující následné vyhledávání 3. Vyhledávání - výběr dokumentů, které se co nejvíc týkají dotazu uživatele, pomocí vyhledávacího algoritmu
Klasický systém pro získávání informací
Klasický systém – odpověď na dotaz
Systém pro získávání informací z webu
Algoritmy pro získávání informací z webu Na rozdíl oproti klasickému vyhledávání, na webu se vyskytují odkazy – značí logickou souvislost. Tedy dokumenty, které na sebe odkazují, bývají často významné pro jeden dotaz. “Kompaktnost“ skupiny stránek – počet odkazů v této skupině děleno počtem těchto stránek.
Analýza struktury webových stránek • Zjišťování hierarchií • Hledání shluků stránek • Určování kompaktnosti skupiny webových stránek
Hledání hierarchií webových stránek • Identifikace “funkcí“ jednotlivých uzlů: kořeny, vnitřní uzly, listy. • Možnost identifikace domácí stránky. • Rozpoznaná struktura může sloužit uživateli k navigaci.
Hledání shluků webových stránek Shluky stránek, které jsou vzájemně hodně propojené odkazy, se často týkají jednoho tématu Míra propojení – počet nezávislých test k-komponenta – maximální podgraf takový, že při libovolném rozdělení vrcholů (webových stránek) do dvou množin vede mezi těmito množinami alespoň k hran (odkazů)
Indexové a referenční uzly μ – průměrný počet odkazů do jedné stránky σ – příslušná směrodatná odchylka μ’ – průměrný počet odkazů z jedné stránky σ’ – příslušná směrodatná odchylka Referenční stránka – vede do ní alespoň μ + 3σ odkazů Indexová stránka – ukazuje alespoň na μ’ + 3σ’ stránek
Kompaktnost skupiny stránek - množství odkazů v dané skupině stránek Pokud je velká, uživatel může se může cítit dezorientován - “ztracen v hyperprostoru“. Pokud je malá, uživatel nemusí být schopen dosáhnout každého uzlu.
Autoritní stránky Mezi novější algoritmy používající odkazy patří HITS (Hyperlinked Induced Topic Search) a Page. Rank. Oba patří do větší skupiny podobných algoritmů. Využívají referenčních a indexových uzlů a kompaktnosti skupin webových stránek.
HITS (1) • Zaměřuje se na dotazy, ke kterým může existovat velké množství nalezených stránek. • Snaží se mezi nimi najít stránky významné pro uživatele – autoritní stránky. • Na autoritní stránky vede větší množství odkazů. • Větší množství odkazů vede i na stránky, které jsou obecně populární.
HITS (2) • HITS klasifikuje stránky na základě dvou typů stránek – rozcestníků a autoritních stránek. • Autoritní stránka (authority page) je často citovaná – vede na ni dost odkazů. • Rozcestník (hub page) odkazuje na hodně stránek. • Myšlenka algoritmu: Kvalita autoritní stránky je úměrná kvalitě rozcestníků, které na ni odkazují, a naopak – kvalita rozcestníku je úměrná kvalitě autoritních stránek, na které odkazuje.
Autoritní stránky a rozcestníky • Stránky f, g, i, j jsou populární • Stránky i, j jsou navíc autoritní • Stránky h, k jsou rozcestníky
HITS – vlastní algoritmus (1) Algoritmus pro zodpovězení jednoho dotazu q: R = answer(q) B = expand(R) (A, H) = iterate(B, k) S = filter(A, H, σ)
HITS – vlastní algoritmus (2) iterate(B, k) x(0) = y(0) = (1, …, 1)|B| for ( i = 1; i < k; i++ ) { x(i) = update(y(i-1)) y(i) = update(x(i)) normalize(y(i)) } return (x(k), y(k))
HITS – vlastní algoritmus (3) update(v) for ( j = 1; j < |B|; j++ ) { } return v’
HITS – použití HITS byl implementován v programu ARC (Automatic Resource Compiler). Ten byl použit k vytvoření adresáře různých stránek zabývající se širokým okruhem témat. Výsledky programu byly srovnatelné s výsledky vytvořenými člověkem.
Page. Rank • Ohodnocení stránky závisí na ohodnocení stránek, které na ni odkazují – odkazem na cizí stránku je daná stránka autorem čtenáři doporučována
Page. Rank • Simulace chování uživatele r(q) = (1 -d) + d* (p, q) E((1/o(p))*r(p)), d <0, 1> – uživatel náhodně prochází webem – Pravděpodobnost návštěvy je dána hodnotou Page. Rank – S pravděpodobností d klikne na některý odkaz ve stránce • Výběr některého z o(p) odkazů je náhodný s rovnoměrným rozdělením – S pravděpodobností (1 -d) nepokračuje pomocí odkazu, ale přímým zápisem adresy, výběrem z oblíbených, …
Page. Rank příklad • • • r(x) = 0. 5 + 0. 5*r(z) r(y) = 0. 5 + 0. 5*r(x)/2 r(z) = 0. 5 + 0. 5*(r(x)/2+ r(y)) Přesné řešení rovnic: r(x) = 14/13 = 1. 07692308 r(y) = 10/13 = 0. 76923077 r(z) = 15/13 = 1. 15384615 Iterativní výpočet r(x) r(y) 0 1 1. 0 0. 75 2 1. 0625 0. 765625 1. 1484375 3 1. 07421875 0. 76855469 4 1. 07641602 0. 76910400 … … … 10 1. 07692305 0. 76923076 11 1. 07692307 0. 76923077 12 1. 07692308 0. 76923078 y x r(z) 1. 0 1. 125 1. 15283203 1. 15365601 … 1. 15384615 z
Automatické generování odkazů • Odkazy se přidávají spíše do pomocných struktur (indexy. . ) • Mění se topologie webu • Asociativní odkazy – podobnost mezi uzly – popisy uzlů automatickým indexováním
Automatické generování odkazů 2 • Dáno: model, podobnostní funkce, práh • vytvoř popis uzlů v modelu spočítej podobnosti mezi uzly pokud je podobnost větší než daný práh, přidej odkaz
Generování odkazů pomocí podobnosti textů • Vytváření odkazů během zpracování dotazu • Odpovědí je hypertext závislý na dotazu • Vektorový model – váhy tf*idf – normalizované vektory
Generování odkazů pomocí podobnosti textů 2 • n, k jsou přirozená čísla, q původní dotaz, retrieve(q, n, k) q a b c d • retrieve(x, n, k) if (n > 0) then extract top k segments matching x e f g h i for each segment yi, i=1, . . . , k retrieve(yi, n-1, k) end retrieve
Rozpoznání typu odkazu • Oprava - verze segmentu textu • Shrnutí - spojují segmenty se segmentem, který je shrnuje • Expanze - opak shrnutí • Ekvivalence - spojuje segmenty s velmi blízkým obsahem • Srovnání - spojuje segmenty s blízkým obsahem • Protiklad - opak srovnání • Tangent - spojuje segmenty, které jsou pouze okrajově relevantní • Agregace - spojuje segmenty, které spojeny do nového segmentu
Rozpoznání typu odkazu 2 • Spočti podobnosti mezi dokumenty, mezi dokumenty a segmenty, mezi segmenty • Rozděl podobnosti podle stupně – např. silné, dobré a slabé • Spoj silné odkazy a spojené segmenty • Rozděl segmenty spojené slabými odkazy a hledej jejich části spojené silnými odkazy
Oprava • Dva dokumenty mají stejně uspořádané části spojené silnými odkazy
Shrnutí/expanze • Množství textu bez odkazů je v jednom dokumentu větší než v druhém • Shrnutí – z většího množství textu bez odkazů do menšího • Expanze – z menšího množství textu bez odkazů do většího
Ekvivalence/srovnání • Není to žádný z předcházejících typů odkazů • Ekvivalence – silnější odkazy • Srovnání – slabší odkazy
Protiklad • Množství nepropojeného textu obou dokumentů je výrazně vysoké
Tangent • Z/do dokumentu vede málo odkazů
Konstrukce různých typů odkazů TT odkazy Termy (T) TS/ST odkazy Stránky (S) SS odkazy
Konstrukce různých typů odkazů 2 • SS (TT) odkazy – mezi dokumenty (termy) – míra podobnosti mezi dokumenty (termy) i a j – pro každý dokument (term) i lze spočítat seznam podobných dokumentů (termů) seřazený podle míry podobnosti – odkaz se přidá mezi dokumenty (termy) i a j, pokud podobnost přesáhne daný práh • ST odkazy – jako váhu odkazu lze použít váhu termu v dokumentu – odkaz se přidá mezi dokumenty a termy, pokud podobnost přesáhne daný práh
Konstrukce různých typů odkazů 3 1) The Computation of Clustering for comput Information Retrieval 2)Clusters of Computer Networks retriev 3)Data Retrieval with Hypertextual Networks váhy: |X Y| / |X Y| 1 1/2 1 1/3 network hypertext cluster inform 2/5 2 1/7 data 1/6 3
Ohodnocení IR na webu • Hypotézy o jednotlivých komponentách IR – systém jako celek – charakteristiky dat, uživatele – efektivita - indexování, vyhledávání • Experimenty – laboratorní – provozní
Experimenty • Celý web – odhad počtu stránek – geografická distribuce – množiny str. indexované různými vyhledávači • Vyhledávače – porovnání vyhledávačů na stejných dotazech • Techniky
Problémy ohodnocování IR na webu • Dynamičnost webu a vyhledávačů • Různorodost dokumentů a odkazů • Odkazy mezi stránkami
Cranfieldův model • Testovací kolekce (D, Q, R) – D množina testovacích dokumentů – Q množina testovacích dotazů – R informace o relevanci dokumentů vůči dotazům • Předpoklady – D a Q jsou reprezentativní vzorky – R může poskytnout informaci o každé dvojici (dotaz, dokument)
Reprezentativnost • Obtížné zvolit reprezentativní vzorek (hlavně D) – zvětšuje se počet stránek – zvětšuje se různorodost – zvětšuje se počet uživatel – různé algoritmy vyhledávačů • efektivita závisí na výběru dotazů
Relevance • relevance závisí nejen na obsahu – na vstupním a výstupním stupni • o relevanci vypovídá více prohlížení než zpracování dotazu – uživatelé berou v úvahu předchozí stránky
Relevance 2 • Relevantní stránka p s kladným vstupním stupněm – stránka odkazující na p je relevantní • odkaz umožní získat relevantní data • Relevantní stránka q s kladným výstupním stupněm – q je relevantnější než p • odkaz přinese další relevantní data
Měření efektivnosti • Přesnost a úplnost neberou v úvahu odkazy mezi dokumenty • Nové míry – – – změny v počtu relevantních stránek po použití odkazu B(q) - stránky získané zpracováním dotazu B(q, i) - stránky získané po použití odkazu i z B(q) uživatele zajímají nově získané relevantní stránky uživatele více obtěžují nově získané nerelevantní stránky
Měření efektivnosti • Novelty V – poměr počtu nových relevantních stránek v daném kroku vůči počtu všech relevantních stránek – efektivita procházení webu – úplnost je speciálním případem novelty • Noise S – poměr počtu nových nerelevantních stránek v daném kroku vůči počtu všech nově získaných stránek – cena procházení webu – doplněk přesnosti je speciálním případem noise
Měření efektivnosti B(q. i) B(q, i, j) B(q) AND R Relevantní stránky (R) B(q, i, j) AND NOT B(q, i) AND NOT B(q) AND R
Měření efektivnosti novelty = úplnost = 1/3 noise = 1 -přesnost = 4/5 novelty = 1/3 noise = 4/6 novelty = 0 noise = 3/6
Rozsah • Databáze vyhledávačů se málo překrývají • S větším množstvím zaindexovaných stránek roste úplnost a klesá přesnost • Efektivnost vyhledávacích robotů
Předmět dotazu • Efektivita vyhledávače může záviset na typu dotazu • Množiny vrácených dotazů mohou být rozdílné • Testovací dotazy by měly být „nezaujaté“
Rozhraní • Rozdílní uživatelé • Technologie
Zdroje: • Maristella Agosti and Massimo Melucci: Information Retrieval on the Web • Wikipedia (www. wikipedia. org)
- Slides: 58