Parametri za ocenjivanje efikasnosti pronalaenja Cvetana Krstev as

Parametri za ocenjivanje efikasnosti pronalaženja Cvetana Krstev Čas 5. 1

Merenje efikasnosti sistema za pronalaženje informacija n n Predstavili smo sisteme za pronalaženje informacija

Evaluacija sistema za pronalaženje informacija n Da bismo ad hoc izmerili efikasnost nekog sistema

Kolekcija dokumenata za testiranje n n Obično se naziva zlatni standard I kolekcija dokumenata

Odnos informacione potrebe korisnika i upita n n Relevantnost se određuje relativno u odnosu

Paradoks! n Ako na Google-u postavite upit: q n n wine red white heart

Još jedan primer n Informaciona potreba: q penzioni zakon u republikama bivše Jugoslavije n

Poznate kolekcije za testiranje n Cranfield kolekcija q n TREC 8 (Text Retrieval Conference)

Parametri odziv i preciznost za ocenu sistema za pronalaženje bez rangiranih rezultata n Dva

Odnos parametara odziv i preciznost n n n Za uska pitanja, preciznost je velika

Podela kolekcije dokumenata upitom na četiri dela Neizdvojene stavke Nerelevatne stavke Izdvojene stavke Relevatne

Preciznost: P=a/(a+b) b – izdvojene nerelevatne stavke a – izdvojene relevantne stvake d –

Preciznost: P=tp/(tp+fp) b=fp – false positive a=tp – true positive d=tn – true negative

Varijacije parametara odziv i preciznost u zavisnosti od širine upita uzak upit malo izdvojenih

Varijacije parametara odziv i preciznost u zavisnosti od širine upita širok upit više neizdvojenih

Odnos parametara preciznost i odziv n n Odziv uvek može da bude visok, čak

Alternativna mera – mera tačnosti n n To je mera koja utvrđuje koliki deo

Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje n Podaci su često vrlo

Jedan parametar koji meri izbalansiranost odziva i preciznosti n n U opštem slučaju korisnik

F-mera koja se zasniva na harmonijskoj sredini n Šta je harmonijska sredina? q Aritmetička

Prednosti F-mere n Zašto aritmetička sredina nije dobra? q q Pošto uvek možemo da

Davanje prednosti odzivu ili preciznosti Takvu vrednost α bi izabrao veb surfer Takvu vrednost

Evalucija rezultata rangiranog pronalaženja n n n Preciznost, odziv i F-mera se definišu na

Izgled grafikona preciznost-odziv n n Ovaj graf ima prepoznatljiv testerast izgled. Zašto? q Ako

Interpolirana srednja preciznost u 11 tačaka n n n Izučavanje celokupne krive preciznost-odziv je

Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih

Prosečna preciznost (Average Precision) n n Daje meru uspešnosti pronalaženja kao jedan broj. AP

Prosečna preciznost (Average Precision) n n n Prethodna suma je ekvivalentna sa: gde je

Srednja prosečna preciznost (Mean Average Precision) - n Srednja prosečna preciznost za skup upita

U slučaju ovog sistema i 50 informacionih potreba korišćenih za procemu MAP=0, 2553. 31

Slides: 31

Download presentation

Parametri za ocenjivanje efikasnosti pronalaženja Cvetana Krstev Čas 5. 1

Merenje efikasnosti sistema za pronalaženje informacija n n Predstavili smo sisteme za pronalaženje informacija zasnovane na predstavljanju dokumenata izabranom listom termina (koja je nekako izabrana) i razna proširenja osnovne ideje: parametri blizine, podsecanje upitnih termina, sinonimi, težine dodeljenih termina Ali kako da znamo koji od ovih pristupa je zaista efikasan i u kojim situacijama, odnosno koji je bolji u odnosu na druge? 2

Evaluacija sistema za pronalaženje informacija n Da bismo ad hoc izmerili efikasnost nekog sistema za pronalaženje informacija na neki standardan način, potrebna nam je kolekcija za testiranje koja se sastoji od tri stvari: q q q Kolekcija dokumenata Paket informacionih potreba koje se obično izražavaju preko upita Skup procena relevantnosti koji se obično izražava dodeljivanjem binarne vrednosti (relevantan / nije relevantan) svakom paru (upit, dokument) 3

Kolekcija dokumenata za testiranje n n Obično se naziva zlatni standard I kolekcija dokumenata i paket informacionih potreba da budu razumne veličine. q q Kolekcija dokumenata treba da bude dovoljno velika i raznovrsna da rezultati merenja efikasnosti ne bi suviše zavisili od samog izbora dokumenata, a dovoljno mala da se njihova relevantnost može proceniti za svaku informacionu potrebu (jer to treba da uradi jedan čovek, ili što je češće slučaj, više ljudi) Praksa pokazuje da je 50 informacionih potreba donja granica 4

Odnos informacione potrebe korisnika i upita n n Relevantnost se određuje relativno u odnosu na informacionu potrebu, a ne na upit. Primer: q Informaciona potreba: n q Može se prevesti u sledeći upit: n n n Information on whether drinking red wine is more effective at reducing your risk of heart attacks than drinking white wine AND red AND white AND heart AND attack AND effective Dokument je relevantan ako odgovara informacionim potrebama korisnika, a ne ako slučajno sadrži reči sadržane u upitu. Zlatni standard treba da omogući procenu raznih sistema – na primer, koliko neki sistemi omogućavaju obradu „inteligentnih“ upita. 5

Paradoks! n Ako na Google-u postavite upit: q n n wine red white heart attack effective Već među prvih 10 odgovora biće dva koja se odnose na kurseve iz Pronalaženja informacija (iz Italije, Hongkonga), slede kursevi iz SAD-a, Velike Britanije, Kanade (na udaljenijim stranama). Svi su preuzeli isti primer (kao i ja) iz knjige: q P. Jackson, I. Moulnier, Natural Language Processing for On-linre. Applications, John Benjamins, Publishing Company, 2007 6

Još jedan primer n Informaciona potreba: q penzioni zakon u republikama bivše Jugoslavije n q "penzioni zakon" AND "republika bivše Jugoslavije" n q Google – ništa na prvoj strani (govori se samo o građanima Srbije koji su staž ostvarivali i u republikama bivše YU) "penzioni zakon" AND (Srbija OR Hrvatska OR Slovenija. . . ) n Google – prvi odgovor relevanantan, svi relevantni na prvoj stanici odnose se na Srbiju 7

Poznate kolekcije za testiranje n Cranfield kolekcija q n TREC 8 (Text Retrieval Conference) q n 528. 000 novinskih vesti i 150 informacionih potreba – nije iscrpno procenjena relevantnost Reuters-RCV 1 q n Iz Velike Britanije, sadrži 1398 članaka iz oblasti aerodinamike i paket od 225 upita – iscrpno procenjena relevantnost 806. 791 dokumenata 20 Newsgroups q Po 1000 članaka iz 20 izabranih Newsgroups 8

Parametri odziv i preciznost za ocenu sistema za pronalaženje bez rangiranih rezultata n Dva glavna parametra za ocenjivanje efikasnosti pronalaženja su u upotrebi već godinama. To su: q q odnos izdvojenih relevantnih stavki i ukupno relevantnih stavki, ili odziv (engl. recall - R) odnos izdvojenih relevantnih stavki i ukupno izdvojenih stavki, ili preciznost (engl. precision P). 9

Odnos parametara odziv i preciznost n n n Za uska pitanja, preciznost je velika - skoro sve izdvojeno je i relevantno - ali je odziv mali jer je u stvari jako malo relevantnih stavki pronađeno. Kako se formulacije upita šire, ukupan broj pronađenih relevantnih dokumenata raste, što povećava odziv. Ali u isto vreme raste i broj izdvojenih nerelevantnih stavki, a to smanjuje preciznost. To jest, uski upiti daju visoku preciznost a mali odziv, dok široki upiti daju obrnuti rezultat veliki odziv a malu preciznost. Ova dva parametra su obrnuto recipročna. 10

Podela kolekcije dokumenata upitom na četiri dela Neizdvojene stavke Nerelevatne stavke Izdvojene stavke Relevatne stavke 11

Preciznost: P=a/(a+b) b – izdvojene nerelevatne stavke a – izdvojene relevantne stvake d – neizdvojene nerelevantne stavke c – neizdvojene relevatne stavke Skupovi a i d treba da budu što veći Skupovi b i c treba da budu što manji Odziv: R= a/(a+c) 12

Preciznost: P=tp/(tp+fp) b=fp – false positive a=tp – true positive d=tn – true negative c=fn – false negative Odziv: R= tp/(tp+fn) 13

Varijacije parametara odziv i preciznost u zavisnosti od širine upita uzak upit malo izdvojenih nerelevantnih malo izdvojenih relevantnih mnogo neizdvojenih relevantnih 14

Varijacije parametara odziv i preciznost u zavisnosti od širine upita širok upit više neizdvojenih nerelevantnih više neizdvojenih relevantnih 15

Odnos parametara preciznost i odziv n n Odziv uvek može da bude visok, čak 1 (tj. 100%) ako ponudimo korisniku sva dokumenta. Odziv je neopadajuća funkcija broja pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata, raste i odziv. Preciznost obično opada sa brojem pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata preciznost pada. R a+b ( x 1, x 2) (x 1 x 2 f(x 1) f(x 2)) P a+b ( x 1, x 2) (x 1 x 2 f(x 1) f(x 2)) 16

Alternativna mera – mera tačnosti n n To je mera koja utvrđuje koliki deo klasifikovanih dokumenata je ispravno klasifikovan, tj. ispravno smešten u grupu relevantnih odnosno nerelevantnih dokumenata. A (accuracy) = (a+d)/(a+b+c+d) = (a+d)/sve A (accuracy) = (tp+tn)/(tp+fp+fn+tn) = (tp+tn)/sve Ovo je mera uspešnosti klasifikacije, tj. uspešnog klasifikovanja dokumenta relevantan/nerelantan 17

Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje n Podaci su često vrlo iskrivljeni. Naime, n najčešće je najveći deo dokumenata kolekcije nerelevantan, i do 99, 9%. Ako bismo želeli da podesimo sistem na maksimalnu tačnost dovoljno je da odbacimo sva dokumenta i dobićemo tačnost od skoro 100%. Za korisnike je to nepoželjno jer oni najčešće žele da dobiju bar neki odgovor, čak iako je on izmešan sa dosta nerelevantnih odgovora. 18

Jedan parametar koji meri izbalansiranost odziva i preciznosti n n U opštem slučaju korisnik želi da dobije određen nivo odziva pri čemu će tolerisati određen procenat pogrešno određenih relevantnih odgovora (b=fp) U posebnom slučaju q q Veb surfer obično želi da mu svi rezultati na prvoj stranici budu relevantni (visoka preciznost) dok ga uopšte ne interesuje da pronađe sve relevantne niti misli da ih gleda Istraživač koji radi za tajnu službu želi da pronađe sve relevantne i uopšte ga ne brine ako će zato morati da pregleda i mnogo nerelevantnih ponuđenih. 19

F-mera koja se zasniva na harmonijskoj sredini n Šta je harmonijska sredina? q Aritmetička sredina: q A=(P+R)/2 Geometrijska sredina: G= P R q Harmonijska sredina: H=2/(1/P+1/R) Uvek važi: H G A Harmonijska sredina naginje manjoj od dve vrednosti Ona teži da neutrališe uticaj većeg, a potencira značaj manjeg 20

Prednosti F-mere n Zašto aritmetička sredina nije dobra? q q Pošto uvek možemo da dobijemo odziv 100% ako izdvojimo sva dokumenta, preciznost će biti skoro 0, ali aritmetička sredina će biti 50%, tako da ispada da je rezultat pronalaženja skoro dobar Neka je 1 dokument kolekcije relevantan, i neka je on među 10. 000 pronađenih dokumenata. Tada je: n n R= 1 (ili 100%) P= 1/10000 = 0, 0001 (ili 0, 01%) A=(1+0, 0001)/2 = 0, 50005 (ili 50, 005%) F= (2*1*0, 0001)/(1+0, 0001) = 0, 0002 (ili 0, 02%) 21

Davanje prednosti odzivu ili preciznosti Takvu vrednost α bi izabrao veb surfer Takvu vrednost α bi izabrao radnik tajne službe 22

Evalucija rezultata rangiranog pronalaženja n n n Preciznost, odziv i F-mera se definišu na neuređenim skupovima Ove mere moraju da se prošire ili da se uvedu nove mere ako se rezultati pronalaženja rangiraju (npr. Google) U ovom slučaju se računaju preciznost i odziv za prvih k dokumenata. Kada se k menja dobija se kriva zavisnosti preciznosti od odziva 23

Grafikon preciznost-odziv 24

Izgled grafikona preciznost-odziv n n Ovaj graf ima prepoznatljiv testerast izgled. Zašto? q Ako je (k+1)-i dokument nerelevantan onda odziv ostaje isti a preciznost pada q Ako je (k+1)-i dokument relevantan onda rastu i preciznost i odziv i kriva skače nagore i udesno. Ponekad se uklanjaju ovi zupci tako što se koristi interpolacija: q interpolirana preciznost se dobija kao maksimalna preciznost na nekom utvrđenom nivou odziva r (najveća preciznost za svaki odziv q > r). q Opravdanje za ovo je da je skoro svako spreman da gleda malo više dokumenata ako će time dobiti nešto više relevantnih q Crvena linija na prethodnom grafikonu. q Sa rastom odziva, dodavanje novog dokumenata pronađenim dokumentima jako malo utiče na preciznost (pri kraju grafikona plava i crvena linija se skoro poklapaju). 25

Interpolirana srednja preciznost u 11 tačaka n n n Izučavanje celokupne krive preciznost-odziv je informativno ali nepraktično. Postoji potreba da se merenje svede ako je moguće na jedan broj. Za svaku informacionu potrebu iz probnog skupa se računa interpolirana preciznost na 11 nivoa odziva: 0. 0, 0. 1, 0. 2, . . . , 0. 9, 1. 0. Za svaki od 11 nivoa odziva se zatim računa srednja vrednost interpoliranih preciznost za sve informacione potrebe. 26

Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih potreba) 27

Prosečna preciznost (Average Precision) n n Daje meru uspešnosti pronalaženja kao jedan broj. AP je prosečna preciznost p(r) u intervalu r=0 do r=1. Računa se kao zbir za svaki dodati dokument u listi rangiranih dokumenata. Gde je k rang u sekvenci pronađenih dokumenata, n je broj pronađenih dokumenata, P(k) je preciznost u presečnoj tački k, a Δr(k) je promena u odzivu s (k-1) -vog rangiranog dokumenta do k-tog. 28

Prosečna preciznost (Average Precision) n n n Prethodna suma je ekvivalentna sa: gde je rel(k) indikator koji ima vrednost 1 ako je dokument rangiran kao k-ti relevantan, inače dobija vrednost 0. Primetimo da se srednja vrednost računa za sva relevantna dokumenta, pa relevantna koja nisu pronađena dobijaju preciznost 0. 29

Srednja prosečna preciznost (Mean Average Precision) - n Srednja prosečna preciznost za skup upita MAP (informacionih potreba) je srednja vrednost prosečnih vrednosti za svaki upit. n n gde je Q broj upita. Ova MAP mera je veoma osetljiva na same upite (jer neki vraćaju veliki broj dokumenata a neki veoma malo). 30

U slučaju ovog sistema i 50 informacionih potreba korišćenih za procemu MAP=0, 2553. 31