Automatsko indeksiranje Cvetana Krstev as 8 1 Indeksno

Automatsko indeksiranje Cvetana Krstev čas 8. 1

Indeksno okruženje n n n Identifikovanje i kasnije pronalaženje zapisa kao odgovor na zahteve

Šta je indeksiranje? n n n To je proces konstruisanja surogata dokumenata pridruživanjem identifikatora

Šta znače određeni pojmovi koji se odnose na indeksiranje? (1) n Vrste identifikatora teksta:

Šta znače određeni pojmovi koji se odnose na indeksiranje? (2) n Metode indeksiranja: q

Šta znače određeni pojmovi koji se odnose na indeksiranje? (3) n Većina procedura automatskog

Šta znače određeni pojmovi koji se odnose na indeksiranje? (4) n Metode indeksiranja q

Šta znače određeni pojmovi koji se odnose na indeksiranje? (5) n n Metode indeksiranja.

Primer koji objašnjava prekoordinisano i postkoordinisano Pre-coordination Post-coordination indeksiranje Severe Complicated Measles Severe +

Automatsko naspram ručnog indeksiranja n ručno n automatsko indeksiranje kontrolisani indeksni rečnici q nekontrolisani

Ciljevi indeksiranja – dubina indeksiranja n Efikasnost svake analize sadržaja ili svakog indeksnog sistema

Veza iscrpnosti i specifičnosti indeksiranja i parametara odziv i preciznost n Odziv (R) je

Optimizacija odziva i preciznosti n n Odziv i preciznost se kreću od 0 do

Uticaj iscrpnosti na odziv i preciznost n n U iscrpnom indeksu su pobrojani svi

Balansiranost odziva i preciznosti n n Kada treba birati između velike specifičnosti i velike

Metode automatskog indeksiranja n Prema Džerardu Seltonu (Gerard Salton), pioniru pronalaženja informacija i automatskog

Gerard Salton (1927 -1995) n n Profesor računarstva sa Univerziteta Kornel Pionir oblasti pronalaženje

Na čemu se zasnivaju metode automatskog indeksiranja? n Ideja da se predmet dokumenta analizira

Postupak automatskog indeksiranja pojedinačnim terminima n n n Na ovim idejama Seltona i Luna

Postupak automatske izrade indeksa zasnovanog na frekvenciji pojedinačnih reči n n Izdvojiti sve reči

Frekvencija termina n n Frekvencija termina u datom dokumentu je jednostavno broj koji pokazuje

Frekvencija termina n Na ovaj način se frekvencija termina definiše na sledeći način: n

Adekvatnost mere tfij n n n Tehnike indeksiranja koje se zasnivaju na frekvenciji termina

Nova mera – kako zadovoljiti parametar preciznosti? n n Visoko frekventan termin je prihvatljiv

Nova mera – frekvencija dokumenata n Ako se frekvencija dokumenta dfj definiše kao broj

Karen Sparck Jones (1935 -2007) n n n Profesor na univerzitetu u Kembridžu Dala

Zašto se koristi logaritamska funkcija? Odnos inverzne funkcije y=1/x i logaritmaske funkcije y=log x

Primer n Termini car, auto, insurence, best se javljaju u Reuters kolekciji vesti (kolekcija

Kombinovana mera - wij n n n Dve prethodne mere mogu se kombinovati u

Kako se ponaša mera tf-idf? n Mera tf-idf koja dodeljuje težinu wij termina Tj

Kako se izračunava relevantnost dokumenta za upit? n Možemo da posmatramo svaki dokument kao

Jedan zadatak n n n Neka je data ista Rojters kolekcija (N=806, 791). Neka

Rešenje br. 1 – apsolutne frekvencije Npr. w 11 = 27*log(44. 41) 33

Rešenje br. 2 – relativne frekvencije Npr. w 11 = (27*log(44. 41))/4237 34

Komentar mere tf-idf n n Zašto je mera idf uvek konačna? Kolika je mera

Slides: 35

Download presentation

Automatsko indeksiranje Cvetana Krstev čas 8. 1

Indeksno okruženje n n n Identifikovanje i kasnije pronalaženje zapisa kao odgovor na zahteve za informacijama obično zavisi od stepena podudaranja između teksta dokumenta i formulacije upita. U principu, izračunavanje sličnosti može da uključi direktno poređenje reči ili rečenica koje se koriste u informacionim jedinicama (dokumentima i upitima), na primer, kroz skaniranje teksta. U praksi, rečnik informacionih stavki je veoma raznovrstan, a broj reči ili rečenica koje se koriste u mnogima od njih može da bude tako veliki da potpuno poređenje teksta različitih informacionih jedinica postaje nemoguće. U takvim okolnostima, preporučuje se da se sadržaj zapisa i upita prvo karakteriše pridruživanjem specijalnih deskriptora sadržaja ili profila koji identifikuju jedinice i reprezentuju njihov sadržaj. Tekstualni profili se mogu koristiti kao skraćeni opisi, a takođe mogu da služe i kao surogati dokumenata i upita u toku tekstualnih operacija pretraživanja i pronalaženja dokumenata. 2

Šta je indeksiranje? n n n To je proces konstruisanja surogata dokumenata pridruživanjem identifikatora tekstualnim jedinicama. U prošlosti su indeksne operacije obično obavljali stručnjaci iz određene oblasti ili obučene osobe sa iskustvom u dodeljivanju deskriptora sadržaja. Danas se originalni tekst informacionih jedinica korisiti kao osnova za indeksiranje, a analizom teksta upravljaju automatske (računarski podržane) procedure. I u jednom i u drugom slučaju indeksiranje pridružuje informacionim jedinicama identifikatore sadržaja koji mogu korisnike da dovedu do određenih jedinica kao odgovor na njihove specifične informacioni zahteve. Pridruživanje dobro izabranih identifikatora sadržaja korisno je takođe i za međusobno povezivanje jedinica – to se onda zove klasifikovanje. Različite jedinice za koje se identifikatori sadržaja u velikoj meri preklapaju obično pokrivaju sličnu ili na neki način povezanu informaciju. 3

Šta znače određeni pojmovi koji se odnose na indeksiranje? (1) n Vrste identifikatora teksta: q q n Objektivni identifikatori (ili identifikatori meta-podataka) su, recimo, ime autora, ime izdavača, datum izdavanja, broj stranice i oni se u opštem slučaju mogu primeniti na sve informacione jedinice. Takođe, nema mnogo razmimoilaženja među stručnjacima oko toga kako se objektivni identifikatori pridružuju, jer vrlo razvijeni sistemi kataloških pravila upravljaju metodama i oblikom dodeljivanja ovih identifikatora. Nasuprot tome, ne postoji opšta saglasnost oko izbora i stepena primenljivosti neobjektivnih termina (ili identifikatora sadržaja) koji se odnose na sadržaj informacije (ili teksta). Mi ćemo se sada uglavnom baviti pitanjem izbora efikasnih identifikatora sadržaja i automatskim metodama za određivanje korisnih identifikatora. 4

Šta znače određeni pojmovi koji se odnose na indeksiranje? (2) n Metode indeksiranja: q q n ručne metode indeksiranja automatske metode indeksiranja, Vrste indeksnih rečnika koje se postupkom indeksiranja proizvode: q q kontrolisani indeksni rečnici. Kada indeksiranje ručno obavlja čovek, stručnjak u nekoj oblasti, on za taj posao obično konsultuje neke pomoćne terminološke liste koje opisuju dozvoljene rečničke forme i daju instrukcije za korišćenje termina. Kada obrazovana osoba koristi ovakva indeksna pomagala može se postići značajan stepen uniformnosti indeksiranja i visoki kvalitet. nekontrolisani indeksni rečnici. Terminološke liste i priručnike je teže koristiti u okruženju automatskog indeksiranja. 5

Šta znače određeni pojmovi koji se odnose na indeksiranje? (3) n Većina procedura automatskog indeksiranja zasniva na rukovanju tekstom informacionih jedinica, pa se razlikuje: q q indeksiranje dodeljivanjem termina, i indeksiranje ekstrahovanjem termina iz teksta. U ovom slučaju indeksni rečnik je mnogo slabije kontrolisan nego kod indeksiranja dodeljivanjem termina (koje je obično ručno indeksiranje) i obično se pridružuju raznovrsniji indeksni deskriptori. Svaka tekstualna jedinica tada se može pronaći u odnosu na raznovrsne informacione zahteve, a korisnici imaju veću slobodu u formulisanju upitnih iskaza nego što je to slučaj kod sistema sa kontrolisanim rečnicima. 6

Šta znače određeni pojmovi koji se odnose na indeksiranje? (4) n Metode indeksiranja q q jednim terminom. Indeksne jedinice koji se kače uz informacione jedinice sastoje se od skupa pojedinačnih termina od kojih svaki odražava neki aspekt sadržaja teksta, dok indikatori veza među tim terminima u indeksnoj jedinici ne postoje. Međutim, naznake veza među terminim mogu se dodati u vreme pretraživanja odgovarajućim kombinovanjem termina u formulaciji upita. fraznim terminima. 7

Šta znače određeni pojmovi koji se odnose na indeksiranje? (5) n n Metode indeksiranja. q pre-koordinisano indeksiranje. Dokumentima se pridružuju kompleksne informacione jedinice koje se sastoje od fraza ili grupa termina sa specifikovanim naznakama veza među njima. Biranje i dodeljivanje prekoordinisanih grupa termina je očigledno mnogo zahtevnije od korišćenja indeksnih rečnika zasnovanih na pojedinačnim terminima. q post-kooridinisano indeksiranje. Izabranim terminima se pridružuju referensni termini (tipa ‘vidi’ i ‘vidi i ‘). Osnovne razlike između ova dva sistema indeksiranja su da se kod postkoordinisanog indeksiranja svaki ulaz u indeks sastoji od jednog termina koji se ne referiše na kontekst, dok se kod pre-koordinisanog indeksiranja svaki unos u indeks predstavlja u odnosu na ukupni kontekst. Tako kod pre-koordinisanog indeksiranja unos u indeks prikazuje temu dokumenta, dok to nije slučaj kod post-kooridinisanog indeksiranja. 8

Primer koji objašnjava prekoordinisano i postkoordinisano Pre-coordination Post-coordination indeksiranje Severe Complicated Measles Severe + Complicated + Measles Left Upper Lobe Scarring Left + Upper + Lobe of Lung + Scarring Recurrent intravascular papillary endothelial hyperplasia of the right middle finger intravascular papillary endothelial hyperplasia + middle finger structure + right • Prekoordinisano indeksiranje vodi ka „eksploziji termina“ • Postkoordinisanim indeksiranjem se dobijaju suviše iscepkani termini bez specifičnog značenja 9

Automatsko naspram ručnog indeksiranja n ručno n automatsko indeksiranje kontrolisani indeksni rečnici q nekontrolisani indeksni rečnici q dodeljivanje indeksnih jedinica q ekstrahovanje iz teksta dokumenta q frazni termini q pojedinačni termini q prekoordinisano indeksiranje - termini je u nužno nesavršeno. q postkoordinisano Svako automatsko indeksiranje Međutim, potreba da kontekstu indeksiranje se koristi veliki broj različitih indeksera-eksperata u okruženju ručnog q indeksiranja takođe uvodi neželjenu raznovrsnost i nesigurnost koja može nepovoljno da utiče na efikasnost pretraživanja. U praksi, rezultati pronalaženja koji se mogu dobiti naprednim procedurama automatskog indeksiranja nisu ništa 10 slabiji od rezulatata koji se dobijaju u okruženju ručnog, kontrolisanog

Ciljevi indeksiranja – dubina indeksiranja n Efikasnost svake analize sadržaja ili svakog indeksnog sistema kontroliše se sa dva glavna parametra. To su: q iscrpnost indeksiranja. Iscrpnost indeksiranja odražava stepen obuhvaćenosti svih aspekta teme tekstualne stavke u indeksnoj jedinici. Kada je indeksiranje iscrpno, obično se pridružuje veliki broj termina, pa su čak i manje značajni aspekti teme predstavljeni odgovarajućim pridruživanjem termina. Obrnuto je neiscrpno indeksiranje kod koga se prepoznaju samo glavni aspekti sadržaja teme. q specifičnost termina. Specifičnost termina odnosi se na stepen širine termina. Specifičniji termini bolje predstavljaju temu dokumenta. Kada se koriste široki termini za indeksiranje, mnogo će se korisnih informacionih stavki pronaći zajedno sa značajnom količinom nekorisnog materijala, što je prirodno jer široki termini ne mogu da razlikuju relevantne od nerelevantnih stavki. Uski termini, s druge strane, pronalaze relativno malo stavki ali većina pronađenog materijala biće za korisnika korisna. 11

Veza iscrpnosti i specifičnosti indeksiranja i parametara odziv i preciznost n Odziv (R) je odnos između pronađenog relevantnog materijala i ukupno relevantnog materijala: n preciznost (P) je odnos pronađenog materijala koji je relevantan prema ukupno pronađenom materijalu 12

Optimizacija odziva i preciznosti n n Odziv i preciznost se kreću od 0 do 1, ili, što je ekvivalentno od 0 do 100%, a u praksi svaki korisnik želi da postigne i veliki odziv i veliku preciznost: tj. , poželjno je da veliki deo korisnog materijala bude pronađen, a u isto vreme da veliki deo pronađenih stavki bude relevantan. U praksi, mora se postići kompromis jer se istovremena optimizacija odziva i preciznosti obično ne može postići. Kada je rečnik indeksiranja uzak i specifičan, preciznosti pronalaženja daje se prednost na uštrb odziva, jer se tada mnoge nebitne stavke odbacuju, ali i mnoge korisne. Obrnuto se dešava kada je rečnik indeksiranja širok i nespecifičan: tada je odziv bolji na uštrb preciznosti. 13

Uticaj iscrpnosti na odziv i preciznost n n U iscrpnom indeksu su pobrojani svi mogući indeksni termini. Što je indeks iscrpniji veći je odziv, tj. veća je verovatnoća da će sva relevatna dokumenta biti pronađena; međutim, do toga dolazi po cenu pada preciznosti, što znači da će korisnik dobiti veliki broj nerelavntnih dokumenata, ili dokumenata koji se samo usput dotiču teme. Kod ručnog indeksiranja proizvodnja iscrpnog indeksa, znači veće angažovanje većeg broja ljudi (dakle, veću cenu) dok to kod automatskih sistema nije od značaja. Na drugoj strani su selektivni indeksi koji pokrivaju samo najvažnije aspekte teme dokumenta. Sa ovakvim indeksima opada odziv, kao da indekser nije uključio dovoljno termina, što može da dovede do toga da mnoga relevantna dokumenta budu ispuštena. Prema tome, indeksiranje treba da bude balansirano i da vodi računa za šta će se dokument koristiti. Treba, naravno da se vodi računa i o uticaju iscrpnosti indeksiranja na faktore kao što su vreme i cena. 14

Balansiranost odziva i preciznosti n n Kada treba birati između velike specifičnosti i velike širine termina, onda se prednost obično daje specifičnosti jer izlaz koji proizvodi alternativa - visoki odziv, niska preciznost - teži da zatrpa korisnika velikom količinom pronađenog materijala. Nasuprot tome, visoka preciznost pronalazi manje stavki koje je mnogo lakše ispitati. Takođe, nedostatak preciznost se može lakše popraviti jer se preciznost može utvrditi ispitivanjem korisnosti pronađenog materijala, dok odziv zavisi i od relevantnih stavki kolekcije koje nisu pronađene. Da bi se izračunao odziv tada treba koristiti metode procene i tehnike uzorkovanja, dok se preciznost može dobiti direktno iz rezultata pretrage. 15

Metode automatskog indeksiranja n Prema Džerardu Seltonu (Gerard Salton), pioniru pronalaženja informacija i automatskog indeksiranja: q n “. . . when the assignment of the content identifiers is carried out with the aid of modern computing equipment the operation becomes automatic indexing. ” Prema Seltonu, prednosti automatskog indeksiranja su: q q može se postići zadovoljavajući nivo konzistentnosti indeksiranja; cena proizvodnje indeksnih stavki je manja (posmatrano u dužem vremenskom razdoblju); vreme potrebno za indeksiranje se smanjuje; može se postići bolja efikasnost pronalaženja. 16

Gerard Salton (1927 -1995) n n Profesor računarstva sa Univerziteta Kornel Pionir oblasti pronalaženje informacija Doktorirao je kod Hauarda Aikena, konstruktora jednog od prvih računara, Harvard Mark I Njegov doktoran je bio Amit Singhal, jedan od potpredsednika Google-a, u kompaniji je zadužen za algoritme pretraživanja. 17

Na čemu se zasnivaju metode automatskog indeksiranja? n Ideja da se predmet dokumenta analizira pomoću automatskog prebrojavanja pojavljivanja termina u dokumentu potiče od Hansa Petera Luhna (računarskog stručnjaka iz IBM-a) koji je 1957. godine pisao: q q q frekvencija pojavljivanja reči u nekom dokumentu daje korisnu meru značaja te reči; relativna pozicija reči unutar rečenice daje korisnu meru za određivanje značaja te rečenice; i faktor značaja neke rečenice zasnivaće se na kombinaciji ova dva zahteva. 18

Postupak automatskog indeksiranja pojedinačnim terminima n n n Na ovim idejama Seltona i Luna se zanivaju prve, najjednostavnije metode automatskog indeksiranja. Pri pisanju tekstova, gramatičke funkcionalne reči kao što su and, of, or ili but ispoljavaju približno istu frekvenciju pojavljivanja u svim dokumentima kolekcije. Šta više, većinu funkcionalnih reči karakteriše visoka frekvencija pojavljivanja u uobičajenim tekstovima. S druge strane, nefunkcionalne reči koje bi se stvarno mogle odnositi na sadržaj dokumenta pojavljuju se u tekstu s veoma različitim frekvencijama u različitim tekstovima kolekcije. Šta više, frekvencija pojavljivanja nefunkcionalnih reči može se, u stvari, koristiti da ukaže na značaj termina za reprezentaciju sadržaja. 19

Postupak automatske izrade indeksa zasnovanog na frekvenciji pojedinačnih reči n n Izdvojiti sve reči dokumenta; Eliminisati uobičajene funkcionalne reči iz teksta dokumenta konsultujući specijalan rečnik, ili stop listu, koja sadrži listu visoko frekventnih funkcionalnih reči. q n n Na primer, za srpski su 10 najfrekevtnijih reči (prema korpusu): i, je, u , da, se, na, za, su, od, a – sve su funkcionalne reči. Izračunati relativnu frekvenciju termina tfij za sve preostale termine Tj u svakom dokumentu Di koja specifikuje broj pojavljivanja Tj u Di. Izabrati prag frekvencije T, i pridruži svakom dokumentu Di sve termine Tj za koje je tfij >T. 20

Frekvencija termina n n Frekvencija termina u datom dokumentu je jednostavno broj koji pokazuje koliko puta se taj termin (reč) pojavljuje u tom dokumentu. Ova frekvencija se obično normalizuje da bi se izbeglo davanje prednosti dužim dokmentima u kojima neki termin može imati veću frekvenciju bez obzira na njegov značaj. Tako se dobija mera značaja termina Tj unutar određenog dokumenta Di. 21

Frekvencija termina n Na ovaj način se frekvencija termina definiše na sledeći način: n Gde je nij apsolutni broj pojavljivanja termina Tj unutar određenog dokumenta Di n Prema tome, suma u imeniocu ( - sigma) je ukupan broj pojavljivanja svih (značećih reči u dokumentu). Postoje i druge mogućnosti: npr. logaritamski skalirana frekvencija: tfij = 1 + log nij 22

Adekvatnost mere tfij n n n Tehnike indeksiranja koje se zasnivaju na frekvenciji termina korišćene su u mnogim ranim eksperimentima s indeksiranjem. Međutim, kao što su prethodna razmatranja o funkciji odziva i preciznosti u pronalaženju informacija pokazala, mera frekventnosti termina zadovoljava samo jedan od osnovnih ciljeva pronalaženja, a to je odziv. Zaista, termin kao što je apple koji se pojavljuje sa razumnom frekvencijom u određenim dokumentima svakako ukazuje da se odgovarajuće stavke odnose na jabuke. Dodeljivanje termina apple sa visokom težinom frekvencije pomoći će da se pronađu ova dokumenta kao odgovor na odgovarajuće upite. Nažalost, funkcija preciznosti pronalaženja se dobro ne zadovoljava dodeljivanjem svih visoko frekventnih termina tekstu dokumenata, jer visoka preciznost podrazumeva mogućnost da se individualna dokumenta razlikuju jedna od drugih da bi se sprečilo neželjeno pronalaženje nebitnih stavki. 23

Nova mera – kako zadovoljiti parametar preciznosti? n n Visoko frekventan termin je prihvatljiv za potrebe indeksiranja samo ako njegova frekventnost pojavljivanja nije podjednako visoka u svim dokumentima kolekcije. Konkretno, reč apple ne bi morala da bude idealan indeksni termin čak iako bi njegova frekvencija pojavljivanja bila visoka u određenim dokumentima kolekcije. Ovo tim pre ako bi se radilo o kolekciji tekstova iz pomologije (nauka o gajenju voća) u kojoj skoro sva dokumenta sadrže reč apple mnogo puta. Funkciju preciznosti u stvari mnogo bolje zadovoljavaju termini koji se pojavljuju retko, tj. samo u pojedinim dokumentima kolekcije, jer takvi termini svakako mogu da izdvoje nekoliko dokumenata u kojima se pojavljuju od onih dokumenata u kojima ih nema. 24

Nova mera – frekvencija dokumenata n Ako se frekvencija dokumenta dfj definiše kao broj dokumenata u kolekciji od N dokumenata u kojima se termin Tj pojavljuje, tada se prihvatljivi indikator vrednosti termina kao diskriminatora dokumenata može zadati kao inverzna funkcija frekvencije dokumenta tog termina. Tipičan faktor inverzne frekvencije dokumenta idf ovog tipa zadaje se sa log N/df_j. n Uvođenje indeksa inverzne frekvencije dokumenata se pripisuje Karen Spärck Jones, koja je bila britanski računarski stručnjak, posebno se istakla u oblastima pronalaženja informacija i obrade prirodnih jezika. 25

Karen Sparck Jones (1935 -2007) n n n Profesor na univerzitetu u Kembridžu Dala je veliki doprinos razvoju oblasti pronalaženje informacija i obrada prirodnih jezika Uvela je indeks inverzne frkvencije u termina u dokumentima u pronalaženje 26 informacija

Zašto se koristi logaritamska funkcija? Odnos inverzne funkcije y=1/x i logaritmaske funkcije y=log x logaritam inverzne funkcije linearna funkcija 27

Primer n Termini car, auto, insurence, best se javljaju u Reuters kolekciji vesti (kolekcija ima N=806, 791 vest) na način prikazan u tabeli. 44. 41 = 806791/18165 1. 65 je logaritam od 44. 41 28

Kombinovana mera - wij n n n Dve prethodne mere mogu se kombinovati u jedan model indeksiranja zasnovan na frekvenciji koji tvrdi da su najbolji indeksni termini - oni koji zadovoljavaju i funkciju odziva i funkciju preciznosti pronalaženja - oni koji su frekventni u individualnim dokumentima ali se retko pojavljuju u ostalom delu kolekcije. Tipičan kombinovani indikator značaja termina ove vrste je Tako se poboljšana politika indeksiranja sastoji od eliminacije uobičajenih funkcionalnih reči, kao i ranije, a zatim od računanja wij za svaki termin Tj u svakom dokumentu Di , računanja inverzne frekvenicije dokumenata idf i dodeljivanju dokumentima kolekcije svih termina koji imaju dovoljno velike faktore tf-idf. Eksperimentalni podaci ukazuju da korišćenje kombinovanih faktora frekvencije termina i frekvencije dokumenata obezbeđuje visok nivo pronalaženja. 29

Kako se ponaša mera tf-idf? n Mera tf-idf koja dodeljuje težinu wij termina Tj iz dokumenta Di je q q q najveća kada se termin Tj pojavljuje mnogo puta u malom broju dokumenata (na taj način termin daje visoku diskriminatornu vrednost dokumentima); manja kada se termin ne pojavljuje puno puta u dokumentu ili ako se javlja u mnogo dokumenata; najmanja kada se termin pojavljuje u gotovo svakom dokumentu. 30

Kako se izračunava relevantnost dokumenta za upit? n Možemo da posmatramo svaki dokument kao vektor u kome svaka komponenta odgovara jednom terminu iz rečnika kolekcije, i ta komponenta je upravo težina termina za dokument izračunata kao tf-idf. q q q Za one termine iz rečnika koji se ne pojavljuju u dokumentu ta težina će biti 0 (jer je, naravno tfij=0). Ovaj vektor je od suštinskog značaja za procenjivanje i rangiranje. Procena dokumenta u odnosu na upit može da bude zbir kombinovanih indeksa svih termina iz vektora upita: 31

Jedan zadatak n n n Neka je data ista Rojters kolekcija (N=806, 791). Neka su date frekvencije pojavljivanja ovih istih termina u tri dokumenta. Treba izračunati težine tf-idf ova četiri termina za ova tri dokumenta. 32

Rešenje br. 1 – apsolutne frekvencije Npr. w 11 = 27*log(44. 41) 33

Rešenje br. 2 – relativne frekvencije Npr. w 11 = (27*log(44. 41))/4237 34

Komentar mere tf-idf n n Zašto je mera idf uvek konačna? Kolika je mera idf termina koji se javlja u svakom dokumentu kolekcije? Može li mera tf-idf da bude veća od 1? q Kada se termin javlja u svakom dokumentu onda je dfj=N, pa je N/dfj=1, pa je log(N/dfj)=0 (vrednost termina za indeksiranje nikakva). q Kada se termin javlja samo u jednom dokumentu (mora da se javi bar u jednom, inače ga uopšte ne bismo razmatrali), onda je dfj=1, pa je N/dfj=N, pa je log(N/dfj)>>0 (vrednost termina za indeksiranje jako dobra). q ako se računa sa normalizovanim frekvencijama, onda ne može. Kako osnova logaritma utiče na rangiranje dokumenata? q utiče na vrednosti idf koeficijenta, ali ne i na rangiranje 35