Automatsko indeksiranje diskriminatorna vrednost termina i indeksiranje frazama

Diskriminatorna vrednost termina n Ranije je pomenuto da je poželjno svojstvo korisnih indeksnih termina

Pretpostavljamo da je kolekcija dokumenata predstavljena matricom dokumenata i termina. dij je ili 0/1

Šta je gustina prostora dokumenata? n Posmatrajmo kolekciju reprezentovanu na slici, u kojoj svaka

Šta je gustina prostora dokumenata? n n Kada se dvama dokumentima dodele vrlo slični

Šta se događa kada se kolekciji dokumenata doda novi termin koji nije dobar diskriminator?

Šta se događa kada se kolekciji dokumenata doda novi termin koji jeste dobar diskriminator?

Diskriminatorna vrednost termina n Ovo rasuđivanje sugeriše da se diskriminatorna vrednost termina dvj nekog

Šta znači ova formula? n n n Za N=4 Spoljašnja (sigma) znači da i

Kako se računa sličnost između dva dokumenta? n n Kao mera sličnosti dva dokumenta

Kako se još može računati Dajsov indeks? n Ako su termini Tij dodeljeni dokumentima

Ko je bio Lee Raymond Dice (18871977) n n Zanimljivo je da je on

Šta su dobri diskriminatori? n Formula dvj=Qj-Q pokazuje da se dobrim diskriminatorima koji su

Promena diskriminatorne vrednosti u zavisnosti od frekvencije dokumenata transformacija tezaurusom transformacija frazama 0 niska

Razlika između parametara frekvencije dokumenata i n Slika pokazuje da za razliku od faktora

Primer n Neka su data dva dokumenta: q q n n Što znači da

Primer 2 – postavka zadatka n n n Neka su data tri dokumenta sa

Primer 2 – gustina prostora kada su dodeljena sva četiri termina (D 1, D

Primer 2 – gustina prostora kada su dodeljena tri termina (bez prvog) (D 1,

Konačan odgovor dv 1=Q 1 -Q = 0. 00189 -0. 00387 = -0. 00198

Ograničenja indeksiranja pojedinačnim rečima n n n Model koji je do sada prestavljen i

Veze termina pri indeksiranju n n Pristupi indeksiranju koji su do sada opisani zasnivali

Povezivanje termina prilikom ručnog indeksiranja n n Kada analizu konteksta i indeksiranje ručno obavljaju

Povezivanje termina prilikom automatskog indeksiranja n Korišćenje kompleksnih tekstualnih identifikatora koji se sastoje od

Klasifikacija termina ili clustering n n Metod identifikovanja kombinacija termina višeg reda sastoji se

Kako se koristi matrica termina i dokumenata za klasifikaciju n Prvo, moguće je porediti

Kako se koristi matrica termina i dokumenata za klasifikaciju n Alternativno se mogu posmatrati

Problemi sa ovakvom automatskom klasifikacijom n n Problem sa klasama termina koje su konstruisane

Lingvističke metode za formiranje kompleksnih termina n n Za indeksiranje su predložene lingvističke metode

Korisnost fraza identifikovanih kao sekvencije vrsta reči n n Ovakvim postupcima mogu da se

Slides: 30

Download presentation

Automatsko indeksiranje – diskriminatorna vrednost termina i indeksiranje frazama Cvetana Krstev čas 9. 1

Diskriminatorna vrednost termina n Ranije je pomenuto da je poželjno svojstvo korisnih indeksnih termina mogućnost razlikovanja dokumenata kolekcije jednih od drugih. Na prošlom času je diskriminatorska vrednost termina aproksimisana korišćenjem specifičnosti termina koja se izračunavala kao inverzna vrednost frekvencije dokumenata. 2

Pretpostavljamo da je kolekcija dokumenata predstavljena matricom dokumenata i termina. dij je ili 0/1 (dodeljen dokumentu/nije dodeljen) Ili su dodeljene težine npr. tf-idf 3

Šta je gustina prostora dokumenata? n Posmatrajmo kolekciju reprezentovanu na slici, u kojoj svaka zvezdica predstavlja određeni dokument kolekcije, a pretpostavlja se da je rastojanje između dve takve zvezdice inverzno proporcionalna sličnosti između odgovarajućeg pridruživanja termina (manje rastojanje – veća sličnost; veće rastojanje – manja sličnost) 4

Šta je gustina prostora dokumenata? n n Kada se dvama dokumentima dodele vrlo slični skupovi termina, odgovarajuće tačke u konfiguraciji dokumenata se pojavljuju veoma blizu; obrnuto se događa kada su odgovarajući skupovi termina različiti. Kada je data konfiguracija prostora kao ona na slici, izgleda razumno da se vrednost termina kao diskriminatora dokumenata aproksimira korišćenjem vrste promene do koje dolazi u konfiguraciji prostora kada se termin dodeli dokumentima kolekcije. Gustina prostora Q – svih t termina je dodeljeno 5

Šta se događa kada se kolekciji dokumenata doda novi termin koji nije dobar diskriminator? n Kada se dodeli visoko frekventan termin (Tj) koji ne pravi razliku između stavki kolekcije, takav termin će se pojaviti u mnogim dokumentima, i takva dodela će učiniti dokumente sličnijim. To se odražava na povećanje gustine prostora dokumenata. Gustina prostora Qj – termin Tj nije dodeljen Gustina prostora Q – termin Tj je dodeljen 6

Šta se događa kada se kolekciji dokumenata doda novi termin koji jeste dobar diskriminator? n Kada se dobar diskriminator (Tj) dodeli dokumentima kolekcije, one stavke kojima je termin dodeljen izdvojiće se od ostalog dela kolekcije; to bi trebalo da uveća srednje rastojanje između stavki kolekcije i prema tome da proizvede prostor dokumenata koji je manje gust. Gustina prostora Qj – termin Tj nije dodeljen Gustina prostora Q – termin Tj je dodeljen 7

Diskriminatorna vrednost termina n Ovo rasuđivanje sugeriše da se diskriminatorna vrednost termina dvj nekog termina Tj može izračunati kao razlika u gustini prostora pre i posle dodeljivanja termina Tj dokumentima kolekcije: dvj=Qj-Q n Gustina prostora Q i Qj sa i bez dodeljenog termina Tj može se izračunati na različite načine, dok je koncepcijski najjednostavniji način onaj koji koristi jednostavno srednju vrednost sličnosti između svih parova različitih stavki: n gde sim(Di, Dk) predstavlja koeficijent sličnosti između dokumenata Di i Dk koji se zasniva na sličnosti indeksnih termina koji su im dodeljenih. 8

Šta znači ova formula? n n n Za N=4 Spoljašnja (sigma) znači da i uzima redom vrednosti od 1 do 4 – ona sabira sličnost dokumenta Di sa svim ostalim dokumentima kolekcije (osim sa samim sobom), Unutrašnja znači da za svako i, k uzima redom vrednosti od 1 do 4, koje su različite od tekućeg i (da se ne bi računala sličnost dokumenta sa samim sobom). 9

Kako se računa sličnost između dva dokumenta? n n Kao mera sličnosti dva dokumenta često se koristi takozvani Dajsov indeks ili koeficijent (nazvan po Lee Raymond Dice). Ako je Si skup termina dodeljenih dokumentu Di, a Sj skup termina dodeljenih dokumentu Dj, onda se ovaj indeks može definisati kao tj. to je dvostruki broj zajedničkih termina prema ukupnom broju termina u oba dokumenta (ako je S skup, onda je |S| broj elemenata skupa). Ako dokumenta nemaju zajedničkih termina sim(Di, Dj)=0, ako imaju dodeljene potpuno iste skupove termina sim(Di, Dj)=1. 10

Kako se još može računati Dajsov indeks? n Ako su termini Tij dodeljeni dokumentima sa težinama dij (kao što je prikazano na slajdu 3 ovog predavanja) onda se Dajsov indeks može računati i na sledeći način: n tj. to je dvostruki broj zbira proizvoda težina termina dodeljenih jednom i drugom dokumentu (proizvod termina koji nisu zajednički biće 0) prema zbiru težina termina u oba dokumenta. 11

Ko je bio Lee Raymond Dice (18871977) n n Zanimljivo je da je on bio ekolog i genetičar koji je radio na Univerzitetu u Mičigenu. Uveo je u upotrebu ono što je danas poznato kao Dajsov indeks da bi izrazio meru povezanosti između biotičkih uzoraka. 12

Šta su dobri diskriminatori? n Formula dvj=Qj-Q pokazuje da se dobrim diskriminatorima koji su u stanju da razvuku prostor dokumenata dodeljuje pozitivna diskriminatorna vrednost dvj jer će srednja sličnost između stavki biti manja posle dodele termina Tj nego pre, tj. gustina prostora Q se smanjuje (odn. Q što je gustina prostora kada su dodeljeni svi termini je manje od Qj što je gustina prostora kada termin Tj nije dodeljen). q Pozitivne diskriminatorne vrednosti se obično povezuju sa određenim srednje frekventnim terminima koji se ne pojavljuju ni previše retko ni previše često. q Vrlo frekventnim terminima koji su dodeljeni mnogim dokumentima kolekcije se dodeljuju negativne diskriminatorne vrednosti. q Nisko frekventni termini koji se pojavljuju u jednom ili dva dokumenta ne utiču na gustinu prostora ni na jednu stranu; tada su odgovarajuće diskriminatorne vrednosti termina približno jednake nuli. 13

Promena diskriminatorne vrednosti u zavisnosti od frekvencije dokumenata transformacija tezaurusom transformacija frazama 0 niska frekvencija dvj 0 N srednja frekvencija dvj>0 frekvencija dokumenata visoka frekvencija dvj<0 14

Razlika između parametara frekvencije dokumenata i n Slika pokazuje da za razliku od faktora frekvencije diskriminatorne vrednosti n n dokumenata N/dfj koji stabilno opada sa porastom frekvencije dokumenata, diskriminatorna vrednost termina prvo raste od nule ka pozitivnim vrednostima kako vrednost frekvencije dokumenata termina raste, a zatim naglo opada s daljim rastom frekvencije dokumenata. To ukazuje da formula za određivanje težine termina kao što je wij = tfij dvj koja kombinuje frekvenciju termina Tj unutar određenog dokumenta Di sa diskriminatornom vrednošću termina može da proizvede različito rangiranje termina prema njihovoj korisnosti od one koja je ranije korišćena tf-idf. 15

Primer n Neka su data dva dokumenta: q q n n Što znači da su dokumenti u kolekciji indeksirani sa 8 termina (t=8) Tada je Dajsov indeks računat na prvi način: q n n sim(Di, Dj) = 2*3/(5+4) = 6/9 = 2/3 (3 je broj termina dodeljenih i jednom i drugom dokumentu, 5 je broj termina dodeljen prvom dokumentu, a 4 je broj termina dodeljen drugom dokumentu) Dajsov indeks računat na drugi način je: q n Di = (3, 2, 1, 0, 0, 0, 1, 1) Dj = (1, 1, 1, 0, 0) sim(Di, Dj) = 2*(3+2+1)/(8+4) = 12/12 = 1 (3+2+1 je zbir proizvoda dodeljenih težina zajedničkih termina, 8 je zbir težina termina dodeljenih prvom dokumentu, a 4 je zbir težina termina dodeljenih drugom dokumentu) 16

Primer 2 – postavka zadatka n n n Neka su data tri dokumenta sa četiri pridružena termina. Izračunati diskriminatornu T 1 vrednost prvog termina preko. T 2 T 3 gustine prostora kolekcije T 4 dokumenata. Prvo izračunavamo gustinu prostora kada su pridruženi svi termini. Kod računanja vodićemo računa da je sim(Di, Dj)=sim(Dj, Di). D 1 D 2 D 3 17

Primer 2 – gustina prostora kada su dodeljena sva četiri termina (D 1, D 2) (D 1, D 3) (D 2, D 1) (D 2, D 3) (D 3, D 1) (D 3, D 2) 18

Primer 2 – gustina prostora kada su dodeljena tri termina (bez prvog) (D 1, D 2) (D 1, D 3) (D 2, D 1) (D 2, D 3) (D 3, D 1) (D 3, D 2) 19

Konačan odgovor dv 1=Q 1 -Q = 0. 00189 -0. 00387 = -0. 00198 Tumačenje: Gustina prostora je veća sa dodeljenim terminom T 1, nego bez njega, i zato je diskriminatorna vrednost termina negativna – termin T 1 je loš izbor (u ovom iskonstruisanom slučaju je to zato što je on dodeljen svim dokumentima kolekcije). 20

Ograničenja indeksiranja pojedinačnim rečima n n n Model koji je do sada prestavljen i koji se ponekad naziva “bag of words model” (model vreće reči) potpuno zanemaruje redosled reči u dokumentu (i uopšte veze među njima). Od značaja je samo broj pojavljivanja reči u dokumentu (ili dokumentima). Prema ovakvim modelima dokument “John is quicker than Mary” je identičan sa dokumentom “Mary is quicker than John”. Ipak, ne može se poreći da su dokumenta koja imaju istu ili sličnu vreću reči srodna po sadržaju. 21

Veze termina pri indeksiranju n n Pristupi indeksiranju koji su do sada opisani zasnivali su se na dodeli informacionim stavkama indeksnih elemenata od jednog termina. U takvim okolnostima se uskladišteni slogovi identifikuju skupom pojedinačnih termina koji se zajedno koriste da bi reprezentovali informatički sadržaj svakog zapisa. Međutim, korišćenje indeksnih jedinica od jednog termina se može opravdati samo iz funkcionalnih razloga. U stvari, dodeljivanje pojednačnih termina stavkama iz kolekcije nije idealno: pre svega, jer pojedinačni termini kada se koriste izvan konteksta često imaju dvosmisleno značenje, a osim toga mnogi pojedinačni termini su ili previše specifični ili suviše široki da bi bili korisni za indeksiranje. 22

Povezivanje termina prilikom ručnog indeksiranja n n Kada analizu konteksta i indeksiranje ručno obavljaju eksperti iz određenih oblasti i obučeni stručnjaci, indeksne jedinice se obično sastoje od grupa termina, kao što su imeničke fraze, koje su dovoljno specifične da obezbede nedvosmislene interpretacije. Osim toga, na raspolaganju mogu biti rečnički alati u obliku tezaurusa, ili hijerarhijskog uređenja termina, koji kontrolišu specifičnost indeksnih jedinica obezbeđivanjem unakrsnih referenci između termina, i pokazivača od specifičnih termina do drugih, s njima povezanih širih ili užih koncepata. 23

Povezivanje termina prilikom automatskog indeksiranja n Korišćenje kompleksnih tekstualnih identifikatora koji se sastoje od grupa ili klasa pojedinačnih termina nije bez poteškoća jer alati potrebni za generisanje korisnih kompleksnih tekstualnih identifikatora nisu trivijalni. Među metodama koje se predlažu za generisanje kompleksnih identifikatora su: q q q probabilističke metode koje ugrađuju informaciju o zavisnosti termina. metode grupisanja termina koje generišu grupe povezanih reči uočavanjem obrazaca zajedničkog pojavljivanja reči u dokumentima kolekcije; procedure lingvističke analize koje mogu da prepoznaju lingvistički povezane jedinice u tekstu dokumenta; 24

Klasifikacija termina ili clustering n n Metod identifikovanja kombinacija termina višeg reda sastoji se od korišćenja sistema za klasifikaciju termina ili clustering koji mogu da generišu važne grupe povezanih termina. Većina metoda automatske klasifikacije koristi postojeću kolekciju indeksiranih dokumenata kao osnovu za grupisanje onih termina koji se najčešće zajedno pojavljuju u dokumentima kolekcije. Za dati uzorak matrice termina i dokumenata u kojoj dij reprezentuju vrednost ili značaj termina Tj koji je dodeljen dokumentu Di, moguća su dva pristupa generisanju klasa povezanih termina. 25

Kako se koristi matrica termina i dokumenata za klasifikaciju n Prvo, moguće je porediti kolone matrice i grupisati one termine čije odgovarajuće kolone u matrici otkrivaju sličnu dodelu dokumentima kolekcije. U stvari, kada su dva termina zajedno dodeljena mnogim dokumentima kolekcije (to jest, kada odgovarajući faktori dij nisu nula), može se pretpostaviti da su oni povezani i prema tome ih grupisati u zajedničku klasu. 26

Kako se koristi matrica termina i dokumenata za klasifikaciju n Alternativno se mogu posmatrati vrste matrice; u ovom slučaju dokumenta se grupišu u zajedničke klase koje pokazuju dovoljno sličnu dodelu termina. Jednom kada je klasifikacija dokumenata konstruisana, moguće je grupisati one termine koji se često pojavljuju zajedno u prethodno generisanim klasama dokumenata. 27

Problemi sa ovakvom automatskom klasifikacijom n n Problem sa klasama termina koje su konstruisane iz uzorka kolekcije dokumenata je što termini koji se pojavljuju zajedno ne moraju biti blisko povezani. Osim toga, čak iako se veza može potvrditi, ona može da bude ograničena na kolekciju iz koje su termini uzeti. Prema tome, grupisanje termina koji se pojavljuju zajedno u kompleksne indeksne jedinice ne mora da važi izvan okruženja u kome je grupisanje originalno uspostavljeno. Korišćenje samo statističkih i probabilističkih metoda za generisanje valjanih indeksnih jedinica višeg reda ne vodi ka indeksnim jedinicama visokog kvaliteta. Glavni problem je u tome što ne postoje pouzdane procedure za izdvajanje grupa termina koji se pojavljuju zajedno a koji čine korisne indeksne jedinice. Ovo nam govori da treba koristiti dodatne, nekvantitativne metode za određivanje veza termina i dodelu kompleksnih indeksnih jedinica. 28

Lingvističke metode za formiranje kompleksnih termina n n Za indeksiranje su predložene lingvističke metode uglavnom radi identifikacije i kasnije dodele indeksnih fraza, to jest, imeničkih konstrukcija koje uključuju prideve i imenice. U principu je relativno jednostavno konsultovati rečnik da bi se izvršila dodela indikatora vrste reči (na primer, imenica, pridev, prilog) rečima koje se pojavljuju u tekstu dokumenata i zatim konstruisati fraze od sekvencija reči koje ispoljavaju određene poželjne osobine (kao što su sekvencije imenica i pridev-imenica u engleskom). 29

Korisnost fraza identifikovanih kao sekvencije vrsta reči n n Ovakvim postupcima mogu da se identifikuju brojni korisni frazni termini, ali i mnoge nebitne i pogrešne fraze. Teškoća je u tome što samo pojavljivanje izvesnih vrsta reči u određenom kontekstu ne garantuje da je pouzdana sintaksička ili semantička veza stvarno prisutna. U sekvenciji kakva je high frequency transistor oscillator, koja bi se mogla karakterisati sintaksičkim lancem pridevimenica-imenica, nije lako odrediti zavisnosti između reči. Korišćenje susedstva reči, kao dodatnog kriterijuma, ne pomaže uvek: Izvesno je da se high i frequency mogu ispravno grupisati u high frequency; međutim, sledeće dve reči, frequency i transistor izvesno ne bi trebalo grupisati jer frequency transistor nije smisleni entitet jezika. 30