Automatizirana kategorizacija teksta FER Franjo Skoec 26 11

  • Slides: 30
Download presentation
Automatizirana kategorizacija teksta FER Franjo Skočec 26. 11. 2003. Stjepan Buljat

Automatizirana kategorizacija teksta FER Franjo Skočec 26. 11. 2003. Stjepan Buljat

Povijest TC-a l Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja

Povijest TC-a l Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’ 60. l Sve do kasnih ’ 80. najpopularniji pristup bio je knowledge engineering – KE l U ’ 90. javlja se pojačano zanimanje za klasifikaciju teksta, kao i nov pristup baziran na paradigmi strojnog učenja

Definicija kategorizacije teksta l Kategorizacija teksta je proces dodjeljivanja Boolean vrijednosti svakom paru {dj,

Definicija kategorizacije teksta l Kategorizacija teksta je proces dodjeljivanja Boolean vrijednosti svakom paru {dj, ci} D x C, gdje je D domena dokumenata, a C je skup preddefiniranih kategorija l Formalno TC je proces aproksimacije nepoznate ciljne funkcije, koja opisuje kako bi dokumenti trebali biti klasificirani, pomoću funkcije Φ : D x C {T, F} (klasifikator, pravilo, hipoteza, model)

Definicija kategorizacije teksta d 1 . . . dj . . . dn c

Definicija kategorizacije teksta d 1 . . . dj . . . dn c 1 a 11 . . . a 1 j . . . a 1 n . . . ci ai 1 . . . aij . . . ain . . . cm am 1 . . . amj . . . amn l decizijska matrica

Definicija kategorizacije teksta l Kategorije su simboličke labele (nikakvo znanje o njihovom značenju nije

Definicija kategorizacije teksta l Kategorije su simboličke labele (nikakvo znanje o njihovom značenju nije dosupno) l Klasifikacija se ostvaruje samo uz pomoć znanja izvađenog iz samih dokumenata (endogenous knowledge vs exogenous knowledge) l Oslanjajući se samo na unutarnje znači klasificirati dokument samo na osnovu njegove semantike l Pripadnost dokumenta nekoj kategoriji ne može se odrediti deterministički (fenomen međuindeksne nekonzinstencije – inter-indexer inconsistency)

Definicija kategorizacije teksta l single-label TC – točno jedna kategorija mora biti dodijeljena svakom

Definicija kategorizacije teksta l single-label TC – točno jedna kategorija mora biti dodijeljena svakom dokumentu iz domene dokumenata (nonoverlaping categories) l multilabel TC – bilo koji broj kategorija može biti dodijeljen istom dokumentu (overlaping categories) l binarni TC – svaki dokument mora biti dodijeljen kategoriji ci ili njenom komplementu

Definicija kategorizacije teksta Dokumentno orijentirana klasifikacija teksta – za odabrani dokument dj D, žele

Definicija kategorizacije teksta Dokumentno orijentirana klasifikacija teksta – za odabrani dokument dj D, žele se pronaći sve kategorije ci C gdje bi se on trebao svrstati (document-pivoted categorization - DPC) l Kategorijski orijentirana klasifikacija teksta – za odabranu kategoriju ci C želi se pronaći sve dokumente dj D koji joj pripadaju (category-pivoted categorization – CPC) l DPC je pogodniji kada dokumenti postaju dostupni u različitim trenutcima (filtriranje e-maila), dok je CPC pogodniji u slučaju dodavanja nove kategorije u već postojeći skup kategorija nakon što je već dio dokumenata već bio klasificiran (klasificiranje Web stranica) l

Definicija kategorizacije teksta l “Čvrsta” kategorizacija vs. rangirana kategorizacija: l umjesto donošenja odluke o

Definicija kategorizacije teksta l “Čvrsta” kategorizacija vs. rangirana kategorizacija: l umjesto donošenja odluke o pripadnosti dokumenta nekoj kategoriji (“hard TC”), može se ocjenjivati prikladnost neke kategorije dokumentu (“ranking TC”) l konačnu odluku donosi ljudski stručnjak l koristi se kada učinkovitost automatskog klasifikatora nije zadovoljavajuća (slučaj kada kvaliteta skupa za učenje je niska ili kada dokumenti iz skupa za učenje nisu reprezentativni primjerci)

Aplikacije za TC l Automatic Indexing for Boolean Information Retrieval System l početkom ’

Aplikacije za TC l Automatic Indexing for Boolean Information Retrieval System l početkom ’ 60. najviše istraživana l svakom dokumentu je pridružena barem jedna ključna riječ ili fraza koje opisuju njegov sadržaj l Ključne riječi i fraze pripadaju konačnom skupu koji se zove kontrolirani riječnik (controlled dictionary)

Aplikacije za TC l Text Filtering l aktivnost klasificiranja toka ulaznih dokumenata poslanih asinkronim

Aplikacije za TC l Text Filtering l aktivnost klasificiranja toka ulaznih dokumenata poslanih asinkronim načinom od strane proizvođača prema potrošaču l pojavio se početkom ’ 60. , danas vrlo korišteni (antispam, newsgroups, . . . ) l Word Sense Disambiguation l proces pronalaženja značenja riječi u ovisnosti o kontekstu u kojem se ta riječ koristi l koristi se u procesiranju prirodnog jezika i u indeksiranju dokumenata po značenju riječi, umjesto po samoj riječi, za IR ciljeve

Aplikacije za TC l Hijerarhijska kategorizacija Web stranica l Zbog sve većeg broja Web

Aplikacije za TC l Hijerarhijska kategorizacija Web stranica l Zbog sve većeg broja Web stranica sve je teže pronaći baš onu koja nam treba l Općeniti pretraživači zbog broja Web stranica su sve manje učinkoviti l Zbog svega toga povećano je zanimanje za automatsku klasifikaciju i stvaranje hijerarhijskih kataloga na Internet portalima

ML pristup kategorizaciji dokumenata U ’ 80. glavni pristup kategorizaciji teksta bio je baziran

ML pristup kategorizaciji dokumenata U ’ 80. glavni pristup kategorizaciji teksta bio je baziran na KE l Ručno se gradio ekspertni sustav koji se sastojao od skupa definiranih pravila tipa: l if (DNF Boolean formula) then (category) ML pristup bazira se na stvaranju automatskog graditelja klasifikatora l Klasifikator se gradi promatrajući karakteristike skupa dokumenata ručno klasificiranih pod ci ili ~ci od strane eksperta domene l Taj proces naziva se učenje sa nadgledanjem (učenje bez nadgledanja – document clustering) l

Automatska kategorizacija teksta Part 2 Stjepan Buljat Fakultet elektrotehnike i računarstva ZEMRIS - Inteligentni

Automatska kategorizacija teksta Part 2 Stjepan Buljat Fakultet elektrotehnike i računarstva ZEMRIS - Inteligentni sustavi 26. 11. 2003.

Gradnja klasifikatora teksta Induktivna gradnja klasifikatora za kategoriju ci C se sastoji od dvije

Gradnja klasifikatora teksta Induktivna gradnja klasifikatora za kategoriju ci C se sastoji od dvije faze : 1. definiranje funkcije CSVi : D [0, 1] 2. definiranje faktora ograničenja i da vrijedi CSVi(d) >= i tako Specijalan slučaj je klasifikator s binarnim odlučivanjem gdje vrijedi CSVi : D {0, 1}

Gradnja klasifikatora teksta - Postoje 2 osnovna načina gradnje klasifikatora: 1. PARAMETARSKI, podaci za

Gradnja klasifikatora teksta - Postoje 2 osnovna načina gradnje klasifikatora: 1. PARAMETARSKI, podaci za učenje se koriste za određivanje parametara vjerojatnosne distribucije. 2. NE-PARAMETARSKI, dijeli se na dvije pod-kategorije : a) Profile-based b) Example-based

Parametarski klasifikator - Najbolji primjer je naivni Bayesov klasifikator koji se temelji na računanju

Parametarski klasifikator - Najbolji primjer je naivni Bayesov klasifikator koji se temelji na računanju izraza: - Četiri vjerojatnosti koje se koriste u formuli se određuju na skupu podataka za učenje - Zašto izraz ”naivni”? - Hipoteza binarne nezavisnosti

Profile-based klasifikator - Profile-based (ili linearni) klasifikator je jednostavno rečeno klasifikator koji eksplicitno sadrži

Profile-based klasifikator - Profile-based (ili linearni) klasifikator je jednostavno rečeno klasifikator koji eksplicitno sadrži opisne informacije pojedine kategorije na temelju kojih donosi odluke - Linearni klasifikatori se često dijele na dvije klase, - Incremental klasifikatori grade profil prije analiziranja cijelog skupa za učenje i dodatno dograđuju profil kako pregledavaju nove podatke za učenje. - Batch klasifikatori pak počivaju na obrnutom principu, grade profil analizom cijelog skupa podataka.

Rocchio klasifikator - Ovaj klasifikator se temelji na adaptaciji Rocchiove formule na kategorizaciju teksta,

Rocchio klasifikator - Ovaj klasifikator se temelji na adaptaciji Rocchiove formule na kategorizaciju teksta, - skup near-positives (definirani kao najpozitivniji među članovima negativnog skupa za učenje) - Prednost: generiranje «razumljivih» klasifikatora - Mana: dijeli skup dokumenata na dva dijela

Example-based klasifikator - Ne grade eksplicitni profil pojedine kategorije, nego ovise o podacima koje

Example-based klasifikator - Ne grade eksplicitni profil pojedine kategorije, nego ovise o podacima koje im daju stručnjaci na temelju skupa dokumenata za učenje slični onima koji se trebaju kategorizirati - Tzv. lijeni klasifikatori - Primjer: k-NN klasifikator: - gleda da li k dokumenata za učenje najsličnijih dokumentu dj spada pod kategoriju ci; ako je odgovor pozitivan onda se dokument dj kategorizira pod ci, inače ne - Konstrukcija k-NN klasifikatora zahtijeva određivanje konstante k

Kombiniranje example- i profile-based klasifikatora - k-NN sustav se «hrani» , umjesto skupa dokumenata

Kombiniranje example- i profile-based klasifikatora - k-NN sustav se «hrani» , umjesto skupa dokumenata za učenje, s generaliziranim instancama (GI). - Ova metoda iskorištava superiornu efektivnost k. NN sustava nad linearnim dok istovremeno se izbjegava osjetljivost k-NN algoritma na šum u skupu dokumenata za učenje - Klasifikacijsko ponašanje linearnih i ne-linearnih sustava

Slika 1

Slika 1

Sustav klasifikatora - Metoda classifier committees - Primjena k različitih klasifikatora { 1, …,

Sustav klasifikatora - Metoda classifier committees - Primjena k različitih klasifikatora { 1, …, k} za isti zadatak, da li će se dokument dj svrstati pod kategoriju ci ili ne - Karakteristike: i) odluka k klasifikatora ii) izbor kombinacijske funkcije. - Kombinacijske funkcije, - majority voting (MV) - adaptive classifier combination(ACC) - dynamic classifier selection (DCS)

Određivanje faktora ograničenja - Neke od metoda: - CSV tresholding (ili probability tresholding), ovdje

Određivanje faktora ograničenja - Neke od metoda: - CSV tresholding (ili probability tresholding), ovdje je faktor ograničenja i vrijednost CSVi funkcije. Koriste se različiti faktori ograničenja za različite kategorije c i - Proportional tresholding, cilj ove metode jest postavljanje takvog faktora i tako da je g. Te(ci) kategorije ci što bliži vrijednosti g. Tr(ci) - Fixed tresholding, najjednostavniji

Ocjena rada klasifikatora teksta Mjere kategorizacijske efektivnosti. Preciznost i odaziv. -Preciznost (Pri) se definira

Ocjena rada klasifikatora teksta Mjere kategorizacijske efektivnosti. Preciznost i odaziv. -Preciznost (Pri) se definira kao vjerojatnost da se slučajno odabrani dokument dx točno klasificira pod kategoriju ci -Odaziv (Rei) definira kao vjerojatnost da li da se slučajno odabrani dokument dx klasificira pod kategoriju ci

Preciznost i odaziv -Za procjenu vrijednosti faktora preciznosti i odaziva koriste se dvije različite

Preciznost i odaziv -Za procjenu vrijednosti faktora preciznosti i odaziva koriste se dvije različite metode: -microaveraging: preciznost i odaziv se određuju globalnim sumiranjem po svim individualnim odlukama -macroaveraging: preciznost i odaziv se ocjenjuju lokalno za svaku kategoriju s traženjem srednje vrijednosti po svim rezultatima za različite kategorije

Kombinirane mjere -(interpolated) 11 -point average precision, svaki treshold ti se postavlja na vrijednosti

Kombinirane mjere -(interpolated) 11 -point average precision, svaki treshold ti se postavlja na vrijednosti na kojima odaziv poprima vrijednosti 0. 0, 0. 1, … 0. 9, 1. 0. Za ovih 11 različitih tresholda računa se preciznost. -breakeven point, vrijednost pri kojoj je Pr = Re -F funkcija, 0<= <=1

Skup dokumenata za testiranje -standardni skupovi podataka za testiranje rada klasifikatora: -REUTERS-21578, skup novinskih

Skup dokumenata za testiranje -standardni skupovi podataka za testiranje rada klasifikatora: -REUTERS-21578, skup novinskih članaka koji pokrivaju vremenski period od 1987. do 1991. -OHSUMED, skup naslova ili naslova sa sažetkom iz medicinskih časopisa -Metoda klasifikatora usporedbe rada dvaju različitih -koristiti istu kolekciju dokumenata za testiranje (iste dokumente i iste kategorije) -isti odabir skupa podataka za učenje i skupa podataka za testiranje -ista mjera efektivnosti se treba koristiti za oba klasifikatora

Koji je klasifikator bolji? -Metoda usporedbe se sastoji od: -direktna usporedba, klasifikatori C'' su

Koji je klasifikator bolji? -Metoda usporedbe se sastoji od: -direktna usporedba, klasifikatori C'' su testirani na istom skupu podataka (TC) koristeći zajedničku evaluacijsku mjeru radu. -indirektna usporedba: 1. klasifikator C' je testiran na skupu TC', a klasifikator na skupu TC'' 2. jedan ili više «baseline» klasifikatora C 1, …Cm su testirani na TC' i -Test 2 može pokazati relativnu «krutost» dvaju skupa podataka, TC' i TC'' -Dolazi se do relativnog faktora koji određuje svojstva dvaju klasifikatora -Rezultati gđe. Yang

Slika 2 Komparativan prikaz rezultata različitih klasifikatora, podebljani rezultati su najbolji rezultati za pojedini

Slika 2 Komparativan prikaz rezultata različitih klasifikatora, podebljani rezultati su najbolji rezultati za pojedini skup podataka

Literatura: -[A] Sebastiani, Fabrizio, «Istituto di Elaborazione dell' Informazione, Consiglio Nazionale delle Ricerche, »

Literatura: -[A] Sebastiani, Fabrizio, «Istituto di Elaborazione dell' Informazione, Consiglio Nazionale delle Ricerche, » A Tutorial On Automated Text Categorization, pp. 11 -22, 08. 03. 2000