Zvenie robustnosti relanej klasifikcie Peter Vojtek Mria Bielikov
Zvýšenie robustnosti relačnej klasifikácie Peter Vojtek, Mária Bieliková FIIT STU BA
Relačná (kolektívna) klasifikácia Zatriediť nové články do dvoch tried: • Tie ktoré sa týkajú hardvéru • Tie ktoré sú z oblasti softvéru
Relačná (kolektívna) klasifikácia Zatriediť nové články do dvoch tried: • Tie ktoré sa týkajú hardvéru • Tie ktoré sú z oblasti softvéru článok text
Relačná (kolektívna) klasifikácia Zatriediť nové články do dvoch tried: • Tie ktoré sa týkajú hardvéru • Tie ktoré sú z oblasti softvéru kľúčové slovo K článok text autor
Relačná (kolektívna) klasifikácia Zatriediť nové články do dvoch tried: • Tie ktoré sa týkajú hardvéru • Tie ktoré sú z oblasti softvéru kľúčové slovo K relácia: máKľučovéSlovo článok text autor relácia: máAutora
Relačná (kolektívna) klasifikácia Zatriediť nové články do dvoch tried: • Tie ktoré sa týkajú hardvéru • Tie ktoré sú z oblasti softvéru kľúčové slovo K relácia: máKľučovéSlovo relácia: referencuje článok text autor relácia: máAutora
Kolektívne odvodzovanie • k. k. objektu sa inicializuje stav – Stav = príslušnosť ku triede – článok č. 1: [hardvér: 80%, softvér: 20%] – osoba č. 2: [hardvér: 50%, softvér: 50%] • susediace objekty medzi sebou zdieľajú svoje stavy a upravujú ich • iteratívny, konvergentný proces • nakoniec – článok č. 1: [hardvér: 91%, softvér: 9%] je z triedy hardvér
Kolektívne odvodzovanie • k. k. objektu sa inicializuje stav – Stav = príslušnosť ku triede – článok č. 1: [hardvér: 80%, softvér: 20%] – osoba č. 2: [hardvér: 50%, softvér: 50%] • susediace objekty medzi sebou zdieľajú svoje stavy a upravujú ich • iteratívny, konvergentný proces • nakoniec – článok č. 1: [hardvér: 91%, softvér: 9%] je z triedy hardvér
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 60: 40 100: 0 SW 50: 50
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 60: 40 100: 0 SW 50: 50
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 60: 40 50: 50 SW 50: 50
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 60: 40 50: 50 SW 50: 50
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 10: 90 50: 50 SW 50: 50 20: 80
Problém mis-klasifikácie • relačná klasifikácia môže úvodný (inicializovaný) stav ešte zhoršiť HW 10: 90 20: 80 SW 50: 50 20: 80
Moderovanie výmeny informácií • Ohodnotenie stavu pomocou entropie – najcennejší: [hardvér: 100%, softvér: 0%] – bezcenný: [hardvér: 50%, softvér: 50%] akceptovať ignorovať 50 : 50 hardvér : softvér 0 : 100
Moderovanie výmeny informácií • Ohodnotenie stavu pomocou entropie – najcennejší: [hardvér: 100%, softvér: 0%] – bezcenný: [hardvér: 50%, softvér: 50%] akceptovať binárny moderátor ignorovať 50 : 50 hardvér : softvér 0 : 100
Moderovanie výmeny informácií • Ohodnotenie stavu pomocou entropie – najcennejší: [hardvér: 100%, softvér: 0%] – bezcenný: [hardvér: 50%, softvér: 50%] akceptovať lineárny moderátor ignorovať 50 : 50 hardvér : softvér 0 : 100
Experimentálne overenie • Dátová vzorka MAPEKUS http: //mapekus. fiit. stuba. sk • porovnanie accuracy: – po inicializácii (naïve Bayes nad abstraktom článku) – po kolektívnom odvodzovaní
Experimentálne overenie Stav po inicializácii: • 80% accuracy Stav po relačnej klasif. : • 89% accuracy
Experimentálne overenie Stav po inicializácii: • 80% accuracy Stav po relačnej klasif. : • 89% accuracy akceptovať ignorovať
Zhodnotenie • navrhnutá metóda na zvýšenie robustnosti relačnej klasifikácie • funguje to – nad dátovou vzorkou MAPEKUS – aj pri odporúčaní filmov (Netflix+IMDB) • ďalšia práca: – objavujú sa aj iné prístupy, sú lepšie? – rôzne tvary moderačnej funkcie – kedy to nefunguje?
- Slides: 21