PRAVDEPODOBNOSTN POJEM doc Ing Kristna Machov CSc kristina
PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc. kristina. machova@tuke. sk people. tuke. sk/kristina. machova/
OSNOVA: • Charakteristika pravdepodobnostného pojmu • Reprezentácia a použitie pravdepodobnostných pojmov • Bayes-ov teorém • Naivný Bayes-ov klasifikátor • Indukcia naivného Bayes-ovho klasifikátora
CHARAKTERISTIKA PRAVDEPODOBNOSTNÝM POPISOM q Predstavujú flexibilnejšiu reprezentáciu znalostí q Je spojená s Bayesovým klasifikátorom q Je použiteľný v širokom spektre klasifikačných problémov q Predpoklad vzájomnej nezávislosti atribútov
REPREZENTÁCIA A POUŽITIE PRAVDEPODOBNOSTNÝM POPISOM Reprezentácia: § P(ck)…pravdepodobnosť k-tej triedy § P(vi/ck)…podmienená pravdepodobnosť výskytu hodnoty vi atribútu j v príklade I patriacom do triedy ck § P(ck/I)…pravdepodobnosť ck podmienená výskytom príkladu I (pravdepodobnosť, že príklad I patrí do triedy ck) Použitie: Nový TP je klasifikovaný do triedy, ktorej pravdepodnobnosť podmienená hodnotami atribútov v danom príklade je najvyššia.
BAYESOV TEORÉM Pravdepodobnosť javu je suma podmienených pravdepodobností daného javu inými javmi, ktoré tvoria úplný súbor. Ak I je konjunkcia vi hodnôt, potom p(I) môžeme nahradiť nasledovne:
NAIVNÝ BAYESOV KLASIFIKÁTOR Predpoklad vzájomnej nezávislosti atribútov nám dovolí nasledovnú substitúciu:
NAIVNÝ BAYESOV KLASIFIKÁTOR q Naivný preto, lebo predpokladá nezávislosť atribútov, ktorá vo väčšine reálnych aplikácií neplatí. q Napriek tomu je to užitočná metóda v mnohých aplikáciách s uspokojivou presnosťou. q Iným spôsobom sa s neplatnosťou podmienky nezávislosti atribútov vyrovnávajú Bayesove siete, ktoré pracujú s nezávislosťou podmnožín atribútov.
INDUKCIA NAIVNÉHO BAYESOVHO KLASIFIKÁTORA §Klasifikovať príklad I do triedy ck môžeme, ak vieme vypočítať p(ck/I) pre každú triedu. §Indukcia naivného Bayesovho klasifikátora spočíva v určení frekvencií výskytov hodnôt atribútov a tried v trénovacích príkladoch. §To predstavuje určenie pravdepodobností p(ck) pre každú triedu ck p(vi/ck) pre každý pár trieda-hodnota atribútu
INDUKCIA NAIVNÉHO BAYESOVHO KLASIKÁTORA §Ak sa vyskytne nulová pravdepodobnosť vo výpočte, ktorý je v čitateli reprezentovaný násobením, prenesie sa do výsledku. §Riešením je nahradenie nulovej hodnoty nejakým veľmi malým číslom, napríklad 1/n, kde n je počet trénovacích príkladov §Pozitívom pravdepodobnostného popisu je veľmi jednoduchá klasifikácia. §Negatívom je predpoklad nezávislosti atribútov. §NBK sa s úspechom používa na kategorizáciu dokumentov.
- Slides: 9