Kognitivn inspirace tdn na zklad zvislost atribut Jan

Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW: http: //nb. vse. cz/~burianj/articles/burian_classification. rtf 1

Učení bez učitele a třídění • Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat • Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze • Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou 2

Problém klasického třídění • V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy • Vztah mezi atributy je vlastností celku • Klasické třídění nepostihuje vlastnost skupiny záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů) 3 • Inspirativní řešení – kognitivní vědy

Kognitivní vědy • Zabývají se procesem poznávání v živých i umělých systémech • Poznávání můžeme chápat jako proces získávání znalostí • Učení jedna ze základních složek poznávání • Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku 4

Kognitivní inspirace • Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti • Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita 5

Kognitivní inspirace • Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah • Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku • Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd 6

Vztah atributů • Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributů na základě kontingenční tabulky 7

Třídící atribut • V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy • Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy • Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů. 8

Závislost atributů • Nechť V je množina všech atributů tabulky databáze • Nechť C V je kandidát na třídící atribut a C 1, C 2 … Ck jsou kategorie (třídy) tohoto atributu • Pro A, S V; A S; A, S C označme AD(A, S|Ci) odnotu nějaké testové statistiky (například χ², Kendallův koeficient apod. ) o závislosti dvou atributů A a S ve třídě Ci. 9

Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic • Pro AD(A, S|C 1) =AD(A, S|C 2) • bod [AD(A, S|C 1) ; AD(A, S|C 2) ] se nalézá na ose souřadnic • úhel je nulový • závislost A a S není podmíněna C 10

Odlišnost závislostí atributů v třídách • ADCD (Attribute Dependency Class Difference) • Suma odlišností závislostí atributů v třídách pro různé kombinace atributů • Použití kosinové věty • Maximální odlišnost závislostí mezi atributy má minimální ADCD 11

Postup identifikace třídícího atributu • • • Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů. Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus. Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální. 12

Závěr a další vývoj • Zatím není implementováno, ale … • Procedura KL-Miner (součást systému LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky • Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů 13

Závěr a další vývoj • Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění. • Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy) 14