LENIV UENIE doc Ing Kristna Machov CSc kristina
- Slides: 12
LENIVÉ UČENIE doc. Ing. Kristína Machová, CSc. kristina. machova@tuke. sk people. tuke. sk/kristina. machova/
OSNOVA: q Extenzionálna reprezentácia q Reprezentácia a použitie q Indukcia reprezentácie q Algoritmus k. NN q Metriky podobnosti
EXTENZIONÁLNA REPREZENTÁCIA q Lenivé učenie učí extenzionálnu reprezentáciu q Flexibilná reprezentácia znalostí q Pojem je reprezentovaný množinou trénovacích príkladov q Predstavuje takzvané funkcionálne učenie q Tnp = f(Ttp 1, . . . , Ttp. N) q Nezáleží na počte tried q Klasifikácia môže byť dvojtriedna aj multitriedna Poznámka: Tnp … trieda nového príkladu (klasifikovaného) Ttpi. . . trieda i-tého trénovacieho príkladu
EXTENZIONÁLNA REPREZENTÁCIA V kontexte reprezentačných schém REPREZENTÁCIE q Extenzionálna (vymenovaním objektov) q Intenzionálna (zovšeobecnením) I + interpreter = E q Učenie logickej reprezentácie s učiteľom q Logické konjunkcie a produkčné pravidlá q Rozhodovacie stromy a zoznamy klasiq Učenie s prvkami kvantitatívneho ususdzovania fikačná q Prahové pojmy a etalóny úloha q Pravdepodobnostné pojmy q Učenie bez učiteľa q Zhluky q Učenie odmenou a trestom – sekvenčná úloha
REPREZENTÁCIA A POUŽITIE Reprezentácia: Množina trénovacích príkladov spolu s informáciou o triede príkladu Použitie: q Nový TP je klasifikovaný do triedy, ktorá sa najčastejšie vyskytuje v jeho okolí. q Okolie príkladu je reprezentované najbližšími susedmi. q Blízkosť je chápaná v zmysle podobnosti.
NEINKREMENTÁLNA INDUKCIA q k. NN – k Nearest Neighbours q Navrhnutý Mitchelom v roku 1997 q Klasifikátor uchováva v pamäti všetky q trénovacie príklady q Umožňuje multitriednu klasifikáciu q Zvláda zašumené domény
ALGORITMUS k. NN Klasifikácia prebieha v troch krokoch. 1. V cykle sa vyberie i-tý trénovací príklad z TM. 2. Novému príkladu sa priradí kategória k najbližších TP 3. Ak sú klasifikované všetky príklady, potom koniec. q Najbližší susedia sú určovaní v zmysle maximálnej podobnosti, resp. minimálnej vzdialenosti. q V najjednoduchšom prípade (1 NN) je TP priradená kategória jedného najbližšieho suseda. q V prípade nejednoznačnosti priradenia sa rekurzívne realizuje (k-1)NN kým nie je dosiahnutý úspech, alebo k=1.
ALGORITMUS k. NN q Výpočtová náročnosť je daná počtom určovaných podobností klasifikovaného TP k ostatným z TM. q Pamäťová náročnosť je podmienená nutnosťou uchovávať všetky TP v pamäti. q Výskyt irelevantných atribútov (všetky sa podieľajú na výpočte vzdialenosti) môže ovplyvniť presnosť klasifikácie.
METRIKY PODOBNOSTI Slúžia na výpočet vzdialenosti, resp. podobnosti dvoch TP, (reprezentovaných vektormi s numerickými hodnotami). Najčastejšie používané: q Kosínusová metrika podobnosti q Kosínusová metrika vzdialenosti
METRIKY PODOBNOSTI Ďalšie často používané: q Euklidova metrika (metrika L 2) q Druhá mocnina Euklidovej metriky
METRIKY PODOBNOSTI Ďalšie metriky: q Manhattanova metrika (cityblock metrika, metrika L 1) q Čebyševova metrika (maximová metrika, L∞ metrika)
METRIKY PODOBNOSTI Ďalšie metriky: q Minkovského metrika (metrika L) – kde pre λ=2 dostaneme Euklidovu a pre λ=∞ Čebiševovu metriku q Canberra metrika