Mestersges intelligencia I 12 Elads Alakfelismers mg egy

  • Slides: 27
Download presentation
Mesterséges intelligencia I 12. Előadás

Mesterséges intelligencia I 12. Előadás

�Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék

�Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. �Csoportosítás (klaszterezés, clustering).

Csoportosítás (klaszterezés, clustering) fő lépései: �tulajdonság kiválasztása, �hasonlóság (különbözőség) mérése a tulajdonságvektorok között, �csoportosítási

Csoportosítás (klaszterezés, clustering) fő lépései: �tulajdonság kiválasztása, �hasonlóság (különbözőség) mérése a tulajdonságvektorok között, �csoportosítási kritérium, �csoportosítási algoritmus, �az eredmények ellenőrzése, �az eredmények interpretálása.

�Alkalmazási lehetőségek: � adatredukció, �hipotézisek felállítása, � hipotézisek ellenőrzése, �csoportokon alapuló előrejelzések. �Adatok: �nominális

�Alkalmazási lehetőségek: � adatredukció, �hipotézisek felállítása, � hipotézisek ellenőrzése, �csoportokon alapuló előrejelzések. �Adatok: �nominális (rendezés? ), �intervallum-skála, � arány-skála, �numerikus.

�Klaszterezés: adott az X = (x 1, x 2, …, x. N) minta. Ennek

�Klaszterezés: adott az X = (x 1, x 2, …, x. N) minta. Ennek m-(“kemény”)klaszterezésén egy olyan, m darab részhalmazra (C 1, C 2, … , Cm) való felbontását nevezzük, amelyre - Ci , i = 1, …, m, - i=1 m Ci = X, - Ci = , i j, i, j = 1, …, m.

�A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X

�A “lágy” (fuzzy) esetben adott m darab hozzátartozás (membership) függvény: u j : X [0, 1], j = 1, 2, … , m, ahol j=1 m u j (x i ) =1, i=1, 2, …, N, és 0 < j=1 N u j (x i ) < N, j=1, 2, …, m.

Kétfajta mérték Különbözőségi: d: X X , úgy, hogy d 0 : - <

Kétfajta mérték Különbözőségi: d: X X , úgy, hogy d 0 : - < d 0 d(x, y) < , x, y X, d(x, x) = d 0 , x X, d(x, y) = d(y, x), x, y X. Metrikus különbözőségi: Ha még d(x, y) = d 0 csak akkor, ha x=y, és d(x, z) d(x, y) + d(y, z) x, y, z X

Hasonlóan Hasonlósági: s: X X , úgy, hogy s 0 : - < s

Hasonlóan Hasonlósági: s: X X , úgy, hogy s 0 : - < s 0 s(x, y) < , x, y X, s(x, x) = s 0 , x X, s(x, y) = s(y, x), x, y X. Metrikus hasonlósági: Ha még s(x, y) = s 0 csak akkor, ha x=y, és s(x, z)s(y, z) (s(x, y) + s(y, z))s(x, z) x, y, z X

Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.

Például különbözőségi mérték. A fogalmak kiterjeszthetők részhalmazokra is, a tulajdonságokat hasonlóan megkövetelve.

�Leggyakoribb mértékek (l dimenziós pontok között) �Különbözőségi: súlyozott lp: súlyozott l 2 általánosítása:

�Leggyakoribb mértékek (l dimenziós pontok között) �Különbözőségi: súlyozott lp: súlyozott l 2 általánosítása:

Speciális (súlyozott Manhattan): (Súlyozott) l :

Speciális (súlyozott Manhattan): (Súlyozott) l :

�Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y = i=1

�Hasonlósági: Belső szorzat (azonos hosszú vektorokra): s inner = x T y = i=1 l x i y i Tanimoto:

�Diszkrét értékű vektorok. �Lehetséges értékek száma: k. �Kontingencia tábla (A(x, x)). �Különbözőségi Hamming távolság:

�Diszkrét értékű vektorok. �Lehetséges értékek száma: k. �Kontingencia tábla (A(x, x)). �Különbözőségi Hamming távolság: l 1 távolság, mint korábban

�Hasonlósági Tanimoto: Diszkrétre példa

�Hasonlósági Tanimoto: Diszkrétre példa

Fuzzy eset Itt a tulajdonságvektorok komponensei [0, 1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték:

Fuzzy eset Itt a tulajdonságvektorok komponensei [0, 1]-be tartoznak (értelmezés), egy lehetséges hasonlósági mérték: s(xi, yi) = max(min(1 - xi, 1 - yi), min(xi - yi)) Vektorra:

Pontok és halmazok hasonlósága Adott az x pont és a C halmaz. Szokásos módszerek:

Pontok és halmazok hasonlósága Adott az x pont és a C halmaz. Szokásos módszerek: - max hasonlóság: max (x, C) = max y C (x, y) - min hasonlóság: min(x, C) = miny C (x, y) - átlagos hasonlóság: avg(x, C) = y C (x, y)/n. C

�Reprezentatív pontok választása - Átlag: m P = y C y/n C - Középpont:

�Reprezentatív pontok választása - Átlag: m P = y C y/n C - Középpont: m. C C, amelyre y C d(m C , y) y C d(z, y), z C - Median: szerinti mmed C, amelynél a távolságok nagyság (n. C+1)/2 -dik eleme a többitől minimális.

Ponthalmazok közötti hasonlóság mértékek - max hasonlóság: max(Di, Dj) = maxx Di , y

Ponthalmazok közötti hasonlóság mértékek - max hasonlóság: max(Di, Dj) = maxx Di , y Dj (x, y) - min hasonlóság, átlagos hasonlóság is az előzőekhez hasonlóan, - középpont-hasonlóság: mean(Di, Dj ) = (m. Di, m. Dj).

Klaszterezési eljárások N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m).

Klaszterezési eljárások N pontot m klaszterbe szeretnénk sorolni, a lehetséges megoldások száma S(N, m). Erre: S(N, 1) = 1, S(N, N) = 1, S(N, m) = m. S(N-1, m) + S(N-1, m-1), vagyis a másodrendű Stirling számok.

 nem sorolható fel az összes lehetőség. �Soros eljárások: minden mintát csak kevésszer (egyszer)

nem sorolható fel az összes lehetőség. �Soros eljárások: minden mintát csak kevésszer (egyszer) adunk az algoritmusnak �Hierarchikus eljárások �agglomeratív eljárások: általában korábbi klaszterek összevonásával adnak újakat �felosztó eljárások: egy klaszter kettébontásával adnak eredményt

�Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és

�Soros (szekvenciális) eljárások. Feltesszük, hogy adott egy különbözőségi mérték, egy ahhoz tarozó küszöbérték és a klaszterek maximális száma. �Közös alapgondolat: �egy új mintaelem érkezésekor meghatározzuk, melyik eddigi klaszterhez van legközelebb; �ha ez a távolság túl nagy, és még nincs elég klaszter, újat kezdünk vele, �különben a legközelebbi mellé tesszük.

�Nagyon sok konkrét módszer tartozik ide, attól függően, �hogyan választjuk a különbözőséget, �hogyan reprezentáljuk

�Nagyon sok konkrét módszer tartozik ide, attól függően, �hogyan választjuk a különbözőséget, �hogyan reprezentáljuk az osztályokat, �milyen osztály-pont távolságot veszünk … �Példa, problémák, javítási lehetőségek (küszöb-, osztály-szám módosítása)

�Minden pontot már az első menetben besorolunk valahova. �Javítás: az első menetben csak m

�Minden pontot már az első menetben besorolunk valahova. �Javítás: az első menetben csak m osztályt csinálunk, a “távoli” elemek felhasználásával, �egy második menet is lesz, ahol a maradékokat besoroljuk a legközelebbi osztályba. �Még mindig baj: az eredmény függ a sorrendtől! Sok további javítás ismert.

Hierarchikus eljárások �Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából

Hierarchikus eljárások �Újabb fogalom: egymásba ágyazott klaszterek (vagy azonosak az osztályok, vagy klaszterek felosztásából keletkeztek újabbak - példa). �A hierarchikus eljárások az egymásba ágyazáson alapulnak, és lépésenként �két klasztert összevonnak (agglomeratív) �vagy egyet kettéosztanak (felosztó).

�Agglomeratív eljárás általános lépése: �a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt,

�Agglomeratív eljárás általános lépése: �a pillanatnyilag létező klaszterek közül válasszuk ki azt a kettőt, amelyik legközelebb van (legjobban hasonlít). �Ezt ismételjük addig, amíg a kívánt osztályszámot el nem érjük, vagy valami egyéb kritériumot ki nem elégítünk.

�Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható.

�Segédfogalmak: hasonlóság (különbözőség) mátrix, dendrogram. Az egész eljárás a (hasonlóság-, különbözőség) mátrixokon is megadható. �Itt is nagyon sokféle eljárás lehet, a különböző választási lehetőségek alkalmazásával. �Példa

Felosztó eljárások Általános alapelv: � az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben

Felosztó eljárások Általános alapelv: � az adott pillanatban létező klaszterek mindegyikét megpróbáljuk valamilyen értelemben a legjobban kettéosztani �végül azt osztjuk, amelyiknél a legjobb szétosztás a legjobb (kezdetben az összes pont egyetlen klaszterben van).