Kapitel 6 Unberwachtes Lernen SS 2009 Maschinelles Lernen

Kapitel 6: Unüberwachtes Lernen SS 2009 Maschinelles Lernen und Neural Computation 107

Clustering • Gegeben: eine Menge von Punkten (Beispielen), „ungelabelt“ (i. e. Klasse unbekannt) • Gesucht: eine Menge von Clustern (Cluster. Zentren), die Daten möglichst gut beschreiben („Vektorquantisierung“) • minimiere (Summe der Abstände zu allen Zentren, quadratischer Quantisierungsfehler) SS 2009 Maschinelles Lernen und Neural Computation 108

K-means Clustering • Gradientenverfahren • Neues Cluster-Zentrum ist Mittelwert der Punkte im Cluster • Mehrere Iterationen notwendig SS 2009 Maschinelles Lernen und Neural Computation 109

Clustering als NC: Competitive Learning • Architektur wie Perceptron Setze „Gewinner“ auf 1, alle anderen auf 0 Wähle „Gewinner“ (am stärksten aktivierte Unit) f. . . Gauss; wie RBFN • „winner-take-all“ • Gewinner lernt (Instar Regel): SS 2009 Maschinelles Lernen und Neural Computation 110

Matlab>demos>neural networks>other demos>chapter 14>competitive learning Geometrische Interpretation • Gewichtsvektoren und Inputs sind Punkte im Raum • Gewinner wählen = finde nähesten Gewichstvektor Input • Instar: Ziehe Gewichtsvektor zu Input hin • Resultat: Gruppen in den Daten werden gefunden • stochastische Variante von k-means! SS 2009 Maschinelles Lernen und Neural Computation 111

Eigenschaften • Clustering nach k-means ist Gauss‘sches Clustering (symmetrische Streuung) • Aufteilung des Raumes: Voronoi Tesselation • Mögliche Probleme: – Lokale Minima (bei schlechter Initialisierung) – Verzerrung durch Ausreisser SS 2009 Maschinelles Lernen und Neural Computation 112

Netlab>demgmm 1. m Gaussian Mixtures als Clustering • Clustering wird als Dichteschätzung betrachtet • Anschreibbar wie Klassifikationsproblem: Posterior des Clusters i Gaussverteilung Prior ( i) • EM-Algorithmus (max. Likelihood): Dichte (GMM) Gewichteter Mittelwert, analog zu k-means SS 2009 Maschinelles Lernen und Neural Computation 113

Vorteile der GMM • Vorteile: – Probabilitischer Rahmen – Zugehörigkeit zu Clustern angebbar (Posterior) – Ausgeprägtheit von Clustern bestimmbar – Modellauswahl möglich (anhand der Likelihood) k-means: optimale Anzahl der Clusters nicht leicht bestimmbar SS 2009 Maschinelles Lernen und Neural Computation 114

Netlab>demgmm 3. m, demgmm 4. m Erweiterungen • Erweiterung auf beliebige Gauss. Verteilungen möglich • K-means: entspricht „Mahalonobis Distanz“ (berücksichtigt Varianzen innerhalb der Cluster) SS 2009 Gewöhnliche (sphärische) Gauss-Funktionen Beliebige Gauss-Funktionen Maschinelles Lernen und Neural Computation 115

Nicht-Gauss‘sches Clustering • Nur als Mixture von Gauss‘schen Zentren beschreibbar • Wenn „natürliche“ Cluster gefunden werden sollen: Nur parametrisch möglich (d. h. Form der Cluster bekannt) • Ansonsten: Identifikationsproblem SS 2009 Maschinelles Lernen und Neural Computation 116

Andere Formen des Clustering • Andere Distanz-(Ähnlichkeits-)Maße z. B. Manhattan-Distanz, Ranking • Andere Fehler-(Kriteriums-)Funktionen z. B. Kohäsion innerhalb des Clusters, Entropie • Hierarchisches Clustering – Dendrogramme – ART mit verschiedenen Vigilanzen SS 2009 Maschinelles Lernen und Neural Computation 117

Selforganizing Maps (SOM) • Kohonen (1981, 1990) • Nachbarschaft definiert • Wie CL: winner-take-all, Instar • Aber Nachbarn lernen mit Nachbarschaftsfunktion, wird im Laufe des Trainings Kleiner (Stabilisierung) SS 2009 Maschinelles Lernen und Neural Computation 118

Vienet 2>uebung 4. exe; Matlab>demos>2 dim. selforganizing map SOM: Geometrische Interpretation 3 x 3 SOM SS 2009 • Topologische Beziehung der Clusters bleibt weitgehend bestehen • Benachbarte Units entsprechen benachbarten Clustern • Datenraum wird auf die 2 -dim. Struktur abgebildet („Karte“) • Dient zur Visualisierung hochdimensionaler Daten • 2 -dim. Struktur wird in den hochdimensionalen Raum eingepasst - Projektion Maschinelles Lernen und Neural Computation 119

http: //websom. hut. fi Beispiel: politische Konflikte • Daten: Konflikte und Vermittlungsversuche seit 1945 (Bercovitch & Langely 1993) • 6 Dimensionen: – – – Dauer Politische Macht A Politische Macht B Politische Rechte B Initiator Vermittlunsgerfolg • 2 dim. Visualisierung SS 2009 Maschinelles Lernen und Neural Computation 120

SOM • Durch schlechte Initaliseriung kann k-means zu sub-otpimalen Lösungen führen (lokales Minimum) • SOM: durch Mitziehen der Nachbarn wird der Datenraum besser abgedeckt (lokale Minima können vermieden werden) • Zusätzlich: – Topologische Beziehung – Mehr Zentren in Bereichen hoher Dichte SS 2009 Maschinelles Lernen und Neural Computation 121

Multidimensionale Skalierung • Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion) • Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z. B. gekrümmte Fläche) SS 2009 Maschinelles Lernen und Neural Computation 122

SOM als MDS • MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM • SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)! Bereich 1 1 2 Bereich 2 SS 2009 Maschinelles Lernen und Neural Computation 123

Topologische Darstellung • Zwischenzustände durch Gewichtung mittels Distanz zu Zentren • Ausgeprägte Grenzen darstellbar (U-Map, Ultsch) SS 2009 Maschinelles Lernen und Neural Computation 124

Alternative: Sammon Mapping • Minimiere Differenz aller Abstände: Abstand Originalpunkte Punkte in der Map Normalisierung • Nachteil: hoher Berechnungsaufwand • Lösung: zuerst Clustering, dann Sammon Mapping (weniger Punkte); Flexer 1996 • Aber: Gleiche Probleme mit lokalen Minima wie k -means SS 2009 Maschinelles Lernen und Neural Computation 125

Probleme der SOM • • Keine probabilistische Beschreibung Konvergenz nicht garantiert Es gibt keine Fehlerfunktion, die minimiert wird! Clustering und MDS beeinflussen einander (beides kann suboptimal sein) • Es ist schwer abschätzbar, ob SOM gut ist oder nicht • Empfehlung: – SOM nur zur Visualisierung einsetzen! (nicht zum Clustering oder für überwachte Probleme) – Genau überlegen, was Kriterium ist; Alternativen suchen SS 2009 Maschinelles Lernen und Neural Computation 126

Netlab>demgtm 1. m, demgtm 2. m Generative Topographic Mapping (GTM) • Bishop et al. (1996) • Nichtlineares Mapping von einer Gitterstruktur auf eine Gaussian Mixture (z. B. durch MLP) Zentrum abh. von Gitterpunkt Aus Bishop et al. (1996), Neural Computation 10(1), 215 -235 • GMM mit Randbedingungen • Probabilistische Formulierung, umgeht viele der Probleme der SOM SS 2009 Maschinelles Lernen und Neural Computation Aus Netlab Demo demgtm 2. m 127

• Praktische Aspekte Auch für unüberwachte Verfahren gelten im wesentlichen die 7 Schritte: 1. Sichtung (Ausreißer) 2. Vorverarbeitung: Skalierung der Merkmale beeinflusst die Distanz Normalisierung 3. Merkmalsselektion: irrelevante Merkmale können Clustering erschweren: SS 2009 Maschinelles Lernen und Neural Computation 128

Kreuzvalidierung für unüberwachtes Lernen 4. Modellschätzung mittels Kreuzvalidierung: bei k-means problematisch bei GMM: Likelihood-Funktion als Fehlerfunktion („Loss“-Funktion) SS 2009 Maschinelles Lernen und Neural Computation 129

Kombination von überwachtem mit unüberwachtem Lernen • Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme! • Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als – Initialisierung – Vorstrukturierung • Beispiele: – SOM oder GTM als Initialisierung eines RBFN – Learning Vector Quantization – ARTMAP SS 2009 Maschinelles Lernen und Neural Computation 130

Learning Vector Quantization (LVQ) • Kohonen (1990) Ordne Units Klassen zu hinbewegen, wenn richtige Klasse wegbewegen, wenn falsche Klasse • nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert) • Vergleichbar mit Dichteschätzung der class -conditionals SS 2009 Maschinelles Lernen und Neural Computation 131

Zusammenfassung • Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik • Competitive Learning = k-means • GMM als probabilistisches Clusteringverfahren • SOM als Multidimensionale Skalierung + Clustering, aber mit Problemen SS 2009 Maschinelles Lernen und Neural Computation 132