Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade
Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard
Gliederung Theorie Hintergrund Lernverfahren Experimente Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz 2
Theorie Hintergrund Lernverfahren 3
Theorie Hintergrund Bioinformatik Microarrays Ähnliches Aussehen = Ähnliche Funktion? 4
Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt 5
Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler 6
Theorie Lernverfahren Wurzel Blatt Zuordnung 7
Theorie Lernverfahren Variability / Spannweite Ressource / mittlere Abweichung 8
Theorie Lernverfahren 9
Theorie Lernverfahren ? 10
Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester 11
Experimente Attributskalierung Fallbeispiel 12
Experimente Attributskalierung Parameter in KNIME können das zyklisches Wachsen des Trees beeinflussen: Lerningrates min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt min. Error Distance: Euclid. Oder Cosinus Clustern ohne Zielattribut
Experimente Fallbeispiel IRIS-Datenset 4 Attribute, metrisch skaliert Zielattribut mit 3 Klassen LIVE DEMO Quantitativer Vergleich zu Klassifikationsalgorithmen i. d. F. k-Means Keine signifikanten Unterschiede Anwendung des SOTA auf Daten mit und ohne Zielattribut Keine signifikanten Unterschiede
Bewertung Vergleich mit anderen Verfahren Einsatz 15
Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig 16
Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig 17
Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel 18
Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Eigenschaften SOTA Divisiv oder agglomerativ Divisives Verfahren Knoten sind einfache Darstellung der Teilmengen Knoten sind Mittelwerte sämtlicher folgenden Knoten Zwischenschritte sind irreversibel Zuordnung wird ständig angepasst 19
Bewertung Vergleich mit anderen Verfahren Self Organizing Map (Kohonen Map) Ähnliches Verfahren, aber andere Topologie SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden 20
Bewertung Einsatz Methodisch vielversprechend Erfolge nicht reproduzierbar Mögliche Ursachen Ungeeignete Daten Ungeeignete Parameterjustierung Mangelndes (Aufgaben-)Verständnis Weitere Untersuchung Hintergrundwissen Bioinformatik Microarray-Datensätze wählen 21
Fin 22
Theorie Hintergrund 23
Theorie Hintergrund 24
- Slides: 24