Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade

Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard

Gliederung Theorie Hintergrund Lernverfahren Experimente Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz 2

Theorie Hintergrund Lernverfahren 3

Theorie Hintergrund Bioinformatik Microarrays Ähnliches Aussehen = Ähnliche Funktion? 4

Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt 5

Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler 6

Theorie Lernverfahren Wurzel Blatt Zuordnung 7

Theorie Lernverfahren Variability / Spannweite Ressource / mittlere Abweichung 8

Theorie Lernverfahren 9

Theorie Lernverfahren ? 10

Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester 11

Experimente Attributskalierung Fallbeispiel 12

Experimente Attributskalierung Parameter in KNIME können das zyklisches Wachsen des Trees beeinflussen: Lerningrates min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt min. Error Distance: Euclid. Oder Cosinus Clustern ohne Zielattribut

Experimente Fallbeispiel IRIS-Datenset 4 Attribute, metrisch skaliert Zielattribut mit 3 Klassen LIVE DEMO Quantitativer Vergleich zu Klassifikationsalgorithmen i. d. F. k-Means Keine signifikanten Unterschiede Anwendung des SOTA auf Daten mit und ohne Zielattribut Keine signifikanten Unterschiede

Bewertung Vergleich mit anderen Verfahren Einsatz 15

Bewertung Vergleich mit anderen Verfahren Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig 16

Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Eigenschaften k-Means Wenige Iterationen Einfaches Verfahren Anfällig für Rauschen / Ausreißer Ergebnis von initialen Zerlegung abhängig Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig 17

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Divisiv oder agglomerativ Knoten sind einfache Darstellung der Teilmengen Zwischenschritte sind irreversibel 18

Bewertung Vergleich mit anderen Verfahren Hierarchisches Clustern Eigenschaften SOTA Divisiv oder agglomerativ Divisives Verfahren Knoten sind einfache Darstellung der Teilmengen Knoten sind Mittelwerte sämtlicher folgenden Knoten Zwischenschritte sind irreversibel Zuordnung wird ständig angepasst 19

Bewertung Vergleich mit anderen Verfahren Self Organizing Map (Kohonen Map) Ähnliches Verfahren, aber andere Topologie SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden 20

Bewertung Einsatz Methodisch vielversprechend Erfolge nicht reproduzierbar Mögliche Ursachen Ungeeignete Daten Ungeeignete Parameterjustierung Mangelndes (Aufgaben-)Verständnis Weitere Untersuchung Hintergrundwissen Bioinformatik Microarray-Datensätze wählen 21

Fin 22

Theorie Hintergrund 23

Theorie Hintergrund 24