Maschinelles Lernen Entscheidungsbume Teil 1 Mitchell Kap 3

Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

Beispiel Nationalitäten:

Beispiel Behandlung bei Artikulationsstörungen

Beispiel Tage, um Sport zu treiben

Motivation • Versuche Abfolge von Tests oder Bedingungen zu automatisieren • Für Aufgaben, denen irgendwie abstrahierbare Regeln zugrunde liegen • Zur Repräsentation komplexer Abhängigkeiten • Disjunktion von Konjunktionen

Eigenschaften • Probleme erlauben Attribut-Wert. Darstellung • Zielfunktion muß diskret sein • Disjunktive Beschreibung • Fehlerhafte Trainingsdaten möglich • Unvollständige Trainingsdaten möglich • Typischerweise Klassifikationsprobleme

Typische Anwendungen • Medizinische Diagnosen • Analyse des Kreditrisikos • Raumbelegungspläne etc.

Naive Beschreibung • Interne Knoten = Überprüfen eines Attributs • Verzweigung nach Anzahl der möglichen Werte • Blätter: Ergebnis = Klassifikation • Pfad durch den Baum = Entscheidungsprozess, für jedes Objekt gibt es genau einen Pfad von der Wurzel zu einem Blatt

Baum • Definition: <K, b K X K> ist ein Baum mit Knoten K und Kanten b gdw. – Es gibt genau ein w K, so dass k K: <k, w> b (w heißt Wurzel) – Es gibt B K mit : b B( k K: <b, k> b) (B sind die Blätter) – Für k K mit k ≠ w und k B: ki, kl K: <ki, k> b und <k, kl> b (das sind zusammen mit w die internen Knoten) – Für jeden Pfad <w= ki 0, ki 1, ki 2, ki 3, . . . , kin> ( 0≤r<n: <kir, kir+1> b) gilt: kir, kis: kir ≠ kis (keine Zyklen!)

Entscheidungsbaum • Sei zusätzlich – A = {a 1, a 2, a 3, . . . , aj} Menge von Attributen mit möglichen Attributwerten V = {va 11, va 12, . . . , vaj 1, . . . , vajn} – C = {c 1, c 2, c 3, . . . , cm} Menge von Zielkonzepten • Ein Entscheidungsbaum ist ein Baum, bei dem – jeder interne Knoten mit einem Attribut gelabelt ist (k = <k, ai>) und – jede Kante mit einem entsprechenden Attributwert (b = < <km, ai>, vair, <kn, al>> und vair ist möglicher Wert von a i) , – jedes Blatt ist mit einer Klasse c gelabelt (k = <k, ci>)

Zwischenfragen • Welche Tiefe hat ein Entscheidungsbaum? – Minimal? Maximal? • Wieviele Knoten hat ein Entscheidungsbaum maximal? • Gibt es Zielfunktionen, die nicht als Entscheidungsbaum dargestellt werden können?

Grundidee zur Konstruktion • Prinzip von ID 3 (Quinlan 1986) • Top-down Suche (greedy) durch die Menge aller möglichen Entscheidungsbäume • Problem: welches Attribut soll als erstes/nächstes überprüft werden? – Dasjenige, das die beste Einschränkung bringt!

Top-down Induktion von Entscheidungsbäumen (ID 3) • Hauptschleife: – Wähle bestes Entscheidungsattribut ai als Label für nächsten Knoten k – Generiere für jeden möglichen Wert vl von ai Tochterknoten kn von k und Kanten, die mit vl gelabelt sind – Verteile alle Trainingsbeispiele auf die Blätter – Wenn sich eine korrekte Aufteilung aller Trainingsbeispiele ergibt, labele die Blätter mit C, andernfalls führe Schleife für jeden neuen Knoten aus

Auswahl der Attribute • Wann ist ein Attribut nützlich? – Wenn es wenige Objekte, aber die eindeutig klassifiziert? – Wenn es die Inputmenge möglichst gleichmäßig splittet? • Betrachte Maße aus der Informations. Theorie: „Information Gain“

Entropie • Entropie ≈ Maß für die Homogenität oder Reinheit einer Menge • Entropie = Anzahl der Bits, die für die Kodierung bestimmter Information minimal benötigt wird

Entropie • Sei: – T Menge von Trainingsdaten – p+ sei der Anteil der positiven Beispiele in T – p- sei der Anteil der negativen Beispiele in T – Entropie(T) = -p+ log 2(p+) – p-log 2 p– im allgemeinen Fall: • Entropie(T) = ∑c C –pclog 2(pc) – Annahme: 0*log 2(0) = 0

Entropie: Beispiele • Angenommen alle Beispiele sind positiv:

Entropie: Beispiele • T 1: alle Beispiele sind positiv: – p+ = 1 und p- = 0 – Entropie(T 1) = -1(log 21) – 0(log 20) = 0 • T 1: alle Beispiele sind negativ:

Entropie: Beispiele • T 1: alle Beispiele sind positiv: – p+ = 1 und p- = 0 – Entropie(T 1) = -1(log 21) – 0(log 20) = 0 • T 2: alle Beispiele sind negativ: – p+ = 0 und p- = 1 – Entropie(T 2) = -0(log 20) – 1(log 21) = 0 • T 3: die Hälfte ist positiv und die Hälfte ist negativ: – p+ = 0. 5 und p- = 0. 5

Entropie: Beispiele • T 1: alle Beispiele sind positiv: – p+ = 1 und p- = 0 – Entropie(T 1) = -1(log 21) – 0(log 20) = 0 • T 2: alle Beispiele sind negativ: – p+ = 0 und p- = 1 – Entropie(T 2) = -0(log 20) – 1(log 21) = 0 • T 3: die Hälfte ist positiv und die Hälfte ist negativ: – p+ = 0. 5 und p- = 0. 5 – Entropie(T 3) = -0. 5(log 20. 5) – 0. 5(log 20. 5) = -log 2(0. 5) = 1 • T 4: ¼ ist positiv, der Rest ist negativ – p+ = 0. 25 und p- = 0. 75

Entropie: Beispiele • T 1: alle Beispiele sind positiv: – p+ = 1 und p- = 0 – Entropie(T 1) = -1(log 21) – 0(log 20) = 0 • T 2: alle Beispiele sind negativ: – p+ = 0 und p- = 1 – Entropie(T 2) = -0(log 20) – 1(log 21) = 0 • T 3: die Hälfte ist positiv und die Hälfte ist negativ: – p+ = 0. 5 und p- = 0. 5 – Entropie(T 3) = -0. 5(log 20. 5) – 0. 5(log 20. 5) = -log 2(0. 5) = 1 • T 4: ¼ ist positiv, der Rest ist negativ – p+ = 0. 25 und p- = 0. 75 – Entropie(T 4) = -0. 25(log 20. 25) – 0. 75(log 20. 75) = 0. 811. . .

Entropie • Werteverteilung

Information Gain • Idee: betrachte den Unterschied in der Entropie von T, wenn nach einem Attribut ai sortiert wird: • GAIN(T, ai): – Entropie(T) - ∑v von ai(|Tv|/|T| * Entropie(Tv)) • Das beste Attribut für einen Knoten ist dasjenige, das den höchsten Information Gain erzielt!

Konstruktion

Beispiel

Grundannahmen • Welche Grundannahmen wurden gemacht?

Grundannahmen • Welche Grundannahmen wurden gemacht? – Bzgl. Hypothesenraum: keine!

Grundannahmen • Welche Grundannahmen wurden gemacht? – Bzgl. Hypothesenraum: keine! – Bzgl. Struktur des entstehenden Baums?

Grundannahmen • Welche Grundannahmen wurden gemacht? – Bzgl. Hypothesenraum: keine! – Bzgl. Struktur des entstehenden Baums? • Präferenz für möglichst flache Bäume • Präferenz für Bäume, bei denen die spezifischsten Attribute möglichst nahe bei der Wurzel angesiedelt sind • Warum möglichst flache Bäume?

Zusammenfassung • Hypothesenraum unbeschränkt, d. h. Zielfunktion ist mit Sicherheit im Hypothesenraum enthalten • Lediglich Präferenz bei der Konstruktion des Baumes • Betrachtet immer gesamte Trainingsmenge – Toleranz gegenüber fehlerhaften Beispielen möglich (akzeptiere auch Knoten als Blätter, die nicht ausschließlich die Zielmenge enthalten) • Keine Beschreibung der gesamten Lösungsmenge • Keine Gewähr, dass der minimale Baum gefunden wird, nur lokal minimal!

Aufgaben • Berechnen Sie bitte Entropie und Information Gain für folgendes Beispiel. Was sollte also sinnvoller Weise als Top. Knoten gewählt werden?

Aufgaben • Lösen Sie bitte Aufgabe 3. 1 und 3. 2 aus dem Buch von Mitchell (S. 77/78) • Erstellen Sie bitte für das Beispiel von letzter Woche einen Entscheidungsbaum nach dem vorgestellten Basis-Algorithmus

Aufgaben (Mitchell) • (3. 1. ) Geben Sie Entscheidungsbäume an, die folgenden booleschen Funktionen repräsentieren: 1. 2. 3. 4. • A and non B A or (B and C) A xor B (A and B) or (C and D) (3. 2) Trainingsbeispiel: nächste Seite 1. 2. Was ist die Entropie des Trainingsbeispiels im Hinblick auf die Zielfunktion? Was ist der Information Gain von a 2 für diese Trainingsbeispiele?

Trainingsbeispiel 3. 2 Inst anz Klassifi a 1 kation a 2 1 + T T 2 + T T 3 - T F 4 + F F 5 - F T 6 - F T