Universitt Hamburg Maschinelles Lernen Fachbereich Informatik Einfhrung Knstliche

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Einführung Künstliche Intelligenz Steuerungs und Regelungstechnik Psychologie Reinforcement Learning (RL) Neurowissenschaft Künstliche Neuronale Netze 1 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Fachbereich Informatik Maschinelles Lernen Was ist Reinforcement Learning? • Lernen aus Interaktion • Ziel-orientiertes Lernen • Lernen durch, von, und während der Interaktion mit einer externen Umgebung • Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward. Signal zu maximieren 2 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Überwachtes Lernen Trainings Info = gewünschte (Soll-) Ausgabe Eingaben Überwacht lernendes System Ausgaben Fehler = (Soll-Ausgabe – Systemausgabe) 3 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Reinforcement Learning Trainings Info = Bewertungen (“rewards” / “penalties”) Eingaben RL System Ausgaben (“Aktionen”) Ziel: erreiche soviel Reward wie möglich 4 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Reinforcement Learning • • Ziel: Möglichst „erfolgreich“ in der Umgebung agieren Entspricht Maximierung der Belohnungssequenz Rt Agent st rt at Umgebung 5 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Key Features von RL • Lerner bekommt nicht gesagt welche Aktionen zu wählen sind • Trial-and-Error Suche • Möglichkeit eines verspäteten (“delayed”) Reward – Aufgeben von kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten • Das Dilemma “exploration” vs. “exploitation” • Betrachtes das komplette Problem eines ziel-orientierten Agenten in Interaktion mit einer unsicheren Umgebung 6 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Der vollständige Agent • • Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung ist stochastisch und ungewiss Umgebung Zustand Reward Aktion Agent 7 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Elemente des RL Policy Reward Value Modell der Umgebung • • Policy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vorhersagt Modell: was folgt auf was 8 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Ein erweitertes Beispiel: Tic. Tac. Toe X X O X x x o X O O X O x X O X O X O O X X O } x’s Zug . . X X x } o’s Zug . . . o o x x x . . . . } x’s Zug } o’s Zug Setzt einen nicht perfekten Gegner voraus: — er/sie macht manchmal Fehler AB TAMS Technische Aspekte Multimodaler Systeme x o x x o } x’s Zug 9 Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Ein RL Ansatz für Tic. Tac. Toe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand x x o o o gewonnen 0 Momentaner Zustand verloren . . . o x o o x x x o o 1 Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vorne: . . . x x x o o V(s) – geschätzte Wahrscheinlichkeit für den Gewinn. 5 2. Jetzt spiele viele. 5 0 unentschieden * Verschiedene mögliche nächsten Zustaände Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug. AB TAMS Technische Aspekte Multimodaler Systeme 10 Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik RLLernregel für Tic. Tac. Toe Zug des Gegners Unser Zug Startposition { { { a b Explorierender Zug c* c s – Zustand vor dem greedy Zug s ¢ – Zustand nach dem greedy Zug d e* Wir inkrementieren jedes V(s) zu V( s ¢) – ein „backup“ : e f kleiner positiver Wert, z. B. a = 0. 1 g* g der „Schrittweitenparameter“ 11 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Fachbereich Informatik Maschinelles Lernen Verbesserung des T. T. T Spielers • Beachten von Symmetrien – Darstellung/Generalisierung – Wie kann dies fehlschlagen? • Braucht man “Zufallszüge”? Warum? – Braucht man immer die 10%? • Kann man von “Zufallszügen” lernen? • Kann man offline lernen? – Vor-Lernen durch Spielen gegen sich selbst? – Verwendung von gelernten Modellen des Gegners? • . . . AB TAMS Technische Aspekte Multimodaler Systeme 12 Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik z. B. Generalisierung Tabelle Zustand V Generalisierender Funktionsapproximator Zustand V s 1 s 2 s 3. . . Trainiere hier s N AB TAMS Technische Aspekte Multimodaler Systeme 13 Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Warum ist Tic. Tac. Toe einfach? • Endliche, kleine Anzahl an Zuständen • Es ist immer möglich einen Schritt nach vorne zu gucken (one-step look ahead) • Zustände komplett wahrnehmbar • . . . 14 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Einige namhafte RL Anwendungen • TD Gammon: Tesauro • weltbestes Backgammon Programm • Aufzugssteuerung: Crites & Barto • High Performance “down-peak” Aufzugscontroller • Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis • 10– 15% Verbesserung gegenüber standard Industriemethoden • Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin • High Performance Zuordnung von Funkkanälen zu Mobiltelefonaten 15 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik TDGammon Value Tesauro, 1992– 1995 Aktionsauswahl durch 2– 3 Lagensuche TD Fehler Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktion anhand dieser simulierten Erfahrung Dies produziert wohl den besten Spieler der Welt 16 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Aufzugseinteilung 10 Stockwerke, 4 Kabinen Crites and Barto, 1996 Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, – 1 pro Zeitschritt für jede wartende Person 22 Vorsichtige Schätzung: ca. 10 Zustände 17 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik Performance Vergleich 800 80 60 600 2 Durchschn. Warte- 40 und System-20 zeiten 1 Durchschn. quadrierte 400 Wartezeit 0 0 % Wartezeit >1 Minute 0 Lastenverteiler 200 Lastenverteiler 18 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik RL Geschichte Trial and Error learning Thorndike ( ) 1911 Temporal difference learning Optimal control, value functions Secondary reinforcement ( ) Hamilton (Physics) 1800 s Shannon Samuel Minsky Bellman/Howard (OR) Holland Klopf Witten Barto et al. Werbos Sutton Watkins AB TAMS Technische Aspekte Multimodaler Systeme 19 Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de

Universität Hamburg Maschinelles Lernen Fachbereich Informatik MENACE (Michie 1961) “Matchbox Educable Noughts and Crosses Engine” xo xoo x xox x oo ox xoo xx o x x oox x ox oox x xo o x ox o ox xo o o oxo x x xo xo xo o oox ox oo x o ox o xox o oox oo x x o ox o oxx o o o x x o xo o o x o o ox o 20 AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik. uni-hamburg. de