Reinforcement Learning Das Reinforcement LearningProblem Alexander Schmid Vortragsgliederung

Reinforcement Learning Das „Reinforcement Learning“-Problem Alexander Schmid

Vortragsgliederung 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick 9. Literaturreferenzen Institut für Informatik 2

1. Einleitung – Was ist Reinforcement Learning ist eine spezielle Art von Lernverfahren „maschinelle Lernverfahren“: § Ein Künstliches System lernt (z. b. ein Roboter oder eine Maschine) § „überwachtes Lernen“ § Ein „Lehrer“ (übergibt die Lehrvorgaben) § Künstliches System orientiert sich an Lehrvorgaben § Reinforcement Learning § Es gibt keinen Lehrer § Der Ursprung liegt in der Natur Institut für Informatik 3

1. Einleitung – Was ist Reinforcement Learning Beispiel Kleinkind § Offensichtlich ist kein Lehrer notwendig § Das Kind kann seine Umgebung verändern § Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) § Erfahrungen helfen dem Kind Ziele zu erreichen Merkmale des Reinforcement Learnings § Interaktion mit der Umgebung § Sammeln und Anwenden von Erfahrungen § „trial-and-error“-Prinzip § Belohnungen beim Erreichen von Zielen Institut für Informatik 4

1. Einleitung – Das „Reinforcement Learning“-Problem Ziel: Formales Modell für Reinforcement Learning definieren 1. Ansatz § Idee: Verallgemeinerung von konkreten Anwendungen § Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen § Beispiel: Fertigungsroboter und Sortiermaschine 2. Ansatz § Idee: Beschreibung des Problems anstelle der Lösung § Genauer: Beschreibung der einzelnen Elemente § Beispiele unter diesem Ansatz mit einander vereinbar Institut für Informatik 5

2. Das Labyrinthbeispiel Ein Labyrinth und ein Roboter Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Roboter Ausgang Institut für Informatik 6

3. Der Agent und die Umgebung Das künstliche System wir formal als „ der Agent“ bezeichnet Der Agent… §. . . ist immer der Teil der lernt § …muss zwingend dynamisch bzw. veränderbar sein §. . . muss mit seiner Umgebung interagieren können Die Umgebung… § …ist das Gegenstück zum Agenten § …ist statisch (nicht veränderbar) § …beinhaltet alles, was nicht explizit zum Agenten gehört Institut für Informatik 7

3. Der Agent und die Umgebung Aktionen… § …können vom Agenten ausgeführt werden § …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) Zustände… § …beschreiben den Momentanzustand der Umgebung § …können komplizierte Formen annehmen (Beispiel: Objekterkennung) Zustände und Aktionen liegen kodiert vor Institut für Informatik 8

3. Der Agent und die Umgebung (Interaktion) Zustand Reward Agent Aktion Umgebung Agent führt Aktion aus (Zeitpunkt t) Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) Neuer Zeitschritt beginnt Agent bekommt (neuen) Zustand Agent bekommt Reward (Belohnung) Institut für Informatik 9

3. Der Agent und die Umgebung Agent und Umgebung am Labyrinthbeispiel § Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) § Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter) Institut für Informatik 10

3. Der Agent und die Umgebung Aktionen und Zustände am Labyrinthbeispiel Institut für Informatik 11

4. Die Policy… § …ist das Herzstück des Agenten (trifft die Entscheidungen) § …ist eine Abbildung von einem Zustand auf eine Aktion § …muss veränderbar sein (Lernvorgang) § …wird mit πt notiert (Definition) Das „Exploitation-Exploration-Problem“ § Erinnerung: „trial-and-error“-Prinzip § „greedy Policy“ (gierige Policy) Institut für Informatik 12

4. Die Policy „Exploitation-Exploration-Problem“ am Labyrinthbeispiel Institut für Informatik 13

4. Die Policy Lösung des „Exploitation-Exploration-Problems“ § Einbauen von Exploration-Entscheidungen § Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) § Formal: πt(s, a) Beispiel Zustandsgraph s a b x Institut für Informatik c y z 14

5. Rewards und Returns Formulierung eines Ziels für den Agenten Definition: rt Rewards liegen in der Umgebung Modellierung eines komplexen Ziels mit Hilfe von Rewards § Beispiel: Roboter lernt laufen Rewards können auch falsch gesetzt werden § Beispiel: Schach Institut für Informatik 15

5. Rewards und Returns Rewards im Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 80 -1 -1 Institut für Informatik 16

5. Rewards und Returns sind Summen von Rewards § Definition: Problem bei kontinuierlichen Prozessen § Lösung: Abschwächen der Summenglieder durch Faktor § Definition: § mit Institut für Informatik 0< γ<1 17

5. Rewards und Returns am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1+80 = 71 -1 -1+80 = 76 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 80 -1 -1 Institut für Informatik 18

6. Markov-Eigenschaft und MDP Informationsgehalt der Zustände Beispiel: Schach Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) mathematische Formulierung der Markov Eigenschaft § Zustände ohne Markov-Eigenschaft: § Zustände mit Markov-Eigenschaft: Annäherungen an die Markov-Eigenschaft Institut für Informatik 19

6. Markov-Eigenschaft und MDP Markov-Decision-Process (MDP) § Alle Zustände besitzen die Markov-Eigenschaft § Aussagen über „Reinforcement Learning“ gelten nur für MDPs Mathematischen Eigenschaften des MDP § Übergangswahrscheinlichkeit: § Folgezustand für Aktion nicht zwingend eindeutig Institut für Informatik 20

6. Markov-Eigenschaft und MDP Beispiel für Übergangswahrscheinlichkeit § Erweiterter Zustandsgraph: s a w b x y z Erwarteter Reward: Institut für Informatik 21

7. Value Functions bewerten Zustände Definition § Die Value Function repräsentiert den „erwarteten Return“: § Die Value Functions sind von der Policy abhängig Institut für Informatik 22

7. Value Functions Auflösen der Formel: s a 1 s 1 Institut für Informatik s 2 a 2 s 3 23

7. Value Functions Action-Value Functions § Bewerten ein Zustand-Aktions-Paar § Definition: Optimale Value Functions § Value Functions konvergieren gegen optimale Value Functions (ausgelernt) § Policies mit optimalen Value Functions sind optimale Policies § Strategie: Bei optimalen Value Functions eine greedy Policy verwenden Institut für Informatik 24

7. Value Functions Optimale Value Function am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 80 -1 -1 Institut für Informatik 22 Schritte Return von 59 25

8. Fazit und Ausblick Zusammenfassung § Ursprung und Allgemeine Beschreibung von Reinforcement Learning § Formales Modell für Reinforcement Learning (allen wichtigen Elemente) § Anwendungsbeispiele Zusammenfassung § Modell dient als Rahmen für die Entwicklung von Anwendungen § Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning Institut für Informatik 26

9. Literaturreferenzen [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998 Institut für Informatik 27