Apprentissage de reprsentation et autoorganisation modulaire pour un

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier

Construire un agent autonome • Calculer une stratégie/politique Environnement long-terme • Exemples action perception

Représentation et organisation modulaire 50000 V 24 V Perception brute Représentation ? Organisation centralisée

S'inspirer d'un système performant • • • autonome robuste "anytime" dynamique distribué & parallèle

Objectifs • Montrer que les problèmes consistant à – calculer une stratégie/politique – apprendre

Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement

Algorithmes connexionnistes • • Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? sorties entrées propagation synchrone

Un calcul connexionniste t=0 t=∞ t=1 Activation M M . . . M unités

Un calcul connexionniste • Calcul du point fixe d'une contraction – Solution traditionnelle –

Bilan • Propriétés du calcul du point fixe… – anytime – dynamique … avec

Contrôle optimal états actions transition récompense On cherche une politique T(s, a, s’)=P(s’|s, a)

Illustration • Fonction de valeur optimale récompense 15

Illustration • Politique optimale fonction de valeur optimale 16

Lien avec le connexionnisme s' T(s, ←, s') T(s, ↑, s'') s'' V R.

Apprentissage par renforcement • Problème de contrôle optimal dont on ne connaît pas les

Lien avec le connexionnisme • Dans le réseau – Estimation de R : calculée

Bilan • Une architecture connexionniste pour l’apprentissage par renforcement : environnement Estimation paramètres SA

Qu'est-ce qu'une bonne représentation ? Qualité Complexité 26

Mesure de l’erreur d'approximation • L’erreur d’approximation définie par long-terme dépend de l’erreur d’interpolation

Mesure de l’erreur • Erreur d’interpolation 28

Mesure de l’erreur • Erreur d’approximation 29

Mesure de l’erreur • Politique la plus incertaine 30

Réduction de l'erreur Qualité Spécialisation Généralisation Complexité 31

Réduction de l’erreur • On peut améliorer une approximation. . . zones d'intérêt …en

Réduction de l’erreur zone d'intérêt Spécialisation Généralisation 33

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation 34

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs 35

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs 36

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation 37

Bilan • Une couche fonctionnelle connexionniste supplémentaire environnement TR App. représentation π TR S

Apprentissage de représentation M mauvaise représentation bonne représentation 44

Apprentissage de représentation M 4 M 2 M 3 M 1 Avoir une seule

Apprentissage de représentations M 4 M 2 M 3 M 1 46

Une approche modulaire M 4 M 2 M 3 M 1 47

Description • L’apprentissage de représentation c’est : • L’auto-organisation modulaire c’est : Problème de

Expérience 6 tâches à résoudre 3 modules 49

Bilan environnement TR App. représentation π TR S Estimation paramètres SA TR Controle SATR

Conclusions Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement

Conclusions Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de

Perspectives • Extensions/améliorations des travaux de thèse – Gestion adaptative des ressources – Coopération

Slides: 55

Download presentation

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

Construire un agent autonome • Calculer une stratégie/politique Environnement long-terme • Exemples action perception renforcement instantané – marcher – conduire une voiture – jouer au backgammon 2

Représentation et organisation modulaire 50000 V 24 V Perception brute Représentation ? Organisation centralisée Organisation en modules spécialisés 3

S'inspirer d'un système performant • • • autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes Algorithmes connexionnistes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle 4

Objectifs • Montrer que les problèmes consistant à – calculer une stratégie/politique – apprendre une représentation – organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche 5

Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives 6

Algorithmes connexionnistes • • Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? sorties entrées propagation synchrone Système dynamique généralement complexe à analyser et concevoir ! Loi de Hebb 7

Un calcul connexionniste t=0 t=∞ t=1 Activation M M . . . M unités Contraction M Point fixe <1 M . . . M 8

Un calcul connexionniste • Calcul du point fixe d'une contraction – Solution traditionnelle – Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89] 9

Bilan • Propriétés du calcul du point fixe… – anytime – dynamique … avec une méthode connexionniste – massivement parallèle • Difficulté : taille du réseau – nombre d’itérations pour approcher le point fixe 10

Contrôle optimal états actions transition récompense On cherche une politique T(s, a, s’)=P(s’|s, a) R(s) instantané : S→A qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : long-terme 12

Illustration Actions Plan : 13

Illustration • Récompense 14

Illustration • Fonction de valeur optimale récompense 15

Illustration • Politique optimale fonction de valeur optimale 16

Lien avec le connexionnisme s' T(s, ←, s') T(s, ↑, s'') s'' V R. . . s 17

Un calcul dynamique 18

Apprentissage par renforcement • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori ? ? • Estimation des paramètres • Le dilemme exploration/exploitation 19

Lien avec le connexionnisme • Dans le réseau – Estimation de R : calculée par chaque unité – Estimation de T : loi d'apprentissage du réseau s' T(s, ←, s') T(s, ↑, s'') s'' V R. . . similaire à la loi de Hebb s 20

Bilan • Une architecture connexionniste pour l’apprentissage par renforcement : environnement Estimation paramètres SA TR Controle π SATR • Difficulté : taille de l'espace d'états – nombre d’itérations pour le point fixe – estimation de R et T 21

Représentation Difficile à exploiter 23

Représentation Chemin sous-optimal 24

Représentation Chemin optimal 25

Qu'est-ce qu'une bonne représentation ? Qualité Complexité 26

Mesure de l’erreur d'approximation • L’erreur d’approximation définie par long-terme dépend de l’erreur d’interpolation [Munos, 99] instantané et est le point fixe de • Calcul de la politique la plus incertaine 27

Mesure de l’erreur • Erreur d’interpolation 28

Mesure de l’erreur • Erreur d’approximation 29

Mesure de l’erreur • Politique la plus incertaine 30

Réduction de l'erreur Qualité Spécialisation Généralisation Complexité 31

Réduction de l’erreur • On peut améliorer une approximation. . . zones d'intérêt …en faisant une descente de gradient : long-terme instantané Point fixe 32

Réduction de l’erreur zone d'intérêt Spécialisation Généralisation 33

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation 34

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs 35

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs 36

Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation 37

Expériences (1/2) 38

Expériences (1/2) 39

Expériences (2/2) 40

Expériences (2/2) 41

Bilan • Une couche fonctionnelle connexionniste supplémentaire environnement TR App. représentation π TR S Estimation paramètres SA TR Controle π SATR Optimisation du rapport complexité / qualité 42

Apprentissage de représentation M mauvaise représentation bonne représentation 44

Apprentissage de représentation M 4 M 2 M 3 M 1 Avoir une seule représentation peut être insuffisant ! 45

Apprentissage de représentations M 4 M 2 M 3 M 1 46

Une approche modulaire M 4 M 2 M 3 M 1 47

Description • L’apprentissage de représentation c’est : • L’auto-organisation modulaire c’est : Problème de classification : nuées dynamiques 48

Expérience 6 tâches à résoudre 3 modules 49

Expérience 3 2 1 Module 2 Module 3 50

Bilan environnement TR App. représentation π TR S Estimation paramètres SA TR Controle SATR TR App. représentation π TR S Estimation paramètres SA TR Controle π SATR Amélioration du rapport complexité / qualité 51

Conclusions Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement parallélisme massif Grand espace d'états ? Apprentissage de représentation optimisation du taux qualité / complexité Multiplicité des problèmes ? Auto-organisation modulaire amélioration du taux qualité / complexité 53

Conclusions Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches 54

Perspectives • Extensions/améliorations des travaux de thèse – Gestion adaptative des ressources – Coopération des modules – Implantation matérielle parallèle – Approximateurs de fonctions plus puissants – Le dilemme exploration/exploitation • Liens avec des travaux de sciences cognitives 55