Thse de Doctorat de lUniversit Paris 6 Agents

  • Slides: 41
Download presentation
Thèse de Doctorat de l’Université Paris 6 Agents adaptatifs dans les jeux de stratégie

Thèse de Doctorat de l’Université Paris 6 Agents adaptatifs dans les jeux de stratégie modernes : une approche fondée sur l’apprentissage par renforcement Charles A. G. MADEIRA Encadrant: Vincent CORRUBLE, Sous la direction de Jean-Gabriel GANASCIA 25/04/2007 1

Les jeux de stratégie modernes Act of War (Eugen Systems / Atari) Age of

Les jeux de stratégie modernes Act of War (Eugen Systems / Atari) Age of Empires (Ensemble Studios / Interactive) Microsoft) Imperial Battleground Glory(John (Pyro Tiller Studios Games / Eidos / Talonsoft) 16/10/2021 2

Contexte et problématique Intelligence Artificielle permet aux joueurs de jouer lorsque : il n’y

Contexte et problématique Intelligence Artificielle permet aux joueurs de jouer lorsque : il n’y a pas d’autres joueurs disponibles Adversaires artificiels Ils ne veulent contrôler que partiellement leurs unités Assistants Cette IA doit offrir un comportement crédible afin de rendre les parties amusantes et intéressantes [Nareyek 2002, 2004] Adaptation aux nouvelles situations Proposition d’expériences nouvelles aux joueurs Cependant, les systèmes à base de règles dominent le développement industriel [Rabin 2002, 2003, 2006] Raisonnement figé et programmation difficile Des joueurs expérimentés peuvent facilement repérer la stratégie adoptée 16/10/2021 3

Solutions alternatives pour les jeux de stratégie modernes è Apprentissage automatique Concevoir automatiquement des

Solutions alternatives pour les jeux de stratégie modernes è Apprentissage automatique Concevoir automatiquement des stratégies efficaces Utile dans le cadre des problèmes où : des stratégies efficaces sont inconnues a priori difficilement automatisables l’environnement évolue de manière incertaine L’apprentissage en ligne est bien adapté aux jeux Il ne requiert pas de superviseur Il repose sur le principe d’essai/erreur Il s’appuie sur une estimation anticipée d’un renforcement 16/10/2021 4

Apprentissage par renforcement (AR) [Samuel 1959]…[Sutton et Barto 1998]… Situation s Renforcement r Action

Apprentissage par renforcement (AR) [Samuel 1959]…[Sutton et Barto 1998]… Situation s Renforcement r Action a a r 1 a r 2 a 2 s 0 0 à se rapprocher s 1 1 d’une stratégie L’agent apprend par l’interaction s 2 optimale t t t 0 1 2 avec l’environnement Les décisions sont prises séquentiellement L’environnement peut être stochastique et inconnu Très bons résultats pratiques ont été obtenus sur des problèmes complexes TD-Gammon est devenu le meilleur joueur de Backgammon au monde [Tesauro 2002] è Mais… nous intéressons à des problèmes beaucoup plus complexes Nous avons le jeu commercial Battleground comme cas d’étude 16/10/2021 5

Cas d’étude : le jeu commercial Battleground™ Chariots d’approvisionnement Cavaleries françaises Infanteries françaises Remblai

Cas d’étude : le jeu commercial Battleground™ Chariots d’approvisionnement Cavaleries françaises Infanteries françaises Remblai Compagnies russes Infanteries russes Artilleries françaises Forêt Objectifs à conquérir ou à défendre Scène saisie 16/10/2021 6

Difficultés pour appliquer l’AR aux jeux modernes Backgammon Battleground (scénario simple) Espace physique 28

Difficultés pour appliquer l’AR aux jeux modernes Backgammon Battleground (scénario simple) Espace physique 28 35 x 20 Choix simultanés 2 Espace d’états 1020 Espace d’actions 420 Backgammon 101 83 102000 10180 10150 Battleground (John Tiller Games / Talonsoft) Comment représenter l’état de l’environnement si l’on ne peut pas le faire dans son intégralité ? Comment choisir des actions cohérentes pour un ensemble d’unités ? 16/10/2021 7

Voie de recherche envisagée Approche distribuée multi-agents [Weiss 2000] Les capacités de perception et

Voie de recherche envisagée Approche distribuée multi-agents [Weiss 2000] Les capacités de perception et de prise de décisions sont distribuées Cependant, les méthodes classiques d’AR se transposent mal L’environnement de chaque unité devient non-Markovien La convergence des algorithmes d’AR n’est plus assurée Un effort collectif est nécessaire pour construire des solutions globalement cohérentes et optimales Problème de la coordination multi-agents [Malone et Crowston 1994] [Boutilier 1996] 16/10/2021 8

Apprentissage de la coordination par renforcement Approches classées selon trois groupes principaux Processus de

Apprentissage de la coordination par renforcement Approches classées selon trois groupes principaux Processus de décision Markoviens multi-agents [Littman 1994, 2001] [Uther et Veloso 1997] [Hu et Wellman 1998, 2003] [Claus et Boutilier 1998] 16/10/2021 Émergence de la coordination Emploi de connaissances [Crites et Barto 1998] [Sen et Weiss 2000] [Wolpert et Tumer 1999] [Riedmiller et Merke 2002] [Dietterich 2000] [Barto et Mahadevan 2003] [Boutilier et al. 2000] [Guestrin et al. 2003] 9

L’approche STRADA [Madeira et al. 2004, 2005, 2006] ü Décomposition du processus de prise

L’approche STRADA [Madeira et al. 2004, 2005, 2006] ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain Analyse de terrain [Rabin 2003][Grindle et al. 2004] Raisonnement spatial qualitatif [Cohn et Hazarika 2001] ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 10

STRADA appliquée à Battleground è Décomposition du processus de prise de décisions Les jeux

STRADA appliquée à Battleground è Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 11

La hiérarchie de contrôle et de commandements Général d’Armée Ordre Objectif à long terme

La hiérarchie de contrôle et de commandements Général d’Armée Ordre Objectif à long terme (Stratégie) Situation … Général de Corps GC Situation Ordre … Général de Division Ordre … Situation Actions 16/10/2021 Régiment de cavalerie Perceptions Bataillon d’infanterie Général de Brigade Situation Ordre Groupe de combattants Batterie d’artillerie Ordre Situation Général de Brigade GD … Batterie d’artillerie Régiment de cavalerie Actions Bataillon d’infanterie Action Spécifique (Tactique) Perceptions 12

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions è Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 13

Abstraction de l’espace d’actions Définition des ordres de haut niveau Attaque extrême, attaque, arrêt,

Abstraction de l’espace d’actions Définition des ordres de haut niveau Attaque extrême, attaque, arrêt, défense extrême Identification des points tactiques sur la carte =33 ≈10180 L’espace d’actions stratégiques A de l’agent A = ordres de haut niveau X points tactiques 16/10/2021 14

Abstraction de l’espace d’états Situation du groupe d’unités du 1 er niveau de la

Abstraction de l’espace d’états Situation du groupe d’unités du 1 er niveau de la hiérarchie Centre de masses, force, fatigue, qualité, mobilité Situation des unités sur les zones du 1 er niveau de la hiérarchie Force et fatigue par camp Identification des zones stratégiques sur la carte 1 ≈102000 3 ≈1082 5 4 6 2 L’espace d’états S de l’environnement S = centre de masses X force X fatigue X qualité X mobilité X force par 16/10/2021 zone et camp X fatigue par zone et camp 15

Abstraction de l’espace d’états Situation du groupe d’unités du 2ème niveau de la hiérarchie

Abstraction de l’espace d’états Situation du groupe d’unités du 2ème niveau de la hiérarchie Ordre reçu, centre de masses, force, fatigue, qualité, mobilité Situation des unités sur les zones du 2ème niveau de la hiérarchie Force et fatigue par camp Identification des zones stratégiques sur la carte 1 C A 3 5 D B J E I 4 M K 6 G 2 F H L L’espace d’états S de l’environnement S = ordre reçu X centre de masses X force X fatigue X qualité X mobilité X 16/10/2021 force par zone et camp X fatigue par zone et camp 16

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain è Généralisation de la stratégie Approcher la stratégie à l’aide d’approximateurs de fonction Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 17

Approximateurs de fonction Réseau de neurones Réseaux de neurones (1) (2) Q(s, a 1)

Approximateurs de fonction Réseau de neurones Réseaux de neurones (1) (2) Q(s, a 1) Q(s, a … 2) Q(s, an) s CMAC [Albus 1975] (3) s Q(s, a 1) s Q(s, a 2) … … s 16/10/2021 Q(s, an) s Q(s, an) 18

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux

STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 19

Mécanisme d’amorçage Armée contrôlée par l’IA apprenante et par l’IA commerciale GA vs. Général

Mécanisme d’amorçage Armée contrôlée par l’IA apprenante et par l’IA commerciale GA vs. Général d’Armée contrôlée par l’IA commerciale GA GCA … GCA Général de Corps d’Armée GCA … GCA GD … GD Général de Division GD … GD GB … GB Général de Brigade GB … GB GC … GC Groupes de Combattants GC … GC 16/10/2021 20

Démarche expérimentale : Évaluer l’approche STRADA sur le jeu commercial Battleground : Comparer les

Démarche expérimentale : Évaluer l’approche STRADA sur le jeu commercial Battleground : Comparer les performances des agents STRADA avec celles d’autres modèles d’agents Plate-forme Napolectronic Module d’IA Prise de décisions Représentation de l’état de l’environnement Fichiers de données Situation Action Moteur du jeu Jeu commercial Battleground 16/10/2021 Module système Système d’exploitation 21

Expérimentations avec Battleground ü 1ère phase § 1 er niveau de la hiérarchie 52

Expérimentations avec Battleground ü 1ère phase § 1 er niveau de la hiérarchie 52 x 42 35 x 20 § Renforcement global § Sans communication entre les agents ü 2ème phase § 2ème niveau de la hiérarchie GA GCA … GCA § Renforcement global, local et combiné § Sans communication entre les agents ü 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 22

Expérimentations avec Battleground è 1ère phase 1 er niveau de la hiérarchie 52 x

Expérimentations avec Battleground è 1ère phase 1 er niveau de la hiérarchie 52 x 42 35 x 20 Renforcement global Sans communication entre les agents 2ème phase 2ème niveau de la hiérarchie GA X GCA … Renforcement global, local et combiné Sans communication entre les agents 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 23

1ère phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal

1ère phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal Davout (1 er Corps) Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Ordre Situation Maréchal Mortier (Garde Impériale) Contrôlé par l’IA d’amorçage STRADA Aléatoire Commercial Humain Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat global Renforcement cumulatif 16/10/2021 24

Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2

Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2 La représentation de l’état s (32 variables) Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (33 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 33) 25

Résultats expérimentaux (scénario 1) 16/10/2021 26

Résultats expérimentaux (scénario 1) 16/10/2021 26

Scénario 2 (carte 52 x 42) 6 1 3 7 100 4 1000 9

Scénario 2 (carte 52 x 42) 6 1 3 7 100 4 1000 9 200 8 10 5 2 11 La représentation de l’état s (64 variables) Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 Zone 7 Zone 8 Zone 9 Zone 10 Zone 11 s 16/10/2021 d’actions A pour chaque agent subordonné (49 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 49) 27

Résultats expérimentaux (scénario 2) 1300 16/10/2021 800 28

Résultats expérimentaux (scénario 2) 1300 16/10/2021 800 28

Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x

Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x 20 Renforcement global Sans communication entre les agents è 2ème phase 2ème niveau de la hiérarchie GA GCA X GCA GD X GD Renforcement global, local et combiné Sans communication entre les agents 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GB … GB GC … GC 29

2ème phase d’expérimentations STRADA Aléatoire Commercial Humain Schéma de la prise de décisions Empereur

2ème phase d’expérimentations STRADA Aléatoire Commercial Humain Schéma de la prise de décisions Empereur Napoléon Ordre (stratégie apprise dans la 1ère phase) Ordre Situation Maréchal Davout (1 er Corps) Ordre Situation Ordre Général de la 1ère Division (1 er Corps) … Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Situation Ordre Général de la Nème Division (1 er Corps) Contrôlé par l’IA d’amorçage Situation Ordre Général de la 1ère Division (3ème Corps) … Contrôlé par l’IA d’amorçage Situation Maréchal Mortier (Garde Impériale) Situation Ordre Général de la Nème Division (3ème Corps) Contrôlé par l’IA d’amorçage Situation Ordre Général de la 1ère Division (Garde Imp. ) … Contrôlé par l’IA d’amorçage Situation Général de la Nème Division (Garde Imp. ) Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat Score global (1) Score local 16/10/2021 objectifs conquis (2) Ordres accomplis (3) Score combiné (1 + 2 + 3) 30

Scénario 1 (carte 35 x 20) C A D B J I G E

Scénario 1 (carte 35 x 20) C A D B J I G E F 300 K M 600 L H La représentation de l’état s (35 variables) Ordre Reçu Intention du supérieur Situation du groupe Division Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (37 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 37) 31

Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 32

Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 32

Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x

Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x 20 Renforcement global Sans communication entre les agents ü 2ème phase 2ème niveau de la hiérarchie GA GCA Renforcement global, local et combiné Sans communication entre les agents è 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 33

3ème phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal

3ème phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal Davout (1 er Corps) Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Contrôlé par l’IA d’amorçage Ordre Situation STRADA Aléatoire Commercial Humain Maréchal Mortier (Garde Impériale) Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat Score global Score local (objectifs conquis) Communication de l’action exécuté par les partenaires dans le tour précédent 16/10/2021 34

Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2

Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2 La représentation de l’état s (38 variables) Ordres exécutés Action de chaque partenaire Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (33 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 33) 35

Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 36

Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 36

Résultats expérimentaux (Scénario 1 - défense) 16/10/2021 37

Résultats expérimentaux (Scénario 1 - défense) 16/10/2021 37

Conclusions expérimentales De très bons résultats ont été obtenus STRADA a largement dépassée les

Conclusions expérimentales De très bons résultats ont été obtenus STRADA a largement dépassée les performances du système commercial en réapprenant juste une partie de la stratégie Quelques milliers d’épisodes d’apprentissage ont été suffisants Le renforcement global est la clé pour le 1 er niveau de la hiérarchie Un renforcement combiné est nécessaire à partir du 2ème niveau de la hiérarchie La communication permet un apprentissage plus stable On peut approfondir évaluation de STRADA afin d’obtenir des résultats plus performants Il faut une combinaison adéquate des différents types de renforcement Il faut une stratégie efficace pour la coordination entre les agents 16/10/2021 38

Conclusions Nous avons conçu STRADA pour la génération automatique de stratégies dans le cadre

Conclusions Nous avons conçu STRADA pour la génération automatique de stratégies dans le cadre des jeux de stratégie modernes Décomposition hiérarchique de la prise de décisions Représentation adéquate des espaces d’états et d’actions Généralisation de la stratégie Amorçage du processus d’apprentissage L’efficacité de STRADA et la cohérence des représentations générées ont été évaluées sur le jeu Battleground Plusieurs versions des agents apprenants ont été expérimentées La généralité de l’approche a été testée sur deux scénarios de jeu Trois modèles d’agents ont été utilisés pour comparer les performances Les résultats obtenus sont tout à fait encourageants 16/10/2021 39

Perspectives futures (appliquées aux jeux) Trouver un bon compromis pour la combinaison des différents

Perspectives futures (appliquées aux jeux) Trouver un bon compromis pour la combinaison des différents types de renforcement Amélioration des stratégies apprises en jouant contre Les agents adversaires STRADA Des joueurs humains experts Adaptation de STRADA aux jeux de stratégie en temps réel Les joueurs sont-ils amusés davantage par des agents STRADA ? [Demasi et Cruz 2002][Andrade et al. 2005, 2006] 16/10/2021 40

Perspectives futures (théoriques) Automatisation complète de la procédure d’abstraction Représentation de l’espace d’actions Ordres

Perspectives futures (théoriques) Automatisation complète de la procédure d’abstraction Représentation de l’espace d’actions Ordres de haut niveau [Corruble, Madeira et Ramalho 2002] Représentation de l’espace d’états Variables décrivant le résumé de l’état des groupes d’agents [Blum et Langley 1997][Saitta et Zucker 2001][Li, Walsh et Littman 2006] Amélioration de la coordination entre les agents [Guestrin, Lagoudakis et Parr 2002][Chalkiadakis et Boutilier 2003][Sigaud 2004] Généralisation de stratégies entre différents scénarios de jeu [Guestrin et al. 2003] 16/10/2021 41