Thse de Doctorat de lUniversit Paris 6 Agents
- Slides: 41
Thèse de Doctorat de l’Université Paris 6 Agents adaptatifs dans les jeux de stratégie modernes : une approche fondée sur l’apprentissage par renforcement Charles A. G. MADEIRA Encadrant: Vincent CORRUBLE, Sous la direction de Jean-Gabriel GANASCIA 25/04/2007 1
Les jeux de stratégie modernes Act of War (Eugen Systems / Atari) Age of Empires (Ensemble Studios / Interactive) Microsoft) Imperial Battleground Glory(John (Pyro Tiller Studios Games / Eidos / Talonsoft) 16/10/2021 2
Contexte et problématique Intelligence Artificielle permet aux joueurs de jouer lorsque : il n’y a pas d’autres joueurs disponibles Adversaires artificiels Ils ne veulent contrôler que partiellement leurs unités Assistants Cette IA doit offrir un comportement crédible afin de rendre les parties amusantes et intéressantes [Nareyek 2002, 2004] Adaptation aux nouvelles situations Proposition d’expériences nouvelles aux joueurs Cependant, les systèmes à base de règles dominent le développement industriel [Rabin 2002, 2003, 2006] Raisonnement figé et programmation difficile Des joueurs expérimentés peuvent facilement repérer la stratégie adoptée 16/10/2021 3
Solutions alternatives pour les jeux de stratégie modernes è Apprentissage automatique Concevoir automatiquement des stratégies efficaces Utile dans le cadre des problèmes où : des stratégies efficaces sont inconnues a priori difficilement automatisables l’environnement évolue de manière incertaine L’apprentissage en ligne est bien adapté aux jeux Il ne requiert pas de superviseur Il repose sur le principe d’essai/erreur Il s’appuie sur une estimation anticipée d’un renforcement 16/10/2021 4
Apprentissage par renforcement (AR) [Samuel 1959]…[Sutton et Barto 1998]… Situation s Renforcement r Action a a r 1 a r 2 a 2 s 0 0 à se rapprocher s 1 1 d’une stratégie L’agent apprend par l’interaction s 2 optimale t t t 0 1 2 avec l’environnement Les décisions sont prises séquentiellement L’environnement peut être stochastique et inconnu Très bons résultats pratiques ont été obtenus sur des problèmes complexes TD-Gammon est devenu le meilleur joueur de Backgammon au monde [Tesauro 2002] è Mais… nous intéressons à des problèmes beaucoup plus complexes Nous avons le jeu commercial Battleground comme cas d’étude 16/10/2021 5
Cas d’étude : le jeu commercial Battleground™ Chariots d’approvisionnement Cavaleries françaises Infanteries françaises Remblai Compagnies russes Infanteries russes Artilleries françaises Forêt Objectifs à conquérir ou à défendre Scène saisie 16/10/2021 6
Difficultés pour appliquer l’AR aux jeux modernes Backgammon Battleground (scénario simple) Espace physique 28 35 x 20 Choix simultanés 2 Espace d’états 1020 Espace d’actions 420 Backgammon 101 83 102000 10180 10150 Battleground (John Tiller Games / Talonsoft) Comment représenter l’état de l’environnement si l’on ne peut pas le faire dans son intégralité ? Comment choisir des actions cohérentes pour un ensemble d’unités ? 16/10/2021 7
Voie de recherche envisagée Approche distribuée multi-agents [Weiss 2000] Les capacités de perception et de prise de décisions sont distribuées Cependant, les méthodes classiques d’AR se transposent mal L’environnement de chaque unité devient non-Markovien La convergence des algorithmes d’AR n’est plus assurée Un effort collectif est nécessaire pour construire des solutions globalement cohérentes et optimales Problème de la coordination multi-agents [Malone et Crowston 1994] [Boutilier 1996] 16/10/2021 8
Apprentissage de la coordination par renforcement Approches classées selon trois groupes principaux Processus de décision Markoviens multi-agents [Littman 1994, 2001] [Uther et Veloso 1997] [Hu et Wellman 1998, 2003] [Claus et Boutilier 1998] 16/10/2021 Émergence de la coordination Emploi de connaissances [Crites et Barto 1998] [Sen et Weiss 2000] [Wolpert et Tumer 1999] [Riedmiller et Merke 2002] [Dietterich 2000] [Barto et Mahadevan 2003] [Boutilier et al. 2000] [Guestrin et al. 2003] 9
L’approche STRADA [Madeira et al. 2004, 2005, 2006] ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain Analyse de terrain [Rabin 2003][Grindle et al. 2004] Raisonnement spatial qualitatif [Cohn et Hazarika 2001] ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 10
STRADA appliquée à Battleground è Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 11
La hiérarchie de contrôle et de commandements Général d’Armée Ordre Objectif à long terme (Stratégie) Situation … Général de Corps GC Situation Ordre … Général de Division Ordre … Situation Actions 16/10/2021 Régiment de cavalerie Perceptions Bataillon d’infanterie Général de Brigade Situation Ordre Groupe de combattants Batterie d’artillerie Ordre Situation Général de Brigade GD … Batterie d’artillerie Régiment de cavalerie Actions Bataillon d’infanterie Action Spécifique (Tactique) Perceptions 12
STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions è Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie § Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 13
Abstraction de l’espace d’actions Définition des ordres de haut niveau Attaque extrême, attaque, arrêt, défense extrême Identification des points tactiques sur la carte =33 ≈10180 L’espace d’actions stratégiques A de l’agent A = ordres de haut niveau X points tactiques 16/10/2021 14
Abstraction de l’espace d’états Situation du groupe d’unités du 1 er niveau de la hiérarchie Centre de masses, force, fatigue, qualité, mobilité Situation des unités sur les zones du 1 er niveau de la hiérarchie Force et fatigue par camp Identification des zones stratégiques sur la carte 1 ≈102000 3 ≈1082 5 4 6 2 L’espace d’états S de l’environnement S = centre de masses X force X fatigue X qualité X mobilité X force par 16/10/2021 zone et camp X fatigue par zone et camp 15
Abstraction de l’espace d’états Situation du groupe d’unités du 2ème niveau de la hiérarchie Ordre reçu, centre de masses, force, fatigue, qualité, mobilité Situation des unités sur les zones du 2ème niveau de la hiérarchie Force et fatigue par camp Identification des zones stratégiques sur la carte 1 C A 3 5 D B J E I 4 M K 6 G 2 F H L L’espace d’états S de l’environnement S = ordre reçu X centre de masses X force X fatigue X qualité X mobilité X 16/10/2021 force par zone et camp X fatigue par zone et camp 16
STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain è Généralisation de la stratégie Approcher la stratégie à l’aide d’approximateurs de fonction Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 17
Approximateurs de fonction Réseau de neurones Réseaux de neurones (1) (2) Q(s, a 1) Q(s, a … 2) Q(s, an) s CMAC [Albus 1975] (3) s Q(s, a 1) s Q(s, a 2) … … s 16/10/2021 Q(s, an) s Q(s, an) 18
STRADA appliquée à Battleground ü Décomposition du processus de prise de décisions Les jeux de stratégie modernes offrent une organisation en groupes Structure hiérarchique de prise de décisions ü Représentation adéquate des espaces d’états et d’actions Les jeux de stratégie modernes utilisent une carte géographique Adapter la granularité à l’aide d’un algorithme d’analyse automatique du terrain ü Généralisation de la stratégie Approcher la stratégie à l’aide d’approximateurs de fonction è Définition de bons scénarios d’apprentissage Apprendre par niveau de la hiérarchie Jouer initialement contre un adversaire autre que soi-même 16/10/2021 19
Mécanisme d’amorçage Armée contrôlée par l’IA apprenante et par l’IA commerciale GA vs. Général d’Armée contrôlée par l’IA commerciale GA GCA … GCA Général de Corps d’Armée GCA … GCA GD … GD Général de Division GD … GD GB … GB Général de Brigade GB … GB GC … GC Groupes de Combattants GC … GC 16/10/2021 20
Démarche expérimentale : Évaluer l’approche STRADA sur le jeu commercial Battleground : Comparer les performances des agents STRADA avec celles d’autres modèles d’agents Plate-forme Napolectronic Module d’IA Prise de décisions Représentation de l’état de l’environnement Fichiers de données Situation Action Moteur du jeu Jeu commercial Battleground 16/10/2021 Module système Système d’exploitation 21
Expérimentations avec Battleground ü 1ère phase § 1 er niveau de la hiérarchie 52 x 42 35 x 20 § Renforcement global § Sans communication entre les agents ü 2ème phase § 2ème niveau de la hiérarchie GA GCA … GCA § Renforcement global, local et combiné § Sans communication entre les agents ü 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 22
Expérimentations avec Battleground è 1ère phase 1 er niveau de la hiérarchie 52 x 42 35 x 20 Renforcement global Sans communication entre les agents 2ème phase 2ème niveau de la hiérarchie GA X GCA … Renforcement global, local et combiné Sans communication entre les agents 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 23
1ère phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal Davout (1 er Corps) Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Ordre Situation Maréchal Mortier (Garde Impériale) Contrôlé par l’IA d’amorçage STRADA Aléatoire Commercial Humain Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat global Renforcement cumulatif 16/10/2021 24
Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2 La représentation de l’état s (32 variables) Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (33 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 33) 25
Résultats expérimentaux (scénario 1) 16/10/2021 26
Scénario 2 (carte 52 x 42) 6 1 3 7 100 4 1000 9 200 8 10 5 2 11 La représentation de l’état s (64 variables) Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 Zone 7 Zone 8 Zone 9 Zone 10 Zone 11 s 16/10/2021 d’actions A pour chaque agent subordonné (49 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 49) 27
Résultats expérimentaux (scénario 2) 1300 16/10/2021 800 28
Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x 20 Renforcement global Sans communication entre les agents è 2ème phase 2ème niveau de la hiérarchie GA GCA X GCA GD X GD Renforcement global, local et combiné Sans communication entre les agents 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GB … GB GC … GC 29
2ème phase d’expérimentations STRADA Aléatoire Commercial Humain Schéma de la prise de décisions Empereur Napoléon Ordre (stratégie apprise dans la 1ère phase) Ordre Situation Maréchal Davout (1 er Corps) Ordre Situation Ordre Général de la 1ère Division (1 er Corps) … Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Situation Ordre Général de la Nème Division (1 er Corps) Contrôlé par l’IA d’amorçage Situation Ordre Général de la 1ère Division (3ème Corps) … Contrôlé par l’IA d’amorçage Situation Maréchal Mortier (Garde Impériale) Situation Ordre Général de la Nème Division (3ème Corps) Contrôlé par l’IA d’amorçage Situation Ordre Général de la 1ère Division (Garde Imp. ) … Contrôlé par l’IA d’amorçage Situation Général de la Nème Division (Garde Imp. ) Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat Score global (1) Score local 16/10/2021 objectifs conquis (2) Ordres accomplis (3) Score combiné (1 + 2 + 3) 30
Scénario 1 (carte 35 x 20) C A D B J I G E F 300 K M 600 L H La représentation de l’état s (35 variables) Ordre Reçu Intention du supérieur Situation du groupe Division Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (37 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 37) 31
Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 32
Expérimentations avec Battleground ü 1ère phase 1 er niveau de la hiérarchie 35 x 20 Renforcement global Sans communication entre les agents ü 2ème phase 2ème niveau de la hiérarchie GA GCA Renforcement global, local et combiné Sans communication entre les agents è 3ème phase 1 er niveau de la hiérarchie Renforcement global et local Communication simple entre les agents 16/10/2021 GD … GD GB … GB GC … GC 33
3ème phase d’expérimentations Schéma de la prise de décisions Empereur Napoléon Ordre Situation Maréchal Davout (1 er Corps) Contrôlé par l’IA d’amorçage Ordre Situation Maréchal Ney (3ème Corps) Contrôlé par l’IA d’amorçage Ordre Situation STRADA Aléatoire Commercial Humain Maréchal Mortier (Garde Impériale) Contrôlé par l’IA d’amorçage Les unités subordonnées (l’IA d’amorçage) Renforcement immédiat Score global Score local (objectifs conquis) Communication de l’action exécuté par les partenaires dans le tour précédent 16/10/2021 34
Scénario 1 (carte 35 x 20) 3 1 5 300 4 600 6 2 La représentation de l’état s (38 variables) Ordres exécutés Action de chaque partenaire Situation du groupe Corps d’armée Situation de l’environnement du groupe Zone 1 Zone 2 Zone 3 Zone 4 Zone 5 Zone 6 s 16/10/2021 d’actions A pour chaque agent subordonné (33 actions) L’espace Q(s, a 1) Q(s, a … 2) Q(s, a 33) 35
Résultats expérimentaux (Scénario 1 - attaque) 16/10/2021 36
Résultats expérimentaux (Scénario 1 - défense) 16/10/2021 37
Conclusions expérimentales De très bons résultats ont été obtenus STRADA a largement dépassée les performances du système commercial en réapprenant juste une partie de la stratégie Quelques milliers d’épisodes d’apprentissage ont été suffisants Le renforcement global est la clé pour le 1 er niveau de la hiérarchie Un renforcement combiné est nécessaire à partir du 2ème niveau de la hiérarchie La communication permet un apprentissage plus stable On peut approfondir évaluation de STRADA afin d’obtenir des résultats plus performants Il faut une combinaison adéquate des différents types de renforcement Il faut une stratégie efficace pour la coordination entre les agents 16/10/2021 38
Conclusions Nous avons conçu STRADA pour la génération automatique de stratégies dans le cadre des jeux de stratégie modernes Décomposition hiérarchique de la prise de décisions Représentation adéquate des espaces d’états et d’actions Généralisation de la stratégie Amorçage du processus d’apprentissage L’efficacité de STRADA et la cohérence des représentations générées ont été évaluées sur le jeu Battleground Plusieurs versions des agents apprenants ont été expérimentées La généralité de l’approche a été testée sur deux scénarios de jeu Trois modèles d’agents ont été utilisés pour comparer les performances Les résultats obtenus sont tout à fait encourageants 16/10/2021 39
Perspectives futures (appliquées aux jeux) Trouver un bon compromis pour la combinaison des différents types de renforcement Amélioration des stratégies apprises en jouant contre Les agents adversaires STRADA Des joueurs humains experts Adaptation de STRADA aux jeux de stratégie en temps réel Les joueurs sont-ils amusés davantage par des agents STRADA ? [Demasi et Cruz 2002][Andrade et al. 2005, 2006] 16/10/2021 40
Perspectives futures (théoriques) Automatisation complète de la procédure d’abstraction Représentation de l’espace d’actions Ordres de haut niveau [Corruble, Madeira et Ramalho 2002] Représentation de l’espace d’états Variables décrivant le résumé de l’état des groupes d’agents [Blum et Langley 1997][Saitta et Zucker 2001][Li, Walsh et Littman 2006] Amélioration de la coordination entre les agents [Guestrin, Lagoudakis et Parr 2002][Chalkiadakis et Boutilier 2003][Sigaud 2004] Généralisation de stratégies entre différents scénarios de jeu [Guestrin et al. 2003] 16/10/2021 41
- Thse
- Doctorat
- Doctorat utcb
- Doctorat
- Exemple de projet de thèse de doctorat en management
- Iav doctorat
- Guide du doctorat
- What is post precipitation
- Thickening agents for sauce
- Reducing agent and oxidizing agent
- Avaya sales agents
- Cholinergic agents
- Protective agent definition
- Hydro-alcoholic
- Balanced anesthesia components
- Identify three agents of mechanical weathering
- Structure of intelligent agents
- Physical antimicrobial agents
- Mac anesthesia minimum alveolar concentration
- Drop batter examples
- Ophthalmic diagnostic agents
- Ulcer defenition
- Antimycobacterial agents
- Role of economic agents
- Define agents of socialization
- Hp insight management agent
- M cholinomimetic drugs examples
- What is the smallest infectious agent
- Types of socialization
- Classification of emulsifying agent
- Sympathomimetic agents
- Relative strength of oxidizing and reducing agents
- Suspensions advantages and disadvantages
- Types of weathering
- Inhalation anesthetics
- Four cleaning agents
- Bitter taste masking agents
- Mixed crystal formation in gravimetric analysis
- Diagnostic agents are the compounds used to
- Derivatives of mother sauces
- Meat tenderizing agents market revenue
- Leavening food examples