Jeu différentiel

Un article de Wikipédia, l'encyclopédie libre.

En théorie des jeux, les jeux différentiels sont une classe de problèmes dynamiques liés à la modélisation et à l'analyse des conflits dans le contexte d'un système dynamique. Plus précisément, une ou plusieurs variables d'état évoluent dans le temps selon une équation différentielle, paramétrée par des contrôles de différents joueurs, cherchant à optimiser un certain critère. Les applications de cette théorie ont d'abord reflété des intérêts militaires – jeux de poursuite-évasion – avant de s'étendre à d'autres thématiques techniques ou économiques[1],[2].

Histoire[modifier | modifier le code]

Dans l'étude de la concurrence, les jeux différentiels sont employés depuis un article de 1925 de Charles F. Roos[3]. Le premier à étudier la théorie formelle des jeux différentiels fut Rufus Isaacs, publiant un manuel en 1965[4]. L'un des premiers jeux analysés était le "jeu du chauffeur homicide".

Formalisation[modifier | modifier le code]

Les jeux différentiels sont étroitement liés aux problèmes de contrôle optimal. Dans un problème de contrôle optimal, il existe un contrôle unique et un seul critère à optimiser ; la théorie des jeux différentiels généralise cela à des contrôles multiples , un pour chaque joueur cherchant à optimiser un critère[5]. Chaque joueur tente de contrôler l'état du système afin d'atteindre son propre but ; le système répond aux entrées de tous les joueurs.

Soit . On note l'ensemble des joueurs, de cardinal , l'état du système avec pour condition initiale et le contrôle (appelé stratégie) du -ième joueur, pour . Un jeu différentiel est donné par le problème d'optimisation couplé suivant :

est le critère (fonction-objectif) que le -ième joueur cherche à optimiser. En l'état, un tel problème n'a pas un concept de solution bien défini. En théorie des jeux non coopératifs, les joueurs ne communiquent pas. Comme ils ne connaissent pas les stratégies choisies par les autres joueurs, ils ne peuvent que les anticiper. Dans ce cadre, le concept de solution adapté est l'équilibre de Nash, où chaque joueur optimise son propre critère au regard des stratégies effectivement choisies par les autres. Le problème s'écrit alors
Une autre façon de formuler ce problème repose sur l'application de meilleure réponse. On note la meilleure réponse pour . Notons qu'elle dépend implicitement du système dynamique. On pose alors l'application de meilleure réponse. Le problème revient alors à déterminer un point fixe de cette application multivaluée :
Le problème n'est pas nécessairement bien posé et ni l'existence, ni l'unicité d'un équilibre de Nash n'est garantie en général. Plusieurs types de problèmes existent selon l'horizon temporel du jeu ou les stratégies possibles pour les joueurs.

Par la suite on se place dans un cadre non coopératif. On suppose de plus que les joueurs connaissent la structure du problème, c'est-à-dire qu'ils ont connaissance de la fonction qui décrit l'évolution du système, de l'état initial, des fonctions-objectif, du temps (chacun possède une horloge).

Horizon temporel[modifier | modifier le code]

Le système étant dynamique, on distingue plusieurs types de problème selon que l'horizon du jeux est fini, infini, ou aléatoire.

Dans le cas particulier des jeux différentiels où l'horizon temporel est aléatoire, c'est-à-dire variable aléatoire avec une fonction de distribution de probabilité donnée, les joueurs cherchent à maximiser l'espérance mathématique de la fonction de coût[6]. Il a été montré que le problème d'optimisation modifié peut être reformulé comme un jeu différentiel à horizon temporel infini, en introduisant une actualisation[7],[8].

En horizon temporel fini, est connu de tous les joueurs et leurs fonctions de coût s'écrivent

est le coût de fonctionnement et est le coût final.

En horizon temporel infini, est connu de tous les joueurs et leurs fonctions de coût s'écrivent

est le coût de fonctionnement et le taux d'actualisation

Stratégies[modifier | modifier le code]

On distingue deux classes principales de stratégies : les stratégies en boucle ouverte et les stratégies en boucle fermée. Lorsque les joueurs ne peuvent observer l'état du système, les stratégies sont choisies comme fonctions du temps (stratégies en boucle ouverte). Dans le cas contraire, les joueurs choisissent leur stratégies comme fonction du temps et de l'état du système. Si et ne dépendent pas du temps, les stratégies en boucle ouverte ne dépendent que de l'état du système.

Stratégies en boucle ouverte[modifier | modifier le code]

On considère le problème où les joueurs ne peuvent observer l'état du système :

Supposons que pour tous , il existe un unique uplet tel que

Supposons que l'horizon du jeu soit fini. Lorsque les fonctions sont continûment différentiables, d'après le principe du maximum de Pontriaguine, l'équilibre de Nash vérifie les conditions nécessaires suivantes :

où l'état et les co-états vérifient
avec les conditions initiales et finales
Ces conditions nécessaires ne sont cependant pas des conditions suffisantes.

Stratégies en boucle fermées[modifier | modifier le code]

Jeu linéaire quadratique[modifier | modifier le code]

Applications[modifier | modifier le code]

Les jeux différentiels ont été appliqués à l'économie. Les développements récents incluent l'ajout de l'aléatoire aux jeux différentiels et la dérivation de l'équilibre de Nash à rétroaction stochastique (SFNE). Un exemple récent est le jeu différentiel stochastique du capitalisme de Leong et Huang (2010)[9]. En 2016, Yuliy Sannikov a reçu la médaille John Bates Clark de l' American Economic Association pour ses contributions à l'analyse des jeux dynamiques en temps continu à l'aide de méthodes de calcul stochastique[10],[11].

De plus, les jeux différentiels ont des applications dans le guidage de missiles[12],[13] et les systèmes autonomes[14]. Pour une étude des jeux différentiels de poursuite-évasion, voir Pachter[15].

Articles connexes[modifier | modifier le code]

Remarques[modifier | modifier le code]

  1. (en) Tembine, « Mean-field-type games », AIMS Mathematics, vol. 2, no 4,‎ , p. 706–735 (DOI 10.3934/Math.2017.4.706, lire en ligne)
  2. (en) Djehiche, Tcheukam et Tembine, « Mean-Field-Type Games in Engineering », AIMS Electronics and Electrical Engineering, vol. 1,‎ , p. 18–73 (DOI 10.3934/ElectrEng.2017.1.18, arXiv 1605.03281, S2CID 16055840, lire en ligne)
  3. Roos, « A Mathematical Theory of Competition », American Journal of Mathematics, vol. 47, no 3,‎ , p. 163–175 (DOI 10.2307/2370550, JSTOR 2370550)
  4. Rufus Isaacs, Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization, London, Dover, (1re éd. 1965) (ISBN 0-486-40682-2, lire en ligne)
  5. Morton I. Kamien et Nancy L. Schwartz, Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management, Amsterdam, North-Holland, , 272–288 p. (ISBN 0-444-01609-0), « Differential Games »
  6. (ru) Petrosjan et Murzov, « Game-theoretic problems of mechanics », Litovsk. Mat. Sb., vol. 6,‎ , p. 423–433
  7. (ru) Petrosjan et Shevkoplyas, « Cooperative games with random duration », Vestnik of St.Petersburg Univ., vol. 4, no 1,‎
  8. Marín-Solano et Shevkoplyas, « Non-constant discounting and differential games with random time horizon », Automatica, vol. 47, no 12,‎ , p. 2626–2638 (DOI 10.1016/j.automatica.2011.09.010)
  9. Leong et Huang, « A stochastic differential game of capitalism », Journal of Mathematical Economics, vol. 46, no 4,‎ , p. 552 (DOI 10.1016/j.jmateco.2010.03.007, S2CID 5025474)
  10. (en) « American Economic Association », www.aeaweb.org (consulté le )
  11. (en) Tembine et Duncan, « Linear–Quadratic Mean-Field-Type Games: A Direct Method », Games, vol. 9, no 1,‎ , p. 7 (DOI 10.3390/g9010007)
  12. Anderson, « Comparison of Optimal Control and Differential Game Intercept Missile Guidance Laws », Journal of Guidance and Control, vol. 4, no 2,‎ , p. 109–115 (ISSN 0162-3192, DOI 10.2514/3.56061, Bibcode 1981JGCD....4..109A, lire en ligne)
  13. Pontani et Conway, « Optimal Interception of Evasive Missile Warheads: Numerical Solution of the Differential Game », Journal of Guidance, Control, and Dynamics, vol. 31, no 4,‎ , p. 1111–1122 (DOI 10.2514/1.30893, Bibcode 2008JGCD...31.1111C, lire en ligne)
  14. Farhan A. Faruqi, Differential Game Theory with Applications to Missiles and Autonomous Systems Guidance, Wiley, coll. « Aerospace Series », (ISBN 978-1-119-16847-8)
  15. Pachter, « Simple-motion pursuit–evasion differential games » [archive du ],

Liens externes[modifier | modifier le code]