Jeu différentiel

En théorie des jeux, les jeux différentiels sont une classe de problèmes dynamiques liés à la modélisation et à l'analyse des conflits dans le contexte d'un système dynamique. Plus précisément, une ou plusieurs variables d'état évoluent dans le temps selon une équation différentielle, paramétrée par des contrôles de différents joueurs, cherchant à optimiser un certain critère. Les applications de cette théorie ont d'abord reflété des intérêts militaires – jeux de poursuite-évasion – avant de s'étendre à d'autres thématiques techniques ou économiques^[1]^,^[2].

Histoire[modifier | modifier le code]

Dans l'étude de la concurrence, les jeux différentiels sont employés depuis un article de 1925 de Charles F. Roos^[3]. Le premier à étudier la théorie formelle des jeux différentiels fut Rufus Isaacs, publiant un manuel en 1965^[4]. L'un des premiers jeux analysés était le "jeu du chauffeur homicide".

Formalisation[modifier | modifier le code]

Les jeux différentiels sont étroitement liés aux problèmes de contrôle optimal. Dans un problème de contrôle optimal, il existe un contrôle unique $u(t)$ et un seul critère à optimiser ; la théorie des jeux différentiels généralise cela à des contrôles multiples $u_{1}(t),\dots ,u_{p}(t)$ , un pour chaque joueur cherchant à optimiser un critère^[5]. Chaque joueur tente de contrôler l'état du système afin d'atteindre son propre but ; le système répond aux entrées de tous les joueurs.

Soit ${\mathcal {I}}=[0;T]$ où $T\in \,]0;+\infty ]$ . On note ${\mathcal {P}}$ l'ensemble des joueurs, de cardinal $p$ , $x:{\mathcal {I}}\to \Omega \subset \mathbb {R} ^{n}$ l'état du système avec pour condition initiale $x_{0}$ et $u_{i}:{\mathcal {I}}\to U_{i}$ le contrôle (appelé stratégie) du $i$ -ième joueur, pour $1\leq i\leq p$ . Un jeu différentiel est donné par le problème d'optimisation couplé suivant :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}}J_{i}(x,u_{1},\dots ,u_{p}),&1\leq i\leq p\end{cases}}

où

J_{i}:\Omega \times U_{1}\times \cdots \times U_{p}\to \mathbb {R}

est le critère (fonction-objectif) que le

i

-ième joueur cherche à optimiser. En l'état, un tel problème n'a pas un concept de solution bien défini. En théorie des jeux non coopératifs, les joueurs ne communiquent pas. Comme ils ne connaissent pas les stratégies choisies par les autres joueurs, ils ne peuvent que les anticiper. Dans ce cadre, le concept de solution adapté est l'équilibre de Nash, où chaque joueur optimise son propre critère au regard des stratégies effectivement choisies par les autres. Le problème s'écrit alors

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}}J_{i}(x,u_{1}^{*},\dots ,u_{i-1}^{*},u_{i},u_{i+1}^{*},\dots ,u_{p}^{*}),&1\leq i\leq p\end{cases}}

Une autre façon de formuler ce problème repose sur l'application de meilleure réponse. On note

{\mathcal {R}}_{i}(u_{j\neq i})=\arg \min \limits _{u_{i}}J_{i}(x(u),u_{1},\dots ,u_{p})

la meilleure réponse pour

i

. Notons qu'elle dépend implicitement du système dynamique. On pose alors

{\mathcal {R}}=({\mathcal {R}}_{1},\dots ,{\mathcal {R}}_{p})

l'application de meilleure réponse. Le problème revient alors à déterminer un point fixe de cette application multivaluée :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*},\dots ,u_{p}^{*})&x(0)=x_{0}\\u^{*}&\in &{\mathcal {R}}(u^{*})&\end{cases}}

Le problème n'est pas nécessairement bien posé et ni l'existence, ni l'unicité d'un équilibre de Nash n'est garantie en général. Plusieurs types de problèmes existent selon l'horizon temporel du jeu ou les stratégies possibles pour les joueurs.

Par la suite on se place dans un cadre non coopératif. On suppose de plus que les joueurs connaissent la structure du problème, c'est-à-dire qu'ils ont connaissance de la fonction qui décrit l'évolution du système, de l'état initial, des fonctions-objectif, du temps (chacun possède une horloge).

Horizon temporel[modifier | modifier le code]

Le système étant dynamique, on distingue plusieurs types de problème selon que l'horizon du jeux est fini, infini, ou aléatoire.

Dans le cas particulier des jeux différentiels où l'horizon temporel est aléatoire, c'est-à-dire variable aléatoire avec une fonction de distribution de probabilité donnée, les joueurs cherchent à maximiser l'espérance mathématique de la fonction de coût^[6]. Il a été montré que le problème d'optimisation modifié peut être reformulé comme un jeu différentiel à horizon temporel infini, en introduisant une actualisation^[7]^,^[8].

En horizon temporel fini, $T<+\infty$ est connu de tous les joueurs et leurs fonctions de coût s'écrivent

J_{i}(x,u_{1},\dots \dots ,u_{p})=\int _{0}^{T}L_{i}(x(t),u_{1}(t),\dots ,u_{p}(t))\,\mathrm {d} t+\Psi _{i}(x(T))

où

L_{i}

est le coût de fonctionnement et

\Psi _{i}

est le coût final.

En horizon temporel infini, $T=\infty$ est connu de tous les joueurs et leurs fonctions de coût s'écrivent

J_{i}(x,u_{1},\dots \dots ,u_{p})=\int _{0}^{+\infty }e^{-\rho _{i}t}L_{i}(x(t),u_{1}(t),\dots ,u_{p}(t))\,\mathrm {d} t

où

L_{i}

est le coût de fonctionnement et

\rho _{i}

le taux d'actualisation

Stratégies[modifier | modifier le code]

On distingue deux classes principales de stratégies : les stratégies en boucle ouverte et les stratégies en boucle fermée. Lorsque les joueurs ne peuvent observer l'état du système, les stratégies sont choisies comme fonctions du temps (stratégies en boucle ouverte). Dans le cas contraire, les joueurs choisissent leur stratégies comme fonction du temps et de l'état du système. Si $f$ et $L_{i}$ ne dépendent pas du temps, les stratégies en boucle ouverte ne dépendent que de l'état du système.

Stratégies en boucle ouverte[modifier | modifier le code]

On considère le problème où les joueurs ne peuvent observer l'état du système :

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*}(t),\dots ,u_{p}^{*}(t))&x(0)=x_{0}\\u_{i}^{*}&\in &\arg \min \limits _{u_{i}:\mathbb {R} _{+}\to U_{i}}J_{i}(x,u_{1}^{*},\dots ,u_{i-1}^{*},u_{i},u_{i+1}^{*},\dots ,u_{p}^{*}),&1\leq i\leq p\end{cases}}

Supposons que pour tous

t\in {\mathcal {I}},x\in \Omega ,\lambda _{1},\dots ,\lambda _{p}\in \mathbb {R} ^{n}

, il existe un unique uplet

(u_{1}^{\sharp }(t,x,\lambda ),\dots ,u_{p}^{\sharp }(t,x,\lambda ))

tel que

u_{1}^{\sharp }(t,x,\lambda )=\arg \min \limits _{\omega \in U_{i}}\left\{L_{i}(t,x,u_{j\neq i}^{\sharp }(t,x,\lambda ),\omega )-\lambda \cdot f(t,x,u_{j\neq i}^{\sharp }(t,x,\lambda ),\omega )\right\}

Supposons que l'horizon du jeu soit fini. Lorsque les fonctions $f,\psi _{i},L_{i}$ sont continûment différentiables, d'après le principe du maximum de Pontriaguine, l'équilibre de Nash vérifie les conditions nécessaires suivantes :

u_{i}^{*}=u_{i}^{\sharp }(t,x(t),\lambda (t))

où l'état

x

et les co-états

\lambda _{1},\dots ,\lambda _{p}

vérifient

{\begin{cases}{\dot {x}}&=&f(t,x,u_{1}^{*}(t),\dots ,u_{p}^{*}(t)))\\{\dot {\lambda }}_{i}&=&-\lambda _{i}\cdot {\partial f \over \partial x}(t,x(t),u^{*}(t))+{\partial L_{i} \over \partial x}(t,x(t),u^{*}(t))\end{cases}}

avec les conditions initiales et finales

{\begin{cases}x(0)&=&x_{0}&\\\lambda _{i}(T)&=&-\nabla \psi _{i}(x(T)),&1\leq i\leq p\end{cases}}

Ces conditions nécessaires ne sont cependant pas des conditions suffisantes.

Stratégies en boucle fermées[modifier | modifier le code]

Jeu linéaire quadratique[modifier | modifier le code]

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Applications[modifier | modifier le code]

Les jeux différentiels ont été appliqués à l'économie. Les développements récents incluent l'ajout de l'aléatoire aux jeux différentiels et la dérivation de l'équilibre de Nash à rétroaction stochastique (SFNE). Un exemple récent est le jeu différentiel stochastique du capitalisme de Leong et Huang (2010)^[9]. En 2016, Yuliy Sannikov a reçu la médaille John Bates Clark de l' American Economic Association pour ses contributions à l'analyse des jeux dynamiques en temps continu à l'aide de méthodes de calcul stochastique^[10]^,^[11].

De plus, les jeux différentiels ont des applications dans le guidage de missiles^[12]^,^[13] et les systèmes autonomes^[14]. Pour une étude des jeux différentiels de poursuite-évasion, voir Pachter^[15].

Articles connexes[modifier | modifier le code]

Remarques[modifier | modifier le code]

↑ (en) Tembine, « Mean-field-type games », AIMS Mathematics, vol. 2, n^o 4,‎ 6 décembre 2017, p. 706–735 (DOI 10.3934/Math.2017.4.706, lire en ligne)
↑ (en) Djehiche, Tcheukam et Tembine, « Mean-Field-Type Games in Engineering », AIMS Electronics and Electrical Engineering, vol. 1,‎ 27 septembre 2017, p. 18–73 (DOI 10.3934/ElectrEng.2017.1.18, arXiv 1605.03281, S2CID 16055840, lire en ligne)
↑ Roos, « A Mathematical Theory of Competition », American Journal of Mathematics, vol. 47, n^o 3,‎ 1925, p. 163–175 (DOI 10.2307/2370550, JSTOR 2370550)
↑ Rufus Isaacs, Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization, London, Dover, 1999 (1^re éd. 1965) (ISBN 0-486-40682-2, lire en ligne)
↑ Morton I. Kamien et Nancy L. Schwartz, Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management, Amsterdam, North-Holland, 1991, 272–288 p. (ISBN 0-444-01609-0), « Differential Games »
↑ (ru) Petrosjan et Murzov, « Game-theoretic problems of mechanics », Litovsk. Mat. Sb., vol. 6,‎ 1966, p. 423–433
↑ (ru) Petrosjan et Shevkoplyas, « Cooperative games with random duration », Vestnik of St.Petersburg Univ., vol. 4, n^o 1,‎ 2000
↑ Marín-Solano et Shevkoplyas, « Non-constant discounting and differential games with random time horizon », Automatica, vol. 47, n^o 12,‎ décembre 2011, p. 2626–2638 (DOI 10.1016/j.automatica.2011.09.010)
↑ Leong et Huang, « A stochastic differential game of capitalism », Journal of Mathematical Economics, vol. 46, n^o 4,‎ 2010, p. 552 (DOI 10.1016/j.jmateco.2010.03.007, S2CID 5025474)
↑ (en) « American Economic Association », www.aeaweb.org (consulté le 21 août 2017)
↑ (en) Tembine et Duncan, « Linear–Quadratic Mean-Field-Type Games: A Direct Method », Games, vol. 9, n^o 1,‎ 2018, p. 7 (DOI 10.3390/g9010007)
↑ Anderson, « Comparison of Optimal Control and Differential Game Intercept Missile Guidance Laws », Journal of Guidance and Control, vol. 4, n^o 2,‎ 1981, p. 109–115 (ISSN 0162-3192, DOI 10.2514/3.56061, Bibcode 1981JGCD....4..109A, lire en ligne)
↑ Pontani et Conway, « Optimal Interception of Evasive Missile Warheads: Numerical Solution of the Differential Game », Journal of Guidance, Control, and Dynamics, vol. 31, n^o 4,‎ 2008, p. 1111–1122 (DOI 10.2514/1.30893, Bibcode 2008JGCD...31.1111C, lire en ligne)
↑ Farhan A. Faruqi, Differential Game Theory with Applications to Missiles and Autonomous Systems Guidance, Wiley, coll. « Aerospace Series », 2017 (ISBN 978-1-119-16847-8)
↑ Pachter, « Simple-motion pursuit–evasion differential games » [archive du 20 juillet 2011], 2002

Liens externes[modifier | modifier le code]

Bressan, « Noncooperative Differential Games: A Tutorial », Department of Mathematics, Penn State University, 8 décembre 2010

Portail des jeux

[1] (en) Tembine, « Mean-field-type games », AIMS Mathematics, vol. 2, n^o 4,‎ 6 décembre 2017, p. 706–735 (DOI 10.3934/Math.2017.4.706, lire en ligne)

[2] (en) Djehiche, Tcheukam et Tembine, « Mean-Field-Type Games in Engineering », AIMS Electronics and Electrical Engineering, vol. 1,‎ 27 septembre 2017, p. 18–73 (DOI 10.3934/ElectrEng.2017.1.18, arXiv 1605.03281, S2CID 16055840, lire en ligne)

[3] Roos, « A Mathematical Theory of Competition », American Journal of Mathematics, vol. 47, n^o 3,‎ 1925, p. 163–175 (DOI 10.2307/2370550, JSTOR 2370550)

[4] Rufus Isaacs, Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization, London, Dover, 1999 (1^re éd. 1965) (ISBN 0-486-40682-2, lire en ligne)

[5] Morton I. Kamien et Nancy L. Schwartz, Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management, Amsterdam, North-Holland, 1991, 272–288 p. (ISBN 0-444-01609-0), « Differential Games »

[PM66-6] (ru) Petrosjan et Murzov, « Game-theoretic problems of mechanics », Litovsk. Mat. Sb., vol. 6,‎ 1966, p. 423–433

[7] (ru) Petrosjan et Shevkoplyas, « Cooperative games with random duration », Vestnik of St.Petersburg Univ., vol. 4, n^o 1,‎ 2000

[HS11-8] Marín-Solano et Shevkoplyas, « Non-constant discounting and differential games with random time horizon », Automatica, vol. 47, n^o 12,‎ décembre 2011, p. 2626–2638 (DOI 10.1016/j.automatica.2011.09.010)

[9] Leong et Huang, « A stochastic differential game of capitalism », Journal of Mathematical Economics, vol. 46, n^o 4,‎ 2010, p. 552 (DOI 10.1016/j.jmateco.2010.03.007, S2CID 5025474)

[10] (en) « American Economic Association », www.aeaweb.org (consulté le 21 août 2017)

[11] (en) Tembine et Duncan, « Linear–Quadratic Mean-Field-Type Games: A Direct Method », Games, vol. 9, n^o 1,‎ 2018, p. 7 (DOI 10.3390/g9010007)

[12] Anderson, « Comparison of Optimal Control and Differential Game Intercept Missile Guidance Laws », Journal of Guidance and Control, vol. 4, n^o 2,‎ 1981, p. 109–115 (ISSN 0162-3192, DOI 10.2514/3.56061, Bibcode 1981JGCD....4..109A, lire en ligne)

[13] Pontani et Conway, « Optimal Interception of Evasive Missile Warheads: Numerical Solution of the Differential Game », Journal of Guidance, Control, and Dynamics, vol. 31, n^o 4,‎ 2008, p. 1111–1122 (DOI 10.2514/1.30893, Bibcode 2008JGCD...31.1111C, lire en ligne)

[14] Farhan A. Faruqi, Differential Game Theory with Applications to Missiles and Autonomous Systems Guidance, Wiley, coll. « Aerospace Series », 2017 (ISBN 978-1-119-16847-8)

[15] Pachter, « Simple-motion pursuit–evasion differential games » [archive du 20 juillet 2011], 2002

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

v · m Théorie des jeux
Définitions	Détermination Escalade d'engagement Extensive-form game (en) First-player and second-player win (en) Game complexity (en) Graphical game (en) Hierarchy of beliefs (en) Information set (en) Jeu bayésien Jeu coopératif Jeu résolu Jeu sous forme normale Préférence Jeu séquentiel Simultaneous game (en) Simultaneous action selection (en) Succinct game (en)
Équilibre économique (concepts)	Équilibre de Nash Équilibre parfait en sous-jeux Mertens-stable equilibrium (en) Bayesian Nash equilibrium (en) Perfect Bayesian equilibrium (en) Trembling hand (en) Proper equilibrium (en) Epsilon-equilibrium (en) Équilibre corrélé Équilibre séquentiel Quasi-perfect equilibrium (en) Stratégie évolutivement stable Risk dominance (en) Cœur Valeur de Shapley Optimum de Pareto Quantal response equilibrium (en) Self-confirming equilibrium (en) Strong Nash equilibrium (en) Markov perfect equilibrium (en)
Stratégies	Dominance stratégique Stratégie pure Stratégie mixte Strategy-stealing argument (en) Coopération-réciprocité-pardon Grim trigger (en) Collusion Raisonnement rétrograde Induction vers l'avant Stratégie de Markov (en)
Classes de jeux	Symmetric game (en) Perfect information (en) Repeated game (en) Signaling game (en) Screening game (en) Conversation libre Jeu à champ moyen Jeu à somme nulle Théorie des mécanismes d'incitation problèmes de négociation Stochastic game (en) n-player game (en) Large Poisson game (en) Nontransitive game (en) Global game (en) Strictly determined game (en) Jeu de potentiel
Jeux	Dilemme du prisonnier Dilemme facultatif du prisonnier Dilemme du voyageur Jeu de coordination Stratégie du bras de fer Jeu du mille-pattes Dilemme du volontaire Enchère d'un dollar Jeu de la guerre des sexes Chasse au cerf Jeu de l'appariement des sous Jeu de l'ultimatum Pierre-papier-ciseaux Jeu du pirate Jeu du dictateur Jeu des biens publics Jeu Blotto Guerre d'usure Problème du bar d'El Farol Partage équitable Fair cake-cutting (en) Cournot game Deadlock (en) Dilemme du dîner Concours de beauté de Keynes Poker Kuhn (en) Jeu de marchandage de Nash Prisoners and hats puzzle (en) Jeu de la princesse et du monstre Problème de Monty Hall Problème du rendez-vous
Theorèmes	Algorithme minimax Équilibre de Nash Purification theorem (en) Folk theorem (en) Revelation principle (en) Théorème d'impossibilité d'Arrow
Personnalités	Albert W. Tucker Amos Tversky Ariel Rubinstein Daniel Kahneman David K. Levine (en) David M. Kreps Donald B. Gillies (en) Drew Fudenberg Eric Maskin Harold W. Kuhn Herbert Simon Hervé Moulin Jean Tirole Jean-François Mertens (en) John Harsanyi John Maynard Smith Antoine-Augustin Cournot John Nash John von Neumann Kenneth Arrow Kenneth Binmore Leonid Hurwicz Lloyd Shapley Melvin Dresher (en) Merrill M. Flood (en) Oskar Morgenstern Paul Milgrom Peyton Young (en) Reinhard Selten Robert Axelrod Robert Aumann Robert B. Wilson Roger Myerson Samuel Bowles (en) Thomas Schelling William Vickrey
Voir aussi	All-pay auction (en) Élagage alpha-bêta Paradoxe de Bertrand Rationalité limitée Théorie des jeux combinatoires Confrontation analysis (en) Coopétition Liste des théoriciens du jeu Liste des jeux en théorie des jeux Perdant-perdant Topological game (en) Tragédie des biens communs Tyrannie des petites décisions