Jeux à champ moyen

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

La théorie des jeux à champ moyen a été introduite en 2006 par Jean-Michel Lasry et Pierre-Louis Lions comme limite de jeux non coopératifs à un grand nombre de joueurs. L'attrait principal de la théorie des jeux à champ moyen (Mean Field Games en anglais, noté MFG dans la suite) réside dans la simplification considérable des interactions entre joueurs. Les joueurs déterminent ainsi leur stratégie optimale en considérant l'évolution de la communauté (de la foule de joueurs) dans son ensemble plutôt que l'ensemble des comportements individuels (c’est-à-dire de chacun des autres joueurs pris un par un). Les MFG se situent ainsi à la frontière entre la théorie des jeux (jeux différentiels stochastiques pour être plus précis) d'une part, et l'optimisation d'autre part.

Introduction[modifier | modifier le code]

La théorie des jeux à champ moyen a connu une forte expansion ces dernières années. Tout un corpus de résultats mathématiques, d’outils de simulations et d’algorithmes, de concepts économiques relatifs, ont été développés et sont à présent à disposition des spécialistes (économistes en premier lieu, mais aussi sociologues, ingénieurs, etc.). L’utilisation des MFG en modélisation socio-économique s’est révélée pertinente à plusieurs reprises[1]. La modélisation de production optimale d’une ressource naturelle épuisable (comme le pétrole), la distribution des richesses, et la simulation de foules de piétons comptent parmi les exemples les plus probants. Des phénomènes bien connus des spécialistes ont été naturellement retrouvés via la modélisation MFG, distribution de Pareto des richesses et autoformation de lignes dans les flux de piétons en ce qui concerne les foules). Quelques phénomènes d’anticipation nouveaux ont par ailleurs été mis en lumière.

Caractéristiques principales[modifier | modifier le code]

Continuum de joueur[modifier | modifier le code]

Les MFG conviennent particulièrement pour décrire des situations dans lesquelles les agents (i.e. les joueurs) sont atomisés, c’est-à-dire que l’action individuelle d’un joueur n’impacte pas l’état global du système. L’étude de tels jeux, dits jeux non-atomiques, a vu le jour avec les travaux pionniers de Robert Aumann. La grande nouveauté qu’apportent les MFG est le traitement de l’aspect dynamique de tels jeux.

Les joueurs[modifier | modifier le code]

Une hypothèse centrale est l’anonymat des joueurs (invariance par permutation des joueurs). Autrement dit, les MFG supposent que les joueurs sont symétriques. Les joueurs sont caractérisés par une variable d’état, que nous appelons X(t) dont ils contrôlent la dynamique par le choix de leurs actions a(t). Chacun des joueurs cherche ensuite à maximiser son payoff (ou de façon équivalente à minimiser son coût). Ce dernier dépend classiquement de l’état et de l’action du joueur, mais intègre aussi, et c’est là le point clé de la modélisation MFG, un critère de champ moyen basé sur l’état global (qui doit être compris comme la distribution des états) de l’ensemble de la population de joueurs. La dynamique peut aussi contenir un terme similaire d’interaction de champ moyen. On comprend bien ici la dénomination « jeu à champ moyen », qui par les similitudes que présentent ce type d’interactions, s’inspire de la terminologie de la Théorie du champ moyen en physique. À ce propos, certaines équations classiques de la physique théorique se retrouvent comme étant des cas particuliers de jeux à champ moyen.

Equilibre Nash-MFG[modifier | modifier le code]

Les équilibres dans les jeux à champ moyen, dits équilibres Nash-MFG, sont l’approximation d’équilibres de Nash dans le jeu source à N joueurs, lorsque le nombre N est grand. Or il est bien connu qu'un équilibre de Nash dans les jeux différentiels avec un grand nombre de joueurs est numériquement fort coûteux à calculer. La simplification considérable de la calculabilité qu’offrent, au niveau macroscopique, les MFG, constitue un avantage majeur de cette théorie. Les MFG permettent ainsi une facilité de traitement propre au macroscopique, tout en reflétant la microstructure du problème étudié. Une telle approximation d’équilibres de Nash s’opère en deux temps. D’abord l’optimisation dans le jeu à N joueurs, puis le passage à la limite avec  N \rightarrow \infty . Ces deux étapes ne sont pas commutatives.

Anticipations rationnelles[modifier | modifier le code]

Les jeux à champ moyen font l’hypothèse – classique et cruciale – que les joueurs ont des anticipations rationnelles, ce qui peut s’interpréter de la façon suivante. Les joueurs anticipent l’évolution de l’état global du système (i.e. du champ moyen) afin de définir leur stratégie (par le choix des actions). L’ensemble des stratégies résultantes aboutit à une évolution statistique du champ moyen qui doit, à l’équilibre, coïncider avec le champ moyen anticipé. On a ainsi un équilibre à anticipations rationnelles. Mathématiquement, on dira alors que les MFG sont une approche forward-backward : l’évolution du champ moyen est forward, mais la stratégie optimale des joueurs est choisie par raisonnement backward (ce qui est classique en théorie du contrôle optimal, et en théorie des jeux différentiels). L’association du forward avec le backward vient du fait que les joueurs intègrent le champ moyen, qui évolue forward, dans leur raisonnement backward, dont la stratégie optimale résulte. Dans la terminologie du contrôle optimal, ceci correspond à un contrôle en boucle fermée.

Stabilité éductive[modifier | modifier le code]

Les équilibres Nash-MFG sont dans certains cas stables au sens de l’éductivité[2]. Cette notion de stabilité est à relier aux anticipations rationnelles[3]. La stabilité éductive garantit qu’après déviation, un équilibre sera recouvré par un processus mental (indépendant de tout apprentissage temporel) des joueurs, s’il y a dans la population des joueurs un common knowledge d’un voisinage de l’équilibre en question.

Structure mathématique forward-backward[modifier | modifier le code]

La structure mathématique générale d’un équilibre Nash-MFG est un système d’équations aux dérivées partielles (EDPs) forward-backward couplées. L’équation de Fokker-Planck (aussi connue sous le nom de Kolmogorov), décrit l’évolution forward en temps du champ moyen (état global du système pour mémoire). L’équation backward est une équation de Hamilton-Jacobi, et donne les actions optimales des joueurs (contrôle en feedback).

Simulations[modifier | modifier le code]

Si les jeux à champ moyen n'offrent pas souvent une résolution avec des formules analytiques, ils permettent de calculer numériquement les équilibres Nash-MFG à moindre coût computationnel (en comparaison avec le coût de la simulation du jeu à N joueurs). Toutefois, la structure mathématique, à savoir le système d'EDPs couplées évoluant dans des sens différents – forward et backward, a nécessité le développement de nouvelles méthodes de calcul numérique[4],[5].

Bruit[modifier | modifier le code]

La dynamique de l’état des joueurs est soumise à un bruit. Elle est ainsi décrite par un processus stochastique. Les bruits peuvent être indépendants ou couplés. Cependant, les équations caractérisant l’équilibre Nash-MFG sont bien plus compliquées lorsque les joueurs sont soumis à un bruit commun (Équation aux Dérivées Partielles en dimension infinie) .

Cas typiques d’application[modifier | modifier le code]

Les champs d’application de la théorie des MFG sont variés.

  • Deux grandes familles de cas se distinguent lorsque les joueurs prennent en compte un critère de type champ moyen. En effet, il est naturel de penser que les joueurs peuvent avoir soit des incitations à « se démarquer » de la communauté (aversion aux autres joueurs), soit au contraire des incitations à « ressembler » à la communauté (phénomènes de mode). Ces deux méta classes d’exemples se traduisent au niveau mathématique par la monotonie du critère. En général, le premier cas (aversion) est un problème bien posé en ce sens qu’il existe un équilibre unique, le second cas (mode) est quant à lui mal posé – il n’existe pas toujours d’équilibre, qui n’est alors pas unique.
  • L’application peut-être la plus intuitive des MFG est la modélisation de mouvements de foules[6]. On considère en effet naturellement qu’une foule est composée d’un grand nombre de piétons qui choisissent stratégiquement leur chemin pour aller d’un point à un autre en évitant les zones congestionnées (c’est-à-dire les zones de forte densité de la foule, où le champ moyen est élevé). Considérer l’asymptotique d’un équilibre de Nash a du sens dans ce contexte.
  • Matières premières : production d’une ressource épuisable[7]
  • Modèles de croissance avec hétérogénéité des richesses
  • MFG discrets et réseaux[8]
  • Réseaux sociaux : graphes dynamiques avec placement stratégique sur les nœuds

Les équations des Jeux à Champ Moyen[modifier | modifier le code]

Le jeu à N joueurs[modifier | modifier le code]

La dynamique de l’état du joueur i est décrite par le processus suivant :

dX^i_t= a^i_t dt+\sigma dW^i_t, \; X^i_0=x^i,

a^i désigne l’action du joueur i et x^i est son état initial. La distribution empirique des états initiaux, connue de tous, est notée m_0. Les joueurs cherchent l'action  a^i qui minimise en horizon fini leur coût : J_i(a)= \mathbb{E} \left[ \int_0^T    f_i(t,X^1_t,\cdots,X_t^N,a_t^1,\cdots,a_t^N)dt+g_i(X^1_T,\cdots,X^N_T)\right].

Certaines hypothèses doivent être faites sur la forme des coûts. Ils doivent typiquement être du type:  f_i(t,x^1,\cdots,x^N,a^1,\cdots,a^N)= f(t, x^i, h(\frac{1}{N-1}\Sigma_{j \neq i} \delta_{x^j} ),a^i), et  g_i(x^1,\cdots,x^N)= g(x^i, l(\frac{1}{N-1}\Sigma_{j \neq i} \delta_{x^j} )),  \delta_x  désigne la masse de Dirac en x. Autrement dit ils sont fonction de la distribution empirique de l'ensemble des états des joueurs (le champ moyen créé par les autres sera, à la limite en nombre de joueurs grand, la distribution empirique, puisque l'influence d'un individu est négligeable).

Le problème individuel limite[modifier | modifier le code]

Il est possible de considérer un problème de minimisation limite (à ne pas confondre toutefois avec le problème d'un agent représentatif qui n'aurait pas de sens dans un MFG) dans le but de dériver formellement les équations d'équilibre. Le problème a la forme suivante:  v(o,x) = \min_a J(a)= \mathbb{E} \left[ \int_0^T    f(t,X_t,m(t,X_t),a_t)dt+g(X_T,m(t,X_t))\right], où la dynamique du joueur est dX_t= a_t dt+\sigma dW_t, \; X_0=x, ,  X_0 a pour distribution  m_0(x) , et  m(t,x) désigne l'évolution anticipée de la distribution des états des joueurs.

Système d’équations de l’équilibre Nash-MFG[modifier | modifier le code]

 \partial_tv(t,x)+\frac{\sigma^2}{2}v''(t,x)+min_a\left\{  v'(t,x) \cdot a(t,x) - f(t,x,m(t,x),a) \right\}= 0, \; v|_{t=T}=g(x,m(T,x)),

 \partial_tm(t,x)-\frac{\sigma^2}{2}m''(t,x)+(m(t,x) \;  a^{\star}(t,x))'=0, \; m|_{t=0}=m_0.

 a^{\star}(t,x)) est le minimiseur dans la première équation.


Dans ces équations, les termes faisant intervenir la dérivée seconde proviennent de la diffusion due au bruit. La première des deux équations ci-dessus est une équation de Hamilton-Jacobi-Bellman qui évolue backward en temps (condition de transversalité). La fonction valeur est solution de cette équation. La seconde équation est l'équation de Fokker-Planck qui décrit l'évolution forward de l'état global du système (distribution des états des joueurs). C'est une équation de transport (i.e. d'évolution) par drift et diffusion d'un processus.

Le système d'équilibre Nash-MFG est donc constitué de deux équations classiques et bien connues des spécialistes. En revanche, ce qui fait la richesse des MFG se dévoile, dans ce système, à travers le couplage de ces deux équations. Il est clair que l'évolution du champ moyen  m(t,x) intervient dans la première équation. Le couplage a lieu dans la seconde via le contrôle optimal  a^{\star}, qui dépend de la fonction valeur v.

MFG linéaire-quadratique[modifier | modifier le code]

Dans ce cas standard en théorie des jeux différentiels stochastiques (dynamique linéaire, coûts quadratiques), il est possible de trouver des formules explicites d'équilibres Nash-MFG [9].

Notes et références[modifier | modifier le code]

  1. « Knowledge Growth and the Allocation of Time », NBER,‎ 2011
  2. Voir l'article de O. Guéant, "A reference case for Mean Field Games Models" en ligne
  3. Voir l'article de R. Guesnerie, An exploration of the eductive justifications of the rational-expectations hypothesis. The American Economic Review 82 (5), 1254–1278, 1992.
  4. Voir l'article de Y. Achdou, I. Cappuzzo-Dolcetta, "Mean Field Games: Numerical Methods" en ligne
  5. Voir l'article de A. Lachapelle, J. Salomon, G. Turinici, "Computation of Mean Field Equilibria in Economics" en ligne
  6. Voir l'article de A. Lachapelle, M-T Wolfram, "On a mean field game approach modeling congestion and aversion in pedestrian crowds" en ligne
  7. Voir l'article de O. Guéant, J-M Lasry, P-L Lions, "Long-run Oil Production - MFG" en ligne
  8. Voir l'article de D. Gomes, J. Mohr, R. Souza, "Discrete time, finite state space mean field games" en ligne
  9. Voir l'article de Martino Bardi, "Explicit solutions of some Linear-Quadratic Mean Field Games" en ligne

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]