Utilisateur:Mathy Smith/Brouillon2

Une page de Wikipédia, l'encyclopédie libre.

La théorie évolutive des jeux est l'application de la théorie des jeux à l'étude de l'évolution de populations. Elle définit un cadre d'étude de compétitions, stratégies et analyses dans lesquelles la compétition Darwinienne peut être modélisée. Elle a été créée en 1973 par les auteurs John Maynard Smith et George R. Price dans leur formalisation des luttes, analysées comme des stratégies, ainsi que les critères mathématiques pouvant être utilisés pour prédire les résultats des stratégies de compétition.

La théorie des jeux évolutive diffère de la théorie des jeux classique de par le fait qu'elle se concentre plus sur la dynamique du changement de stratégie. Cela est influencé par la fréquence des stratégies de compétition dans la population.

La théorie des jeux évolutive s'est révélée utile pour expliquer les bases des comportements altruistes en évolution Darwinienne. Elle a en retour suscité l'intérêt des économistes, sociologues, anthropologues et philosophes.

Histoire[modifier | modifier le code]

Théorie des jeux classique[modifier | modifier le code]

La théorie des jeux non-coopératifs classique a été conçue par John von Neumann dans le but de déterminer des stratégies optimales entre adversaires impliqués dans des compétitions. Un "match" (contest en anglais) implique des joueurs, chacun d'entre eux ayant un certain choix de mouvements possibles. Les jeux peuvent se jouer en un seul tour ou de façon répétitive. L'approche prise par un joueur pour effectuer ses mouvements constitue sa stratégie. Des règles régissent l'issue de chaque mouvement effectué par les joueurs, et leurs issues produisent des bénéfices pour les joueurs ; les règles et les bénéfices qui en résultent peuvent être exprimés sous forme d'arbres de décision ou dans une matrice des gains. La théorie classique recquiert que les joueurs fassent des choix rationnels. Chaque joueur doit prendre en compte l'analyse stratégique que ses adversaires font pour faire son propre choix de mouvements.

Problème du comportement ritualisé[modifier | modifier le code]

La théorie évolutive des jeux est partie du problème de comment expliquer un comportement animal ritualisé dans une situation de conflit : "pourquoi les animaux affichent-ils un comportement aussi 'gentleman' ou 'distingué' dans les compétitions pour les ressources ?". Les éminents éthologues Niko Tinbergen et Konrad Lorenz ont suggéré qu'un tel comportement existe pour le bénéfice de l'espèce. John Maynard Smith a considéré cette proposition comme incompatible avec la pensée Darwinienne, où la sélection a lieu au niveau individuel, et ainsi l'intérêt personnel est récompensé alors que la recherche du bien commun ne l'est pas. Maynard Smith, biologiste mathématicien, s'est dirigé vers la théorie des jeux telle que suggérée par George Price, bien que les tentatives de Richard Lewontin pour utiliser la théorie n'aient pas fonctionné.

Adaptation de la théorie des jeux aux jeux évolutifs[modifier | modifier le code]

Maynard Smith a réalisé qu'une version de la théorie des jeux appliquée à l'évolution ne recquiert pas que les joueurs agissent de façon rationnelle – seulement qu'ils aient une stratégie. Les résultats d'un jeu montrent à quel point la stratégie était bonne, de même que l'évolution teste des stratégies alternatives pour la capacité à survivre et se reproduire. En biologie, les stratégies sont des caractères hérités génétiquement qui contrôlent l'action d'un individu, de façon analogue à des programmes informatiques. Le succès d'une stratégie est déterminé par le niveau d'efficacité d'une stratégie en présence de stratégies de compétitions (dont elle-même), et en présence de la fréquence avec laquelle ces stratégies sont utilisées. Maynard Smith a décrit son travail dans son livre Evolution and the Theory of Games (L'évolution et la Théorie des Jeux).

Jeux évolutifs[modifier | modifier le code]

Modèles[modifier | modifier le code]

La TEJ prend en compte l'évolution Darwinienne, dont la compétition (le jeu), la sélection naturelle (la dynamique du réplicateur) et l'hérédité. La TEJ a contribué à la compréhension de la sélection de groupe, la sélection sexuelle, l'altruisme, l'investissement parental, la coévolution et la dynamique écologique. Plusieurs situations contre-intuitives dans ces domaines ont été mis sur une base mathématique ferme par l'utilisation de ces modèles.

La façon classique d'étudier la dynamique évolutive des jeux est via les équations des réplicateurs. Elles montrent le taux de croissance de la proportion d'organismes utilisant une certaine stratégie et ce taux est égal à la différence entre le bénéfice moyen de cette stratégie et le bénéfice moyen de la population dans son ensemble. Les équations de réplicateurs continues supposent des populations infinies, un temps continu, un mélange complet et que les stratégies engendrent des souches pures. Les attracteurs (points stables fixés) des équations sont équivalents aux états stables évolutifs. Une stratégie qui peut survivre à toutes les stratégies "mutantes" est considérée comme évolutivement stable. Dans le contexte du comportement animal, cela signifie habituellement que de telles stratégies sont programmées et fortement influencées par la génétique, ce qui en conséquence fait que chaque stratégie de joueur ou d'organisme est déterminée par ces facteurs biologiques.

Les jeux évolutifs sont des objets mathématiques avec des règles, bénéfices et comportements mathématiques différents. Chaque "jeu" représente différents problèmes auxquels les organismes doivent faire face, et les stratégies qu'ils peuvent adopter pour survivre et se reproduire. On donne souvent aux jeux évolutifs des noms en couleur et des histoires associées qui décrivent la situation générale d'un jeu particulier. Les jeux représentatifs incluent le jeu du faucon et de la colombe, la guerre d'usure, la chasse au cerf, les producteurs et les profiteurs, la tragédie des communs et le dilemme du prisonnier. Les stratégies pour ces jeux incluent le Faucon, la Colombe, le Bourgeois, le Sondeur, le Défecteur, le Juge et le Contre-attaquant. Les diverses stratégies s'affrontent dans les règles du jeu particulières, et les mathématiques sont utilisées pour déterminer les résultats et les comportements.

Le Faucon et la Colombe[modifier | modifier le code]

Le premier jeu que Maynard Smith a analysé est le jeu classique du Faucon et de la Colombe. Il a été conçu pour analyser le problème et Lorenz et Tinbergen, une compétition pour une ressource partageable. Les compétiteurs peuvent être un Faucon ou une Colombe. Ce sont deux sous-types ou formes d'une même espèce avec des stratégies différentes. Le Faucon montre d'abord un comportement agressif, puis engage un combat jusqu'à ce qu'il gagne ou soit blessé (et donc perde). La Colombe montre d'abord un comportement agressif, mais si elle fait face à un combat de la part d'un adversaire elle s'enfuit pour assurer sa sécurité. Si elle ne fait pas face à un combat de la part d'un adversaire, elle tente de partager la ressource.

Matrice des gains pour le jeu du Faucon et de la Colombe
rencontre Faucon rencontre Colombe
si Faucon V/2 − C/2 V
si Colombe 0 V/2

Sachant qu'on donne à la ressource la valeur V, on donne aux dommages causés par le fait de perdre un combat le coût C :

  • si un Faucon rencontre une Colombe, il obtient l'entièreté de la ressource V pour lui ;
  • si un Faucon rencontre un Faucon, il gagne une fois sur deux et perd une fois sur deux ; ainsi son résultat moyen sera V/2 moins C/2 ;
  • si une Colombe rencontre un Faucon, elle va s'enfuir et n'obtiendra rien, soit 0 ;
  • si une Colombe rencontre une Colombe, elles vont toutes les deux partager la ressource, soit V/2.

Le bénéfice actuelle dépend cependant de la probabilité de rencontrer un Faucon ou une Colombe, ce qui en retour est une représentation du pourcentage de Faucons et Colombes dans la population lorsqu'un match particulier a lieu. Cela est en retour déterminé par les résultats de tous les matchs précédents. Si le coût de la défaite (C) est plus important que la valeur de la victoire (V) – la situation normale dans la nature –, les mathématiques se terminent dans un ESS (distribution), un mélange de deux stratégies où la population de Faucons est V/C. La population revient à ce point d'équilibre si chaque nouveau Faucon ou Colombe apporte une perturbation temporaire dans la population. La solution du jeu du Faucon et de la Colombe explique pourquoi la plupart des "matchs" entre animaux dans la nature impliquent seulement des des comportements de combats rituels plutôt que des combats engagés et francs. Le résultat ne dépend pas du tout du "bien" des comportements de l'espèce comme suggéré par Lorenz, mais seulement sur l'implication des actions des bien nommés gènes égoïstes.

La guerre d'usure[modifier | modifier le code]

Dans le jeu du Faucon et de la Colombe la ressource est partageable, ce qui donne des bénéfices aux deux Colombes si elles se rencontrent en un match de paire. Lorsque la ressource n'est pas partageable, mais qu'une ressource alternative peut être disponible en prenant la fuite et tentant sa chance ailleurs, les stratégies pures du Faucon ou de la Colombe sont moins efficaces. Si une ressource non partageable est combinée à un coût élevé de perdre un match (blessure ou mort possible), les bénéfices du Faucon comme de la Colombe sont beaucoup moindres. Une stratégie plus sûre affichant un coût moindre dans le comportement affiché, impliquant du bluff et de l'attente pour gagner est alors viable – une stratégie de Bluffeur. Le jeu devient alors celui de l'accumulation des coûts, soit les coûts du comportement affiché ou les coûts de l'engagement non résolu prolongé. C'est effectivement une enchère ; le gagnant est le participant qui va accepter le coût le plus grand alors que le perdant obtient le même coût que le gagnant mais aucune ressource. Les mathématiques de la théorie évolutive des jeux résultantes dans celui-ci amènent à une stratégie optimale de bluff chronométré.

Cela s'explique par le fait que dans la guerre d'usure, chaque stratégie qui est inflexible et prédictible est unstable, parce qu'elle sera au final déplacée par une stratégie mutante qui repose sur le fait qu'elle peut mieux adapter la stratégie prévisible existante en investissant un petit delta supplémentaire de ressources d'attente pour s'assurer qu'elle gagne. Ainsi, seule une stratégie non prédictible peut se maintenir dans une population de Bluffeurs. Les participants choisissent en effet un coût acceptable à encourir lié à la valeur de la ressource recherchée, ce qui donne de façon efficace une offre aléatoire dans le cadre d'une stratégie mixte (une stratégie où un participant a plusieurs, voire même beaucoup, d'actions possibles dans sa stratégie). Cela met en œuvre une distribution d'offres pour une ressource de valeur spécifique V, où l'offre pour chaque match spécifique est choisie aléatoirement dans cette distribution. La distribution (un ESS) peut être étudiée informatiquement en utilisant le théorème de Bishop-Cannings, qui vaut pour chaque distribution de stratégie mixte. La distribution de fonction dans ces matchs a été déterminée par Parker et Thompson de la façon suivante :

.

Il en résulte que la population cumulative de "déserteurs" pour chaque coût particulier m dans cette "stratégie mixte" est :

,

tel que montré dans le graphique ci-contre. Le sentiment intuitif que de plus grandes valeurs de ressources recherchées entraînent des temps d'attente plus longs est confirmé. Cela est observé dans la nature, comme chez les mâles des mouches à bouse en concurrence entre eux pour les sites d'accouplement, où le temps de désengagement dans les matchs correspond à celui prédit par les mathématiques de la théorie évolutive.

Asymétries permettant de nouvelles stratégies[modifier | modifier le code]

Dans la guerre d'usure, il ne doit y avoir rien qui signale la taille d'une offre à son adversaire, sinon ce dernier peut utiliser la réplique dans une contre-stratégie efficace. Il existe cependant une stratégie mutante qui peut surpasser celle d'un Bluffeur dans le jeu de la guerre d'usure si une asymétrie appropriée existe, la stratégie du Bourgeois. Celle-ci utilise une asymétrie d'une certaine sorte pour sortir de l'impasse. Dans la nature, une telle asymétrie est la possession d'une ressource. La stratégie est de jouer un Faucon en possession de la ressource, mais de s'afficher puis battre en retraite si on ne possède pas la ressource. Cela recquiert une plus grande capacité cognitive que le Faucon, mais le Bourgeois est commun dans plusieurs compétitions animales, comme les matchs entre crevettes-mantes et chez les papillons Tircis.

Comportement social[modifier | modifier le code]

Des jeux comme celui du Faucon et de la Colombe et celui de la guerre d'usure représentent de la pure compétition entre individus et n'ont pas d'éléments sociaux associés. Là où des influences sociales s'appliquent, les compétiteurs ont quatre alternatives possibles pour l'interaction stratégique. Cela est illustré sur la figure ci-contre, où un signe plus représente un bénéfice et un signe moins représente un coût.

  • Dans une relation coopérative ou mutualiste (cooperation), le donneur (donor) et le receveur (recipient) sont tous les deux quasiment indiscernables car chacun gagne un bénéfice dans le jeu en coopérant, c'est-à-dire que la paire est dans une situation de jeu où les deux peuvent gagner en exécuter une certaine stratégie, ou alternativement ils peuvent agirt de concert car certaines contraintes inclusives qui les mettent effectivement "dans le même bateau".
  • Dans une relation altruiste (altruism), le donneur, au prix d'un certain coût, fournit un bénéfice au receveur. Dans le cas général, le receveur aura une relation "familiale" avec le donneur et la donation est à sens unique. Les comportements où les bénéfices sont donnés alternativement (dans les deux sens) au prix d'un certain coût, sont souvent appelés altruistes, mais à l'analyse on peut voir qu'un tel "altruisme" résulte de stratégies "égoïstes" optimisées.
  • La malveillance (spite) est essentiellement une forme "inversée" d'altruisme dans laquelle un allié est aidé en endommageant les alliés du ou des adversaire(s). Le cas général est que l'allié a un lien familial et le bénéfice est un environnement où la compétition est plus facile pour l'allié. George Price, l'un des premiers mathématiciens modélisateurs de l'altruisme et de la malveillance, a trouvé cette équivalence particulièrement troublante au niveau émotionnel.
  • L'égoïsme (selfishness) est le critère de base de tous les choix stratégiques dans une perspective de théorie des jeux – les stratégies qui ne visent pas l'auto-survie et l'auto-réplication ne sont pas viables sur le long terme dans n'importe quel jeu. De façon critique cependant, cette situation est affectée par le fait que la concurrence a lieu sur plusieurs niveaux – c'est -à-dire au niveau génétique, individuel et du groupe.

Compétitions de gènes égoïstes[modifier | modifier le code]

Au premier coup d'œil, on pourrait penser que les compétiteurs des jeux évolutifs sont des individus présents dans chaque génération participant directement au jeu. Mais les individus vivent seulement sur un cycle de jeu, et à la place ce sont les stratégies qui sont réellement en compétition entre elles sur la durée de ces jeux multi-générations. Ainsi c'est finalement les gènes qui jouent une compétition entière – les gènes égoïstes de la stratégie. Les gènes compétiteurs sont présents chez un individu et à un certain degré dans chaque individu familialement lié. Cela peut parfois profondément affecter quelles stratégies survivent, en particulier avec les problèmes de coopération et de défection. William Hamilton, connu pour sa théorie de la sélection de parentèle, a exploré plusieurs de ces cas en utilisant les modèles de la théorie des jeux. Le traitement des compétitions du jeu lié à la parentèle permet d'expliquer beaucoup d'aspects sur le comportement des insectes sociaux, le comportement altruiste dans les interactions parent/descendance, les comportements de protection mutuelle, et le soin coopératif de la progéniture. Pour de tels jeux, Hamilton a défini une forme étendue de fitness la fitness inclusive, qui inclut la descendance d'un individu de même que n'importe quel équivalent de descendance trouvé dans la parentèle.

Mathématiques de la sélection de parentèle[modifier | modifier le code]

Le concept de sélection de parentèle est que la fitness inclusive est égale à la somme de la contribution propre de la fitness et de la contribution de tous les parents. La fitness est mesurée relativement à la population moyenne ; par exemple, une fitness = 1 signifie que la croissance est au rythme moyen de la population, une fitness < 1 signifie une diminution dans la part de la population (mourante), une fitness > 1 signifie une augmentation dans la part de la population (se reprenant).

La fitness inclusive d'un individu wi est la somme de sa fitness spécifique ai et de la fitness spécifique de chaque parent pondérée par le degré de relation, ce qui égale à la somme de tous les rj*bjrj est le degré de relation d'un parent spécifique et bj est la fitness spécifique de ce parent, ce qui donne :

Maintenant, si un individu ai sacrifie sa "propre fitness moyenne équivalente de 1" en acceptant un coût de fitness C, et ensuite pour "récupérer ce coût", wi doit rester égal à 1 (ou supérieur à 1), et si on utilise R*B pour représenter la somme, on obtient 1 < (1 - C) + R*B, soit en réarrangeant R > C/B.

Hamilton est allé au-delà de la relation de parenté pour travailler avec Robert Axelrod, en analysant les jeux de coopération sous des conditions n'impliquant pas des parents où l'altruisme réciproque vient en jeu.

Eusocialité et sélection de parentèle[modifier | modifier le code]

Les insectes ouvriers eusociaux perdent leur droit de reproduction au profit de leur reine. On a suggéré que la sélection de parentèle, basée sur la composition génétique de ces ouvriers, peut les prédisposer à un comportement altruiste. La plupart des sociétés d'insectes eusociaux ont une détermination sexuelle haplo-diploïde, ce qui signifie que les ouvriers ne sont qu'exceptionnellement étroitement apparentés.

Cette explication d'eusocialité insecte a cependant été controversée par quelques haut théoriciens évolutifs des jeux connus (Nowak et Wilson) qui ont publié une explication alternative controversée de la théorie des jeux basée sur un développement séquentiel et des effets de sélection de groupe proposés pour ces espèces d'insectes.

Dilemme du prisonnier[modifier | modifier le code]

Une difficulté posée par la théorie de l'évolution, reconnue par Darwin lui-même, est le problème de l'altruisme. Si la base de la sélection est au niveau de l'individu, l'altruisme n'a aucun sens. Mais la sélection universelle au niveau du groupe (pour le bien de l'espèce, pas de l'individu) n'a pas réussi le test des mathématiques de la théorie des jeux et ce n'est certainement pas le cas général dans la nature. Pourtant, chez beaucoup d'animaux sociaux, le comportement altruiste existe. La solution à ce paradoxe peut être trouvée dans l'application de la théorie évolutive des jeux au jeu du dilemme du prisonnier, un jeu qui teste les bénéfices de coopérer ou non. Il s'agit certainement du jeu le plus étudié parmi ceux que l'on retrouve dans la théorie des jeux.

L'analyse du dilemme du prisonnier est comme un jeu répétitif. Cela offre aux compétiteurs la possibilité de se venger de ceux qui ont refusé de coopérer aux tours précédents du jeu. Plusieurs stratégies ont été testées ; les meilleures stratégies compétitives sont la coopération générale avec réservation d'une action de représailles si nécessaire. La stratégie la plus célèbre, également l'une avec le plus de succès, est la coopération-réciprocité-pardon.

Le bénéfice pour chaque tour du jeu est défini par la matrice des gains pour un seul tour (voir graphique 1 ci-dessous). Dans des jeux à plusieurs tours, les différents choix – coopérer ou trahir – peuvent être faits à n'importe quel tour particulier, ce qui résulte en un certain bénéfice du tour. Cependant, ce sont les bénéfices accumulés possibles sur de multiples tours qui comptent dans la formation des gains globaux pour différentes stratégies multi-tours comme la coopération-réciprocité-pardon.

Exemple 1 : le jeu du dilemme du prisonnier en un seul tour simple. Les gains du jeu du dilemme du prisonnier classique donnent à un joueur une récompense maximum s'il trahit et que son partenaire coopère (ce choix est connu sous le nom de tentation). Si toutefois le joueur coopère et que son partenaire le trahit, il obtient le résultat le plus défavorable (le gain des "pigeons"). Dans ces conditions de rentabilité, le meilleur choix (un équilibre de Nash) est de faire défaut.

Exemple 2 : le dilemme du prisonnier joué de façon répétitive. La stratégie utilisée est celle de la coopération-réciprocité-pardon qui modifie les comportements en fonction des actions entreprises par un partenaire lors du tour précédent, c'est-à-dire récompense la coopération et punit la défection. L'effet de cette stratégie dans les gains accumulés au cours de nombreux tours est de produire un gain plus élevé pour la coopération des deux joueurs et une récompense plus faible pour la trahison. Cela supprime la tentation à trahir. Le gain des pigeons diminue également, bien que "l'invasion" par une stratégie de trahison pure ne soit pas entièrement éliminée.