Libratus
Créateur |
Tuomas Sandholm Noam Brown |
---|---|
Dernière version | () |
État du projet | Lengpudashi |
Environnement | Superordinateur Bridges |
Type | Intelligence artificielle |
Libratus (ou Lengpudashi) est un programme informatique d'intelligence artificielle destiné à jouer au poker, dans la variante du Texas hold'em no-limit à deux joueurs (Heads up poker (en)).
En 2017, le programme est vainqueur d'un tournoi de poker l'opposant à quatre joueurs professionnels humains.
Présentation[modifier | modifier le code]
Libratus est un programme informatique entièrement écrit en partant de zéro[1]. Il se situe[pas clair] entre Claudico (en) et Lengpudashi 冷扑克大师[n 1]. Son nom vient du latin et signifie « équilibré ».
La construction de Libratus a nécéssité 15 millions d'heures/cœur de calculs (à comparer aux 3 millions pour Claudico) ; ces calculs furent effectués sur le superordinateur Bridges du centre de calcul à hautes performances de Pittsburgh (en).
Selon Tuomas Sandholm, l'un des créateurs de Libratus, le programme n'a pas de stratégie préprogrammée, mais la calcule à l'aide d'un algorithme adaptatif utilisant une variante de la technique de la « minimisation du regret[3] hypothétique »[4], la méthode CFR+[n 2] introduite en 2014 par Oskari Tammelin[5].
Outre CFR+, Libratus utilise une nouvelle technique que Sandholm et un de ses étudiants, Noam Brown[6], avaient développée pour résoudre les études de finales aux échecs. Cette méthode permet de contourner la méthode des « cartes d'action[n 3] », qui était jusque-là la norme dans la programmation du poker.
Libratus ne joue que contre un seul[7] autre adversaire, en suivant les règles du Texas hold'em à deux joueurs, c'est-à-dire dans la variante dite en « face à face »[n 4] (Heads up poker (en)).
Match de Pittsburgh 2017[modifier | modifier le code]
Déroulement[modifier | modifier le code]
Du 11 au , Libratus fut opposé à quatre joueurs de poker[8], à savoir Jason Les[6], Dong Kim[6], Daniel McAulay[6] et Jimmy Chou[6]. Pour que les résultats soient le plus significatif possible, un total de 120 000 mains furent jouées, une augmentation de 50 % sur le tournoi qu'avait disputé Claudico en 2015 (ce qui obligea à allonger la durée du tournoi de treize à vingt jours).
Les quatre joueurs étaient regroupés en équipes de deux, jouant indépendamment les mêmes mains en échangeant les côtés, c'est-à-dire que les cartes reçues par une équipe humaine dans une donne étaient attribués à Libratus jouant la même donne contre l'autre équipe, de telle sorte que l'élément de hasard dans les distributions soit annulé.
Force[modifier | modifier le code]
Dès le premier jour de la compétition, Libratus prit l'avantage contre les humains. Le dixième jour, Dong Kim déclara : « Jusqu'ici, je ne m'étais pas rendu compte à quel point il était bon. Aujourd'hui, j'avais les mêmes sensations qu'en jouant contre un tricheur qui aurait vu mes cartes. Mais Libratus ne trichait pas, il était seulement trop fort »[9].
À la 16e journée du tournoi, Libratus franchit pour la première fois la barre des 1 000 000 dollars en jetons virtuels. À la fin de la journée, il était en avance de 1 194 402 $ dollars en jetons contre l'équipe humaine.
À la fin de la compétition, Libratus menait par 1 766 250 dollars en jetons, une victoire écrasante, les joueurs humains étant tous en déficit de leur côté.
Place | Nom | Gain ou pertes | Par main |
---|---|---|---|
1 | Libratus | +$1 766 250 | +$14,72[10] |
2 | Dong Kim | -$85 649 | -$2,85 |
3 | Daniel MacAulay | -$277 657 | -$17,43 |
4 | Jimmy Chou | -$522 857 | -$29,34 |
5 | Jason Les | -$880 087 | -$9,26 |
Dans le cas no-limit (sans limite d'argent) 50/100, Libratus gagne +14,72bb[n 5]/100[10] : la grosse blinde étant fixée pour ce match à cent dollars, le gain est de 14,72 grosses blindes pour cent mains, un résultat exceptionnellement élevé.
Architecture[modifier | modifier le code]
Un premier module extrait un arbre réduit du jeu et évalue une première ébauche de la stratégie globale du plan. L'abstraction est développée avec équilibrage des stratégies. Finalement l'auto-amélioration enrichie la stratégie globale[11].
- deep learning[12] : les parties jouées durant la journée étaient analysées par Libratus la nuit, ce qui lui permettait d'améliorer sa stratégie durant le tournoi, et d'éliminer les imperfections (holes, les « trous » dans sa stratégie) que les équipes humaines avaient pu découvrir ;
- équilibre de Nash[12] ;
- imprévisibilité[12] : jeu sur un grand nombre de variantes tactiques, comme des petites mises ou des sur-relances qu'un bon joueur humain trouveraient incorrectes ; « Chaque fois qu'on a trouvé la faille, le lendemain, elle avait disparu[12] ».
Lengpudashi au match de Haikou 2017[modifier | modifier le code]
En , Lengpudashi remporte la victoire face à six joueurs chinois de l'équipe Dragons dans une rencontre exhibition à 36 000 mains[13] sur l'île de Hainan[14]. Par rapport à Libratus à 147 milli-bb[n 5] par partie, Lengpudashi s'améliore de 220 milli-bb[15].
Autres applications possibles du programme[modifier | modifier le code]
Bien que Libratus soit initialement conçu pour jouer au poker, ses concepteurs prévoient pour lui de nombreuses autres applications[16].
Les techniques qu'il utilise devraient lui permettre de s'adapter à n'importe quelle situation à « information incomplète »[17], où des « adversaires » cachent certaines informations, ou même en fournissent des fausses. Sandholm et ses collègues envisagent d'appliquer ce système à des situations du monde réel, telles que la cybersécurité, la négociation commerciale[17] ou le diagnostic médical[18].
Notes et références[modifier | modifier le code]
Notes[modifier | modifier le code]
- « cold poker master[2]. »
- CFR+ : Counterfactual Regret Minimization[5] : minimisation du regret hypothétique.
- action mapping : cartes d'action.
- heads up : face à face.
- big blind : la grosse blinde est une relance minimale.
Références[modifier | modifier le code]
- Guilain Depardieu et Thibaut Martin, « L'intelligence artificielle va-t-elle nous dépasser ? », à partir de 4 min 21 s, sur Arte, .
- (zh) 机械鸡, « 中国人工智能的崛起 » [« La montée de l'intelligence artificielle en Chine »], sur Tencent, : « Lengpudashi(中文名“冷扑克大师”) ».
- R. Lambert, « Une IA championne de poker ? », sur Pensée Artificielle, .
- (en) Jeremy Hsu, « Meet the New AI Challenging Human Poker Pros », sur IEEE Spectrum: Technology, Engineering, and Science News, .
- (en) Noam Brown et Tuomas Sandholm, « Safe and Nested Endgame Solving for Imperfect-Information Games » [PDF], sur Carnegie Mellon University, .
- (en) « Brains versus Artificial Intelligence », sur Rivers Casino, 11-31 janvier 2017.
- « Une intelligence artificielle affronte des professionnels du poker en direct », sur Le Monde, .
- (en) Byron Spice et Garrett Allen, « Upping the Ante: Top Poker Pros Face Off vs. Artificial Intelligence », sur Université Carnegie-Mellon, (consulté le 1er octobre 2018).
- (en) Cade Metz, « Artificial Intelligence Is About to Conquer Poker—But Not Without Human Help », sur Wired, .
- Petiteglise, « La machine bat l’homme… Et tue le poker ? », sur Poker Académie, (consulté le 1er octobre 2018).
- Pierre-Yves Gerlat, « Comment l’intelligence artificielle de Libratus est devenue la championne incontestée au Poker », sur Actu IA, (consulté le 1er octobre 2018).
- Aline Gérard, « Libratus : l'ordinateur qui sait nous bluffer au poker », sur Le Parisien, (consulté le 1er octobre 2018).
- SuperCaddy, « Lengpudashi : l'intelligence artificielle sans pitié pour la team Dragons », sur Club Poker, (consulté le 1er octobre 2018).
- Antoine Boudet, « La version améliorée de l’IA Libratus continue de dominer des humains au poker », sur Numerama, (consulté le 1er octobre 2018).
- Malick, « Poker : Lengpudashi, une autre IA de l'université Carnegie Mellon terrasse ses six adversaires humains », sur Développez, (consulté le 1er octobre 2018).
- (en) Will Knight, « Why Poker Is a Big Deal for Artificial Intelligence », sur MIT Technology Review, .
- Rémi Sussan, « L’Intelligence artificielle va-t-elle mettre fin au poker ? », sur Le Monde, .
- (en) « Artificial Intelligence Wins $800,000 Against 4 Poker Masters » [« L'IA gagne 800 000 dollars contre des maîtres du poker »], sur Interesting Engineering, .
Liens externes[modifier | modifier le code]
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Libratus » (voir la liste des auteurs).