AlphaZero

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

AlphaZero est une version généraliste d’AlphaGo Zero, un logiciel de go qui a été adapté pour jouer aux échecs et au shogi (échecs japonais). AlphaZero a été créé par Demis Hassabis de DeepMind, une entreprise appartenant au groupe Google.

Historique[modifier | modifier le code]

Le , DeepMind poste sur la plateforme de prépublication arXiv un article concernant AlphaZero[1],[2], un programme utilisant l’approche généralisée d'AlphaGo Zero.

Selon DeepMind, AlphaZero a atteint en 24 heures un niveau de jeu supérieur aux humains au jeu d'échecs, au shogi et au go en battant dans toutes les parties les programmes champions du monde Stockfish (échecs), Elmo (en) (shogi) et la version d’AlphaGo Zero ayant eu trois jours d'apprentissage.

Le même mois, AlphaZero bat la version AlphaGo Zero ayant 3 jours d’apprentissage à 60 parties à 40. Avec 8 heures de pratique et 21 millions de parties jouées contre lui-même, il surpasse la version d’AlphaGo du match contre Lee Sedol au classement Elo.

Stockfish, le logiciel champion du monde d'échecs est battu après 4 heures d'apprentissage et 44 millions de parties jouées. Toutefois, Stockfish n'avait pas le droit d'utiliser ses bibliothèques d'ouvertures et de finales[3].

Le programme de shogi Elmo est terrassé après deux heures de pratique et 24 millions de parties[1],[4]

AlphaZero possède désormais un réseau de neurones mis à jour de manière continue et possède des règles codées pour l’établissement de recherche d’hyperparamètres (en). Par ailleurs, il n'a pas été programmé pour profiter des symétries propres au jeu de go (possibilités de réflexions et rotations), inexistantes dans le jeu d'échecs, et peut prendre en compte la possibilité d'une partie nulle (inexistant au jeu de go mais présent aux échecs).

Références[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]