Bandit manchot (mathématiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
image illustrant les mathématiques
Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Page d'aide sur l'homonymie Pour l’article homonyme, voir Bandit manchot

Le problème dit du bandit manchot peut se schématiser de la façon suivante :

  • On est en face de deux machines à sous
  • L'une, , est en ordre de marche. Elle rapporte donc 1 euro par jeton avec une probabilité connue.
  • L'autre, , est détraquée, et rapporte donc 1 euro par jeton avec une probabilité inconnue.
  • On dispose de jetons. Que faire pour maximiser raisonnablement son gain ?

Dégrossir le problème[modifier | modifier le code]

Quelques considérations permettent d'éviter l'explosion combinatoire :

  • Seule une mise sur peut nous apporter de l'information et seul un apport d'information peut nous amener à changer d'avis. Donc dès qu'on cesse de miser sur , on est certain de ne jamais avoir de raison de revenir sur elle.
  • Le problème se résume en conséquence à savoir combien de jetons on misera sur , en fonction des résultats, avant de commuter (définitivement) sur ou non. C'est le problème classique du plan d'expérience.

Application pratique[modifier | modifier le code]

L'application la plus typique du problème du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou médicament (ou entre deux différents) : il faut déterminer le plus vite possible si le nouveau produit doit être adopté ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consécutifs soit à un traitement incomplet, soit à des effets secondaires excessifs).

Ce modèle est parfois utilisé en apprentissage automatique, par exemple pour effectuer des choix de publicité à présenter en fonction de ce qui est déjà connu[1], à ceci près que le refus de cliquer sur lien publicitaire apporte lui-même à son tour une information exploitable.

Notes et références[modifier | modifier le code]

Voir aussi[modifier | modifier le code]