Problème du bandit manchot

Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

Le problème dit du bandit manchot peut se schématiser de la façon suivante :

On est en face de deux machines à sous
L'une, $A$ , est en ordre de marche. Elle rapporte donc 1 euro par jeton avec une probabilité $p_{0}$ connue.
L'autre, $B$ , est détraquée, et rapporte donc 1 euro par jeton avec une probabilité $p_{1}$ inconnue.
On dispose de $N$ jetons. Que faire pour maximiser raisonnablement son gain ?

Dégrossir le problème

Quelques considérations permettent d'éviter l'explosion combinatoire :

Seule une mise sur $B$ peut nous apporter de l'information et seul un apport d'information peut nous amener à changer d'avis. Donc dès qu'on cesse de miser sur $B$ , on est certain de ne jamais avoir de raison de revenir sur elle.
Le problème se résume en conséquence à savoir combien de jetons on misera sur $B$ , en fonction des résultats, avant de commuter (définitivement) sur $A$ ou non. C'est le problème classique du plan d'expérience.

Application pratique

L'application la plus typique du problème du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou médicament (ou entre deux différents) : il faut déterminer le plus vite possible si le nouveau produit doit être adopté ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consécutifs soit à un traitement incomplet, soit à des effets secondaires excessifs).

Voir aussi