Bandit manchot (mathématiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour l’article homonyme, voir Bandit manchot

Le problème dit du bandit manchot peut se schématiser de la façon suivante :

  • On est en face de deux machines à sous
  • L'une, A, est en ordre de marche. Elle rapporte donc 1 euro par jeton avec une probabilité p_0 connue.
  • L'autre, B, est détraquée, et rapporte donc 1 euro par jeton avec une probabilité p_1 inconnue.
  • On dispose de N jetons. Que faire pour maximiser raisonnablement son gain ?

Dégrossir le problème[modifier | modifier le code]

Quelques considérations permettent d'éviter l'explosion combinatoire :

  • Seule une mise sur B peut nous apporter de l'information et seul un apport d'information peut nous amener à changer d'avis. Donc dès qu'on cesse de miser sur B, on est certain de ne jamais avoir de raison de revenir sur elle.
  • Le problème se résume en conséquence à savoir combien de jetons on misera sur B, en fonction des résultats, avant de commuter (définitivement) sur A ou non. C'est le problème classique du plan d'expérience.

Application pratique[modifier | modifier le code]

L'application la plus typique du problème du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou médicament (ou entre deux différents) : il faut déterminer le plus vite possible si le nouveau produit doit être adopté ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consécutifs soit à un traitement incomplet, soit à des effets secondaires excessifs).

Voir aussi[modifier | modifier le code]