Aller au contenu

Problème du bandit manchot

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 8 février 2008 à 14:37 et modifiée en dernier par DumZiBoT (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

Le problème dit du bandit manchot peut se schématiser de la façon suivante :

  • On est en face de deux machines à sous
  • L'une, , est en ordre de marche. Elle rapporte donc 1 euro par jeton avec une probabilité connue.
  • L'autre, , est détraquée, et rapporte donc 1 euro par jeton avec une probabilité inconnue.
  • On dispose de jetons. Que faire pour maximiser raisonnablement son gain ?

Dégrossir le problème

Quelques considérations permettent d'éviter l'explosion combinatoire :

  • Seule une mise sur peut nous apporter de l'information et seul un apport d'information peut nous amener à changer d'avis. Donc dès qu'on cesse de miser sur , on est certain de ne jamais avoir de raison de revenir sur elle.
  • Le problème se résume en conséquence à savoir combien de jetons on misera sur , en fonction des résultats, avant de commuter (définitivement) sur ou non. C'est le problème classique du plan d'expérience.

Application pratique

L'application la plus typique du problème du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou médicament (ou entre deux différents) : il faut déterminer le plus vite possible si le nouveau produit doit être adopté ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consécutifs soit à un traitement incomplet, soit à des effets secondaires excessifs).

Voir aussi