Bandit manchot (mathématiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
image illustrant les mathématiques
Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Page d'aide sur l'homonymie Pour l’article homonyme, voir Bandit manchot

Dans le problème dit du bandit manchot, un utilisateur fait face à machines à sou. Chacune donnant une récompense moyenne que l'utilisateur ne connait pas à priori. A chacune de ces actions, il va donc sélectionner une machine permettant de maximiser son gain[1].

Dégrossir le problème[modifier | modifier le code]

A chacun de ses essais indéxés par la lettre , l'utilisateur va recevoir une récompense qui dépend de la machine choisie. Dans un cas classique de bandit manchot, chacune des machines apporte une récompense de avec une probabilité . Dans ce cas, chacune des machines apporte une récompense moyenne . L'utilisateur essaye de trouver la machine à sous qui apporte la plus grande récompense moyenne.

Application pratique[modifier | modifier le code]

L'application la plus typique du problème du bandit manchot est celui du choix entre une ancienne et une nouvelle posologie d'un vaccin ou médicament (ou entre deux différents) : il faut déterminer le plus vite possible si le nouveau produit doit être adopté ou l'ancien maintenu. Toute erreur se traduirait en vies humaines perdues (ou, au minimum, en personnes souffrant de troubles consécutifs soit à un traitement incomplet, soit à des effets secondaires excessifs).

Ce modèle est parfois utilisé en apprentissage automatique, par exemple pour effectuer des choix de publicité à présenter en fonction de ce qui est déjà connu[2], à ceci près que le refus de cliquer sur lien publicitaire apporte lui-même à son tour une information exploitable.

En radio intelligente, ce modèle est souvent utilisé pour la prise de décision pour l'accès opportuniste au spectre [3].

Notes et références[modifier | modifier le code]

  1. http://statistique.blogs.sciencesetavenir.fr/archive/2015/04/24/du-casino-aux-essais-therapeutiques-le-bandit-manchot-23247.html
  2. http://blog.octo.com/online-machine-learning-application-a-la-publicite-sur-le-web/
  3. L. Lai, H. Jiang and H. V. Poor, "Medium access in cognitive radio networks: A competitive multi-armed bandit framework," 2008 42nd Asilomar Conference on Signals, Systems and Computers, Pacific Grove, CA, 2008, pp. 98-102.

Voir aussi[modifier | modifier le code]