Aller au contenu

Algorithme UCB

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 29 juin 2022 à 23:26 et modifiée en dernier par (:Julien:) (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

En intelligence artificielle, plus précisément en apprentissage par renforcement, l'algorithme UCB (pour Upper Confidence Bounds) est une stratégie pour les problème du bandit manchot, qui consiste à exploiter les choix fructueux et à explorer les choix peu explorées jusqu'à présent. Il a été proposé par P. Auer en 2002 [1].

Principe

Considérons un agent, qui à chaque instant, doit choisir une action (tester un médicament A, tester un médicament B, etc.). L'agent ne connaît pas l'effet des actions (par exemple, il ne sait pas si le médicament A est efficace, etc.). Après avoir exécuté une action, il observe son effet et reçoit une récompense (par exemple, il se rend compte que le médicament A soigne). L'algorithme UCB consiste à choisir l'action a à l'instant t qui maximise la quantité

est la moyenne des récompenses obtenues en exécutant a, c est une constante, est le nombre de fois que l'action a a été choisie jusqu'à l'instant t.

Exemple

Extensions

Voir aussi

Notes et références

  1. Auer, P., Cesa-Bianchi, N. & Fischer, P. Machine Learning (2002) 47: 235.