Discussion:Temporal difference learning
Apparence
Autres discussions [liste]
- Admissibilité
- Neutralité
- Droit d'auteur
- Article de qualité
- Bon article
- Lumière sur
- À faire
- Archives
- Commons
Article incohérent : <<Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.>> : donc il n'y a pas de "modèle". Puis << Ces méthodes échantillonnent l'environnement de manière aléatoire, à la manière des méthodes de Monte Carlo et mettent à jour leur modèle>> : donc il y a un modèle. Pourriez vous expliquer? Merci