Dilemme biais-variance

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Fonction et données bruitées.
spread=5
spread=1
spread=0.1
Une fonction (rouge) est estimée à l'aide de fonctions de base radiales (RBF) (en bleu). Plusieurs essais sont présentés dans chaque graphique.

Pour chaque essai, quelques points de données bruitées sont fournis comme ensemble d'apprentissage (en haut).

Pour une forte valeur du paramètre d'envergure (spread) (image 2), le biais est élevé : les RBFs ne peuvent pleinement approximer la fonction (en particulier le creux central), mais la variance entre les différents essais est faible. Lorsque le paramètre d'envergure diminue (image 3 et 4), le biais diminue : les courbes bleues se rapprochent davantage de la courbe rouge. Cependant, en fonction du bruit dans les différents essais, la variance entre les essais augmente. Dans l'image du bas, les approximations pour x = 0 varient énormément selon l'endroit où se trouvaient les points de données.

En statistique et en Apprentissage automatique, le dilemme (ou compromis) biais–variance est le problème de minimiser simultanément deux sources d'erreurs qui empêchent les algorithmes d'apprentissage supervisé de généraliser au-delà de leur échantillon d'apprentissage :

  • Le biais est l'erreur provenant d’hypothèses erronées dans l'algorithme apprentissage. Un biais élevé peut être lié à un algorithme qui manque de relations pertinentes entre les données en entrée et les sorties prévues (sous-apprentissage).
  • La variance est l'erreur dû à la sensibilité aux petites fluctuations de l’échantillon d'apprentissage. Une variance élevée peut entraîner un sur-apprentissage, c'est-à-dire modéliser le bruit aléatoire des données d'apprentissage plutôt que les sorties prévues.

La décomposition biais-variance est une façon d'analyser l'espérance de l'erreur de prédiction d'un algorithme d'apprentissage d'un problème particulier comme une somme de trois termes : le biais, la variance et une quantité, appelée erreur irréductible, résultant du bruit dans le problème lui-même.

Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage)[1],[2], et le structured (output) learning (en). Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain.

Motivation[modifier | modifier le code]

Le compromis biais-variance est un problème central en apprentissage supervisé. Idéalement, on veut choisir un modèle qui reflète avec précision les régularités dans les données d'apprentissage, mais qui se généralise aussi aux données tests (données n'ayant pas servi à apprendre le modèle). Malheureusement, il est généralement impossible de faire les deux en même temps. Les méthodes d'apprentissage avec une variance élevée peuvent assez bien représenter l’échantillon d’apprentissage, mais il existe un risque de sur-apprentissage sur des données tests ou bruitées. En revanche, les algorithmes avec un biais élevé produisent généralement des modèles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent être en sous-apprentissage sur le jeu de données d'apprentissage.

Les modèles avec un faible biais sont généralement plus complexes (par exemple la régression polynomiale à plusieurs degrés), mais permettent de représenter les données d’apprentissage avec plus de précision. Cependant, ils peuvent également représenter une partie du bruit aléatoire du jeu d'apprentissage, leurs prédictions sont donc moins précises malgré la complexité supplémentaire. En revanche, les modèles avec un biais plus élevé ont tendance à être relativement simple (régression polynomiale à moindre degré ou même linéaire), mais peuvent produire des prédictions de variance plus faible lorsqu'ils sont appliqués au-delà de l'ensemble d'apprentissage.

Décomposition biais-variance de l'erreur quadratique[modifier | modifier le code]

Supposons que nous avons un ensemble d'apprentissage constitué d'un ensemble de points et de valeurs réelles associée à chaque point . Nous supposons qu'il existe une relation fonctionnelle bruitée , où le bruit, , a une moyenne nulle et une variance .

Trouver une fonction qui se généralise à des points extérieurs à l'ensemble d'apprentissage peut être fait avec l'un des nombreux algorithmes utilisés pour l'apprentissage supervisé. Selon la fonction que nous choisissons, son erreur attendue sur un  échantillon test  peut se décomposer comme suit[3] ::34,[4]:223

et

L'espérance est calculée sur l'ensemble des différents choix de l'échantillon d'apprentissage , tous générés selon la même distribution. Les trois termes sont :

  • le biais au carré de la méthode d'apprentissage, qui peut être vue comme l'erreur due aux hypothèses simplifiées de la méthode utilisée. Par exemple, approcher une fonction non linéaire à l'aide d'une méthode pour modèle linéaire va produire des erreurs d'estimation dû à cette hypothèse;^
  • la variance de la méthode d'apprentissage, ou plus intuitivement, de combien la méthode d'apprentissage se déplace autour de sa moyenne;
  • l'erreur irréductible . Étant donné que tous les trois termes sont positifs, cela constitue une limite inférieure sur l'erreur attendue sur des échantillons test[3].:34

Plus le modèle de est complexe, plus le biais sera faible.  Cependant, la complexité va rendre le modèle "mobile" pour s'adapter aux données, et donc sa variance sera plus grande.

Démonstration

La démonstration de la décomposition biais-variance pour erreur quadratique se déroule comme suit[5],[6]. Pour simplifier la notation, on abrégera et .  Tout d'abord, notez que pour toute variable aléatoire , nous avons

Réarrangeant, nous obtenons :

Puisque est déterministe

.

Cela donne  et , implique .

En outre, puisque

Ainsi, puisque et sont indépendants, nous pouvons écrire

Application à la classification[modifier | modifier le code]

La décomposition biais-variance a été initialement formulée pour une régression des moindres carrés. Dans le cas de la classification sous la perte 0-1 (Taux d'erreur),  Il est possible de trouver une décomposition similaire [7],[8]. Sinon, si le problème de la classification peut être formulé comme classification probabiliste, alors l'erreur quadratique attendue des probabilités prédites par rapport aux véritables probabilités peut être décomposée comme précédemment[9].

Approches[modifier | modifier le code]

La réduction de la dimension et la sélection de variables (features en anglais) peuvent diminuer la variance tout en simplifiant les modèles.  De même, un plus grand ensemble d'apprentissage tend à diminuer la variance. L'ajout de variables explicatives (features) tend à diminuer le biais, au détriment de l'introduction de variance supplémentaire.

Les algorithmes d'apprentissage ont généralement certains paramètres ajustables qui contrôlent le biais et la variance, e.g. :

Une façon de résoudre le compromis consiste à utiliser des modèles mixte et de l'ensemble learning (en)[12],[13]. Par exemple, le boosting combine plusieurs "mauvais" modèles (biais élevé) dans un ensemble qui a un biais plus faible que les modèles individuels, tandis que le bagging combine les "meilleurs" classifieurs d'une manière qui réduit leur variance.

Méthode des k plus proches voisins[modifier | modifier le code]

Dans le cas de la méthode des k plus proche voisin, une formule explicite existe concernant la décomposition biais–variance du paramètre [4]::37, 223

sont les plus proches voisins de dans l’échantillon d'apprentissage. Le biais (premier terme de l’équation) est une fonction monotone croissante de , alors que la variance (second terme) diminue lorsque augmente. En effet, avec des "hypothèses raisonnables", le biais de l'estimateur du plus proche voisin (1-NN) disparaît entièrement lorsque la taille de l’échantillon d'apprentissage tend vers l'infini[1].

Application à l'apprentissage humain[modifier | modifier le code]

Bien que largement discuté dans le contexte de l'apprentissage automatique, le dilemme biais-variance a été examiné dans le contexte des sciences cognitives, et plus particulièrement par Gerd Gigerenzer et ses co-auteurs dans le contexte de l'apprentissage heuristique. Ils soutiennent que le cerveau humain résout ce dilemme dans le cas des généralement parcimonieux sur des ensembles mal caractérisés fournies par une expérience en adoptant une heuristique biais élevé/faible variance. Cela reflète le fait qu'une approche non biaisée se généralise mal à de nouvelles situations, et suppose aussi déraisonnablement une connaissance précise de la réalité. Les heuristiques en résultant sont relativement simples, mais produisent de meilleures inférences dans une plus grande variété de situations[14].

Gelman et al. soutiennent que le dilemme biais-variance implique que les capacités telles que la reconnaissance d'objet générique ne peuvent être apprises à partir de zéro, mais nécessitent un certain degré d'inné qui est ensuite réglée par l'expérience. Ceci car les approches sans modèle d'inférence nécessitent des ensembles d'apprentissage démesurément grands si l'on veut éviter une forte variance.

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

  1. a, b et c Geman, Stuart; E. Bienenstock; R. Doursat (1992).
  2. Bias–variance decomposition, In Encyclopedia of Machine Learning.
  3. a, b et c Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013).
  4. a et b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009).
  5. Vijayakumar, Sethu (2007).
  6. Shakhnarovich, Greg (2011).
  7. Domingos, Pedro (2000).
  8. Valentini, Giorgio; Dietterich, Thomas G. (2004).
  9. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008).
  10. Belsley, David (1991).
  11. Gagliardi, F (2011).
  12. Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control.
  13. Scott Fortmann-Roe.
  14. Gigerenzer, Gerd; Brighton, Henry (2009).

Liens Externes[modifier | modifier le code]