Dilemme biais-variance

Fonction et données bruitées.

spread=5

spread=1

spread=0.1

Une fonction (rouge) est estimée à l'aide de fonctions de base radiales (RBF) (en bleu). Plusieurs essais sont présentés dans chaque graphique.

Pour chaque essai, quelques points de données bruitées sont fournis comme ensemble d'apprentissage (en haut).

Pour une forte valeur du paramètre d'envergure^[Quoi ?] (spread) (image 2), le biais est élevé : les RBF ne peuvent pleinement approximer la fonction (en particulier le creux central), mais la variance entre les différents essais est faible. Lorsque le paramètre d'envergure diminue (image 3 et 4), le biais diminue : les courbes bleues se rapprochent davantage de la courbe rouge. Cependant, en fonction du bruit dans les différents essais, la variance entre les essais augmente. Dans l'image du bas, les approximations pour x = 0 varient énormément selon l'endroit où se trouvaient les points de données.

En statistique et en apprentissage automatique, le dilemme (ou compromis) biais–variance est le problème de minimiser simultanément deux sources d'erreurs qui empêchent les algorithmes d'apprentissage supervisé de généraliser au-delà de leur échantillon d'apprentissage :

Le biais est l'erreur provenant d’hypothèses erronées dans l'algorithme d'apprentissage. Un biais élevé peut être lié à un algorithme qui manque de relations pertinentes entre les données en entrée et les sorties prévues (sous-apprentissage).
La variance est l'erreur due à la sensibilité aux petites fluctuations de l’échantillon d'apprentissage. Une variance élevée peut entraîner un surapprentissage, c'est-à-dire modéliser le bruit aléatoire des données d'apprentissage plutôt que les sorties prévues.

La décomposition biais-variance est une façon d'analyser l'espérance de l'erreur de prédiction d'un algorithme d'apprentissage d'un problème particulier comme une somme de trois termes : le biais, la variance et une quantité, appelée erreur irréductible, résultant du bruit dans le problème lui-même.

Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage)^[1]^,^[2], et le structured (output) learning (en). Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain.

Motivation[modifier | modifier le code]

Le compromis biais-variance est un problème central en apprentissage supervisé. Idéalement, on veut choisir un modèle qui reflète avec précision les régularités dans les données d'apprentissage, mais qui se généralise aussi aux données tests (données n'ayant pas servi à entrainer le modèle). Malheureusement, il est généralement impossible de faire les deux en même temps. Les méthodes d'apprentissage avec une variance élevée peuvent assez bien représenter l’échantillon d’apprentissage, mais il existe un risque de surapprentissage sur des données tests ou bruitées. En revanche, les algorithmes avec une variance faible produisent généralement des modèles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent être en sous-apprentissage sur le jeu de données d'apprentissage.

Les modèles avec un faible biais sont généralement plus complexes (par exemple la régression polynomiale à plusieurs degrés), mais permettent de représenter les données d’apprentissage avec plus de précision. Cependant, ils peuvent également représenter une partie du bruit aléatoire du jeu d'apprentissage, leurs prédictions sont donc moins précises malgré la complexité supplémentaire. En revanche, les modèles avec un biais plus élevé ont tendance à être relativement simples (régression polynomiale à moindre degré ou même linéaire), mais peuvent produire des prédictions de variance plus faible lorsqu'ils sont appliqués au-delà de l'ensemble d'apprentissage.

Décomposition biais-variance de l'erreur quadratique[modifier | modifier le code]

Supposons que nous avons un ensemble d'apprentissage constitué d'un ensemble de points $x_{1},\dots ,x_{n}$ et de valeurs réelles $y_{i}$ associée à chaque point $x_{i}$ . Nous supposons qu'il existe une relation fonctionnelle bruitée $y_{i}=f(x_{i})+\epsilon _{i}$ , où le bruit, $\epsilon _{i}$ , a une moyenne nulle et une variance $\sigma ^{2}$ .

Trouver une fonction ${\hat {f}}$ qui se généralise à des points extérieurs à l'ensemble d'apprentissage peut être fait avec l'un des nombreux algorithmes utilisés pour l'apprentissage supervisé. Selon la fonction ${\hat {f}}$ que nous choisissons, son erreur attendue sur un échantillon test $x$ peut se décomposer comme suit^[3]^:34^,^[4]^:223:

{\begin{aligned}\mathrm {E} \left[\left(y-{\hat {f}}(x)\right)^{2}\right]&=\mathrm {Biais} \left[{\hat {f}}(x)\right]^{2}+\mathrm {Var} \left[{\hat {f}}(x)\right]+\sigma ^{2}\\\end{aligned}}

où

{\begin{aligned}\mathrm {Biais} \left[{\hat {f}}(x)\right]=\mathrm {E} \left[{\hat {f}}(x)-f(x)\right]\end{aligned}}

et

{\begin{aligned}\mathrm {Var} \left[{\hat {f}}(x)\right]=\mathrm {E} \left[\left({\hat {f}}(x)-\mathrm {E} [{\hat {f}}(x)]\right)^{2}\right]\end{aligned}}

L'espérance est calculée sur l'ensemble des différents choix de l'échantillon d'apprentissage $x_{1},\dots ,x_{n},y_{1},\dots ,y_{n}$ , tous générés selon la même distribution. Les trois termes sont :

le biais au carré de la méthode d'apprentissage, qui peut être vue comme l'erreur due aux hypothèses simplifiées de la méthode utilisée. Par exemple, approcher une fonction non linéaire à l'aide d'une méthode pour modèle linéaire va produire des erreurs d'estimation du fait de cette hypothèse ;
la variance de la méthode d'apprentissage, ou plus intuitivement, de combien la méthode d'apprentissage ${\hat {f}}(x)$ se déplace autour de sa moyenne;
l'erreur irréductible $\sigma ^{2}$ . Étant donné que tous les trois termes sont positifs, cela constitue une limite inférieure sur l'erreur attendue sur des échantillons test^[3].^:34

Plus le modèle de ${\hat {f}}(x)$ est complexe, plus le biais sera faible. Cependant, la complexité va rendre le modèle "mobile" pour s'adapter aux données, et donc sa variance sera plus grande.

Démonstration

La démonstration de la décomposition biais-variance pour erreur quadratique se déroule comme suit^[5]^,^[6]. Pour simplifier la notation, on abrégera $f=f(x)$ et ${\hat {f}}={\hat {f}}(x)$ . Tout d'abord, on note que pour toute variable aléatoire $X$ , on a

{\begin{aligned}\mathrm {Var} [X]=\mathrm {E} [X^{2}]-\mathrm {E} [X]^{2}\end{aligned}}

En réarrangeant, on obtient :

{\begin{aligned}\mathrm {E} [X^{2}]=\mathrm {Var} [X]+\mathrm {E} [X]^{2}\end{aligned}}

Puisque $f$ est déterministe

{\begin{aligned}\mathrm {E} [f]=f\end{aligned}}

.

Cela donne $y=f+\epsilon$ et $\mathrm {E} [\epsilon ]=0$ , implique $\mathrm {E} [y]=\mathrm {E} [f+\epsilon ]=\mathrm {E} [f]=f$ .

En outre, puisque $\mathrm {Var} [\epsilon ]=\sigma ^{2}$

{\begin{aligned}\mathrm {Var} [y]=\mathrm {E} [(y-\mathrm {E} [y])^{2}]=\mathrm {E} [(y-f)^{2}]=\mathrm {E} [(f+\epsilon -f)^{2}]=\mathrm {E} [\epsilon ^{2}]=\mathrm {Var} [\epsilon ]+\mathrm {E} [\epsilon ]^{2}=\sigma ^{2}\end{aligned}}

Ainsi, puisque $\epsilon$ et ${\hat {f}}$ sont indépendants, nous pouvons écrire

{\begin{aligned}\mathrm {E} \left[(y-{\hat {f}})^{2}\right]&=\mathrm {E} \left[y^{2}+{\hat {f}}^{2}-2y{\hat {f}}\right]\\&=\mathrm {E} [y^{2}]+\mathrm {E} \left[{\hat {f}}^{2}\right]-\mathrm {E} [2y{\hat {f}}]\\&=\mathrm {Var} [y]+\mathrm {E} [y]^{2}+\mathrm {Var} [{\hat {f}}]+\mathrm {E} [{\hat {f}}]^{2}-2f\mathrm {E} [{\hat {f}}]\\&=\mathrm {Var} [y]+\mathrm {Var} [{\hat {f}}]+(f-\mathrm {E} [{\hat {f}}])^{2}\\&=\mathrm {Var} [y]+\mathrm {Var} [{\hat {f}}]+\mathrm {E} [f-{\hat {f}}]^{2}\\&=\sigma ^{2}+\mathrm {Var} [{\hat {f}}]+\mathrm {Biais} [{\hat {f}}]^{2}.\end{aligned}}

Application à la classification[modifier | modifier le code]

La décomposition biais-variance a été initialement formulée pour une régression des moindres carrés. Dans le cas de la classification sous la perte 0-1 (Taux d'erreur), Il est possible de trouver une décomposition similaire ^[7]^,^[8]. Sinon, si le problème de la classification peut être formulé comme classification probabiliste, alors l'erreur quadratique attendue des probabilités prédites par rapport aux véritables probabilités peut être décomposée comme précédemment^[9].

Approches[modifier | modifier le code]

La réduction de la dimension et la sélection de variables (features en anglais) peuvent diminuer la variance tout en simplifiant les modèles. De même, un plus grand ensemble d'apprentissage tend à diminuer la variance. L'ajout de variables explicatives (features) tend à diminuer le biais, au détriment de l'introduction de variance supplémentaire.

Les algorithmes d'apprentissage ont généralement certains paramètres ajustables qui contrôlent le biais et la variance, e.g. :

Les modèles linéaires généralisés peuvent être régularisés afin d'en diminuer la variance mais au prix de l'augmentation du biais^[10].
Avec les réseaux de neurones, la variance augmente et le biais diminue avec le nombre de couches cachées^[1]. Comme dans le modèle linéaire généralisé, une régularisation est généralement appliquée.
Avec la méthode des k plus proches voisins, une valeur élevée de k conduit à un biais élevé et une variance faible (voir ci-dessous).
Avec la méthode d'Instance-based learning (en), la régularisation peut être obtenue en variant le mélange de prototypes et modèles^[11].
Avec les arbres de décision, la profondeur de l'arbre détermine la variance. Les arbres de décision sont généralement élagués pour contrôler la variance^[3].^:307

Une façon de résoudre le compromis consiste à utiliser des modèles mixte et de l'apprentissage ensembliste^[12]^,^[13]. Par exemple, le boosting combine plusieurs "mauvais" modèles (biais élevé) dans un ensemble qui a un biais plus faible que les modèles individuels, tandis que le bagging combine les "meilleurs" classifieurs d'une manière qui réduit leur variance.

Méthode des k plus proches voisins[modifier | modifier le code]

Dans le cas de la méthode des k plus proches voisins, une formule explicite existe concernant la décomposition biais–variance du paramètre $k$ ^[4]:

\mathrm {E} [(y-{\hat {f}}(x))^{2}]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

où $N_{1}(x),\dots ,N_{k}(x)$ sont les $k$ plus proches voisins de $x$ dans l’échantillon d'apprentissage. Le biais (premier terme de l’équation) est une fonction monotone croissante de $k$ , alors que la variance (second terme) diminue lorsque $k$ augmente. En effet, avec des "hypothèses raisonnables", le biais de l'estimateur du plus proche voisin (1-NN) disparaît entièrement lorsque la taille de l’échantillon d'apprentissage tend vers l'infini^[1].

Application à l'apprentissage humain[modifier | modifier le code]

Bien que largement discuté dans le contexte de l'apprentissage automatique, le dilemme biais-variance a été examiné dans le contexte des sciences cognitives, et plus particulièrement par Gerd Gigerenzer et ses co-auteurs dans le contexte de l'apprentissage heuristique. Ils soutiennent que, à partir des ensembles de données typiquement sporadiques et mal caractérisées produits par l’expérience, le cerveau humain résout ce dilemme en adoptant une heuristique à biais élevé et faible variance. Cela reflète le fait qu'une approche non biaisée se généralise mal à de nouvelles situations, et suppose aussi déraisonnablement une connaissance précise de la réalité. Les heuristiques en résultant sont relativement simples, mais produisent de meilleures inférences dans une plus grande variété de situations^[14].

Geman et al. soutiennent que le dilemme biais-variance implique que les capacités telles que la reconnaissance d'objet générique ne peuvent être apprises à partir de zéro, mais nécessitent un certain degré d'inné qui est ensuite réglée par l'expérience. Ceci car les approches sans modèle d'inférence nécessitent des ensembles d'apprentissage démesurément grands si l'on veut éviter une forte variance.

Voir aussi[modifier | modifier le code]

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Bias–variance tradeoff » (voir la liste des auteurs).

↑ ^{a b et c} (en) Stuart Geman, Élie Bienenstock et René Doursat, « Neural networks and the bias/variance dilemma », Neural Computation, vol. 4,‎ 1992, p. 1–58 (DOI 10.1162/neco.1992.4.1.1, S2CID 14215320, lire en ligne).
↑ (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, 2011 (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615
↑ ^{a b et c} (en) Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning, Springer, 2013 (lire en ligne).
↑ ^{a et b} (en) Trevor Hastie, Robert Tibshirani et Jerome H. Friedman, The Elements of Statistical Learning, 2009 (lire en ligne [archive du 26 janvier 2015]).
↑ (en) Sethu Vijayakumar, « The Bias–Variance Tradeoff », University of Edinburgh, 2007 (consulté le 19 août 2014).
↑ (en) Greg Shakhnarovich, « Notes on derivation of bias-variance decomposition in linear regression » [archive du 21 août 2014], 2011 (consulté le 20 août 2014).
↑ Pedro Domingos « A unified bias-variance decomposition » (2000) (lire en ligne)
—ICML.
↑ Giorgio Valentini et Thomas G. Dietterich, « Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods », Journal of Machine Learning Research, vol. 5,‎ 2004, p. 725–775 (lire en ligne).
↑ Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008, 308–314 p. (lire en ligne), « Vector Space Classification ».
↑ (en) David Belsley, Conditioning diagnostics : collinearity and weak data in regression, New York (NY), Wiley, 1991 (ISBN 978-0471528890).
↑ (en) Francesco Gagliardi, « Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction », Artificial Intelligence in Medicine, vol. 52, n^o 3,‎ mai 2011, p. 123–139 (PMID 21621400, DOI 10.1016/j.artmed.2011.04.002, lire en ligne).
↑ (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, 2011 (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615.
↑ (en) Scott Fortmann-Roe, « Understanding the Bias–Variance Tradeoff », 2012.
↑ (en) Gerd Gigerenzer et Henry Brighton, « Homo Heuristicus: Why Biased Minds Make Better Inferences », Topics in Cognitive Science, vol. 1, n^o 1,‎ 2009, p. 107–143 (PMID 25164802, DOI 10.1111/j.1756-8765.2008.01006.x, hdl 11858/00-001M-0000-0024-F678-0 ).

Liens externes[modifier | modifier le code]

Scott Fortmann-Roe, « Understanding the Bias-Variance Tradeoff », juin 2012

Portail des probabilités et de la statistique

[geman-1] {a b et c} (en) Stuart Geman, Élie Bienenstock et René Doursat, « Neural networks and the bias/variance dilemma », Neural Computation, vol. 4,‎ 1992, p. 1–58 (DOI 10.1162/neco.1992.4.1.1, S2CID 14215320, lire en ligne).

[2] (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, 2011 (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615

[islr-3] {a b et c} (en) Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning, Springer, 2013 (lire en ligne).

[ESL-4] {a et b} (en) Trevor Hastie, Robert Tibshirani et Jerome H. Friedman, The Elements of Statistical Learning, 2009 (lire en ligne [archive du 26 janvier 2015]).

[5] (en) Sethu Vijayakumar, « The Bias–Variance Tradeoff », University of Edinburgh, 2007 (consulté le 19 août 2014).

[6] (en) Greg Shakhnarovich, « Notes on derivation of bias-variance decomposition in linear regression » [archive du 21 août 2014], 2011 (consulté le 20 août 2014).

[7] Pedro Domingos « A unified bias-variance decomposition » (2000) (lire en ligne)
—ICML.

[8] Giorgio Valentini et Thomas G. Dietterich, « Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods », Journal of Machine Learning Research, vol. 5,‎ 2004, p. 725–775 (lire en ligne).

[9] Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008, 308–314 p. (lire en ligne), « Vector Space Classification ».

[10] (en) David Belsley, Conditioning diagnostics : collinearity and weak data in regression, New York (NY), Wiley, 1991 (ISBN 978-0471528890).

[11] (en) Francesco Gagliardi, « Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction », Artificial Intelligence in Medicine, vol. 52, n^o 3,‎ mai 2011, p. 123–139 (PMID 21621400, DOI 10.1016/j.artmed.2011.04.002, lire en ligne).

[12] (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, 2011 (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615.

[13] (en) Scott Fortmann-Roe, « Understanding the Bias–Variance Tradeoff », 2012.

[14] (en) Gerd Gigerenzer et Henry Brighton, « Homo Heuristicus: Why Biased Minds Make Better Inferences », Topics in Cognitive Science, vol. 1, n^o 1,‎ 2009, p. 107–143 (PMID 25164802, DOI 10.1111/j.1756-8765.2008.01006.x, hdl 11858/00-001M-0000-0024-F678-0 ).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]