Régression (statistiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Régression.

La régression est un ensemble de méthodes statistiques très utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres.

Pendant longtemps, la régression d'une variable aléatoire y sur le vecteur de variables aléatoires x désignait la moyenne conditionnelle de y sachant x. Aujourd'hui, le terme de régression désigne tout élément de la distribution conditionnelle de y sachant x considérée comme une fonction de x. On peut par exemple s'intéresser à la moyenne conditionnelle, à la médiane conditionnelle, au mode conditionnel, à la variance conditionnelle[1]...

Systèmes d'équations et fonction d'erreur[modifier | modifier le code]

Un système d'équations ne peut avoir de solution exacte que si le nombre d'équations indépendantes est égal au nombre d'inconnues. On parle de régression lorsque l'on a plus d'équations indépendantes que d'inconnues (système surdéterminé).

De manière concrète, on a une fonction admettant un ou plusieurs paramètres ai :

y = f_{a_1, \ldots, a_m}(x)

on dispose d'un certain nombre de résultats de mesure, sous la forme de couples (xi, yi)1 ≤ in ; ce sont les réalisations de variables aléatoires (X, Y). La régression consiste à estimer les paramètres (a1, …, am) tels que la fonction ƒ décrive « le mieux » les résultats de mesure. On cherche donc à résoudre le système d'équations

\left \{ \begin{align}
y_1 & = & f_{a_1, \ldots, a_m}(x_1) + e_1 \\
\vdots \\
y_n & = & f_{a_1, \ldots, a_m}(x_n) + e_n \\
\end{align} \right .

les ei, appelés « résidus » ou « erreurs », devant être le plus petit possible. Nous avons nécessairement nm. Si l'inégalité est stricte — n > m, système surdéterminé —, la solution est nécessairement approximative, on cherche alors à minimiser une fonction d'erreur, ou résidus, E :

\left \{ \begin{align}
e_i =\ & f_{a_1, \ldots, a_m}(x_i) - y_i \\
\mathrm{E} =\ & \| e_1, \ldots, e_n \|
\end{align} \right .

où ||…|| désigne une norme. On choisit en général la norme euclidienne, ou norme ℓ2, on parle alors de méthode des moindres carrés ; c'est la méthode la plus employée, mais ce n'est pas systématique.

Lissage par l'algorithme de Savitzky-Golay, utilisant une régression polynomiale. En présence de points aberrants, la norme ℓ1 (2) est plus robuste que les moindres carrés (1).

La méthode des moindres carrés consiste à minimiser la variance en supposant que e ait une espérance nulle ; elle est donc bien appliquée au cas où les résidus ei suivent une loi normale centrée. Dans un certain nombre de cas, elle permet par ailleurs d'avoir une solution simple au problème (notamment pour la régression linéaire). Toutefois, si l'échantillon présente des valeurs aberrantes, l'utilisation de la somme des valeurs absolues (norme ℓ1) est plus robuste. Cela se comprend bien : un point aberrant a un résidu important, et l'élévation au carré augmente le poids relatif de ce point. La régression avec la norme ℓ1 est utilisée en traitement du signal[2].

Modélisation par un polynôme ; plus le degré augmente, plus les résidus diminuent, mais ce que l'on décrit a-t-il un sens ?

Notons que si la norme des résidus E doit être le plus petit possible, un E nul ne signifie pas nécessairement un résultat de qualité. En effet, les phénomènes réels présentant des dispersions inévitables (bruit), un des principes est d'effectuer de nombreuses mesures — chaque mesure fournissant une équation — afin de « moyenner le bruit », cette moyenne étant idéalement nulle (résidus d'espérance nulle, pas d'erreur systématique). L'exemple le plus simple consiste à effectuer plusieurs fois la même mesure — plusieurs valeurs y pour une même valeur x —, et à estimer l'espérance de la variable aléatoire à partir de la moyenne de ces valeurs. Mais on peut aussi effectuer des mesures en plusieurs points pour ajuster la fonction modèle.

Si E est très faible, cela peut signifier que le bruit est très faible et que la régression est bonne. Mais cela peut aussi signifier que l'on n'a pas assez de mesures. En particulier, si E est nul, c'est que l'on a autant de mesures que de paramètres à ajuster, ce qui est insuffisant si le bruit est important. Cela peut aussi indiquer que l'on a utilisé un modèle inadapté, en particulier si ce modèle est empirique (n'a pas de signification physique) ; par exemple, on utilise une fonction polynôme de degré trop élevé.

Les principaux modèles de régression[modifier | modifier le code]

Le modèle de régression le plus connu est le modèle de régression linéaire.

Lorsque le modèle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.

Si on s'intéresse au quantile conditionnel de la distribution de la variable aléatoire y sachant le vecteur de variables aléatoires x, on utilise un modèle de régression quantile[3],[4].

Si la variable expliquée est une variable aléatoire binomiale, il est courant d'utiliser une régression logistique ou un modèle probit.

Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modèle de régression non paramétrique.

Voir aussi[modifier | modifier le code]

Sources[modifier | modifier le code]

Références[modifier | modifier le code]

  1. (en) Charles Manski, « Regression », Journal of Economic Literature, vol. 29, no 1,‎ mars 1991, p. 34-50 (lire en ligne)
  2. (en) David L. Donoho et Yaakov Tsaig, « Fast Solution of ℓ1-norm Minimization Problems When the Solution May be Sparse », IEEE Transactions on Information Theory, vol. 54, no 11,‎ novembre 2008, p. 4789-4812 (lire en ligne)
  3. (en) Roger Koenker et G. Bassett, « Regression quantiles », Econometrica,‎ 1978, p. 33-50
  4. (en) Roger Koenker, Quantile Regression, Cambridge University Press,‎ 2005