Régression polynomiale

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Régression polynomiale cubique (degré 3) :
  • la courbe verte est la courbe ayant servi à générer les données (on y a ajouté un bruit alatoire) ;
  • la courbe bleue est le graphe du polynôme obtenu par régression ;
  • l'intervalle de confiance, en rouge, a été obtenu par la méthode de Scheffé.
Régression sur un nuage de points par un polynôme de degré croissant.

La régression polynomiale est une analyse statistique qui décrit la variation d'une variable aléatoire expliquée, appelée ici Y, en fonction d'une variable aléatoire explicative, appelée ici X. On cherche, par régression, à lier les variables par un polynôme de degré n.

Si l'on appelle (Xi, Yi) la i-ème réalisation du couple de variables aléatoires, on recherche le polynôme

Pn(x) = an×xn + an - 1×xn - 1 + … + a1×x + a0

permettant d'écrire

Yi = Pn(Xi) + εi

le résidus εi, ou perturbation, étant « le plus petit » dans le sens des moindres carrés.

La régression polynomiale est une régression multilinéaire : on peut écrire la relation

Yi = an×Xn, i + an - 1×Xn - 1, i + … + a1×X1, i + a0 + εi

avec Xj, i = Xij.

Cas particuliers[modifier | modifier le code]

Le calcul de la moyenne est une régression polynomiale de degré 0.

La régression linéaire est une régression polynomiale de degré 1.

Applications[modifier | modifier le code]

Un certain nombre de lois physiques s'expriment sous la forme de polynômes. La régression polynomiale permet alors d'estimer les valeurs des paramètres de la loi.

La méthode de lissage et de dérivation de Savitzky-Golay utilise une régression polynomiale sur un intervalle glissant.

Résolution[modifier | modifier le code]

Considérons un jeu de données (Xi, Yi)1 ≤ in. On veut effectuer une régression par un polynôme de degré trois :

P3(x) = a×x3 + b×x2 + c×x + d.

Le carré du résidu s'écrit :

ε2 = (P3(x) - y)2

soit

\begin{align}
\varepsilon^2 =\ x^6 a^2 + 2x^5 ab + 2x^4 ac + 2x^3 ad - 2x^3 y a \\ + x^4 b^2 + 2x^3 bc + 2x^2 bd - 2x^2y b \\ + x^2 c^2 + 2x cd - 2xy c \\ + d^2 - 2y d \\ + y^2\text{.}
\end{align}

Les valeurs (abcd) minimisent la somme des carrés des résidus e

e = ∑i ε2i.

On appelle

Sj = ∑i Xij,

et

Tj = ∑i Xij×Yi.

Si le paramètre a est plus élevé ou plus bas, la valeur de e augmente. La valeur de e est donc minimale pour le a recherché, c'est-à-dire que la dérivée partielle de e par rapport à a doit être nulle :

\frac{\partial e}{\partial a} = 0 \Longrightarrow 2a \mathrm{S}_6 + 2b \mathrm{S}_5
+ 2c\mathrm{S}_4 + 2d\mathrm{S}_3 - 2 \mathrm{T}_3 = 0.

On peut faire de même pour chaque paramètre, ce qui donne un système d'équations linéaires :

\begin{pmatrix}
\mathrm{S}_6 & \mathrm{S}_5 & \mathrm{S}_4 & \mathrm{S}_3 \\
\mathrm{S}_5 & \mathrm{S}_4 & \mathrm{S}_3 & \mathrm{S}_2 \\
\mathrm{S}_4 & \mathrm{S}_3 & \mathrm{S}_ 2 &\mathrm{S}_1 \\
\mathrm{S}_3 & \mathrm{S}_2 & \mathrm{S}_1 & n
\end{pmatrix} \cdot
\begin{pmatrix}a \\ b \\ c \\ d \end{pmatrix}
- \begin{pmatrix} \mathrm{T}_3 \\ \mathrm{T}_2 \\\mathrm{T}_1 \\ \mathrm{T}_0
\end{pmatrix}
 = \begin{pmatrix}0 \\ 0 \\ 0 \\ 0 \end{pmatrix}\text{.}

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :