Régression linéaire
En statistiques et en économétrie, un modèle de régression linéaire est un modèle de régression d'une variable expliquée sur une ou plusieurs variables explicatives dans lequel on fait l'hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire dans ses paramètres.
Formellement, on modèlise la relation entre une variable aléatoire y et un vecteur de variables aléatoires x. De manière générale, le modèle linéaire peut s'écrire de la manière suivante :

y désigne la variable expliquée. Le vecteur x désigne l'ensemble des variables explicatives :
. u désigne le terme d'erreur. Il est parfois appelé perturbation.
On suppose qu'on dispose de données sur les variables
. On cherche à estimer le vecteur
des paramètres :
. La régression est dite linéaire parce qu'elle impose une forme fonctionnelle linéaire dans les paramètres du modèle.
On parle aussi de modèle linéaire ou de modèle de régression linéaire.
En général, le modèle de régression linéaire désigne un modèle dans lequel l'espérance conditionnelle de y sachant x est une transformation affine de x. Cependant, on peut aussi considérer des modèles dans lesquels c'est la médiane conditionnelle de y sachant x ou n'importe quel quantile de la distribution de y sachant x qui est une transformation affine de x[1].
Le modèle de régression linéaire est souvent estimé par la méthode des moindres carrés mais il existe aussi de nombreuses autres méthodes pour estimer ce modèle. On peut par exemple estimer le modèle par maximum de vraisemblance ou encore par inférence bayésienne.
Bien qu'ils soient souvent présentés ensemble le modèle linéaire et la méthode des moindres carrés ne désignent pas la même chose. Le modèle linéaire désigne une classe de modèles qui peuvent être estimés par un grand nombre de méthodes et la méthode des moindres carrés désigne une méthode d'estimation. Elle peut être utilisée pour estimer différents types de modèles.
Histoire [modifier]
Ruđer Josip Bošković est le premier scientifique à calculer les coefficients de régression linéaire, en 1755-1757, quand il entreprit de mesurer la longueur de cinq méridiens terrestres en minimisant la somme des valeurs absolues[3]. Pierre-Simon de Laplace utilise cette méthode pour mesurer les méridiens dans « Sur les degrés mesurés des méridiens et sur les longueurs observées sur pendule » en 1789[3]. La première utilisation de la méthode des moindres carrés est attribuée à Adrien-Marie Legendre en 1805 [4] ou à Carl Friedrich Gauss qui dit l'avoir utilisée à partir de 1795[3].
Carl Gauss démontre, en 1821, le théorème connu aujourd'hui sous le nom de théorème de Gauss-Markov qui exprime sous certaines conditions la qualité des estimateurs, Andrei Markov le redécouvre en 1900[5].
C'est à Francis Galton qu'est accordée la pérennité de l'expression « régression linéaire » en 1886[3]. Dans son article, Galton exprime la taille des fils en fonction de la taille des pères. Il constate un phénomène de « régression vers la moyenne »[6].
Plus tard la colinéarité des variables explicatives est devenue un sujet de recherche important. En 1970, Arthur E. Hoerl et Robert W. Kennard proposent la Régression pseudo-orthogonale (Ridge Regression), une des méthodes d'estimation conçues pour pallier la présence de colinéarité de certaines variables explicatives en imposant des contraintes sur les coefficients[7]. La méthode du lasso (Lasso Regression), ayant le même objectif en utilisant une technique analogue, a été créée en 1996 par Robert Tibshirani[8]. Avec les méthodes de régression sur composantes (régression des moindres carrés partiels (PLS) et régression sur composantes principales), les algorithmes recherchent des variables explicatives indépendantes liées aux variables initiales, puis estiment les coefficients de régression sur les nouvelles variables[9].
Applications [modifier]
Le modèle de régression linéaire a de nombreuses applications pratiques. Il permet notamment de faire des analyses de prédiction. Après avoir estimé un modèle de régression linéaire, on peut prédire quel serait le niveau de y pour des valeurs particulières de x.
Il permet également d'estimer l'effet d'une variable sur une autre en contrôlant par d'autres facteurs. Par exemple, dans le domaine des sciences de l'éducation, on peut évaluer l'effet de la taille des classes sur les performances scolaires des enfants en contrôlant par la catégorie socio-professionnelle des parents ou par l'emplacement géographique de l'établissement.
En métrologie [modifier]
Un certain nombre de phénomènes — physiques, biologiques, économiques… — peuvent se modéliser par une loi affine, de type :
- y = ƒa0, a1…, an(x1, …, xn ) = a0 + a1·x1 + … + an·xn
Les paramètres de cette loi, c'est-à-dire les coefficients ai, permettent de caractériser le phénomène. On effectue donc des mesures, c'est-à-dire que l'on détermine des n+1-uplets (x1, …, xn, y).
Une mesure est nécessairement entachée d'erreur. C'est cette erreur qui « crée » le résidu r : chaque n+1-uplet j fournit une équation
- yj = ƒa0, a1, …, an(x1, j, …, xn, j ) = a0 + a1·x1, j + … + an·xn, j + rj
La régression linéaire permet de déterminer les paramètres du modèle, en réduisant l'influence de l'erreur.
Par exemple, en électricité, un dipôle passif (résisteur) suit la loi d'Ohm :
- U = RI
- ou, pour reprendre la notation précédente,
- y = U,
- x = I,
- ƒR(x) = 0 + R·x.
En mesurant plusieurs valeurs de couple (U, I), on peut déterminer la résistance R par régression.
En économétrie [modifier]
Le modèle linéaire est très utilisé en économétrie. Il est présenté dans de très nombreux manuels d'économie[10].
Dans leur manuel Colin Cameron et Pravin Trivedi donnent l'exemple de l'évaluation des rendements de l'éducation. On cherche à évaluer l'effet d'une année d'éducation supplémentaire sur le salaire qu'un individu obtient sur le marché du travail. Pour cela, il est courant d'écrire le log du salaire comme une fonction linéaire du nombre d'années d'éducation et d'un certain nombre de facteurs observables ayant une influence potentielle sur le salaire, par exemple le nombre d'année d'expérience sur le marché du travail, le fait d'être une femme, etc. Dans ce cas, le modèle peut alors s'écrire :

avec
le salaire de l'individu i,
le nombre d'années d'éducation de l'individu i,
le nombre d'années d'expérience sur le marché du travail de l'individu i,
une variable indicatrice valant 1 si i est une femme et 0 sinon et
une variable aléatoire représentant l'ensemble des variables non observées dans les données pouvant expliquer le salaire de l'individu i[11]. On trouve de nombreux exemples dans la littérature économique :
- En économie de l'éducation, Joshua Angrist et Victor Lavy utilisent un modèle linéaire pour estimer l'effet causal de la taille des classes sur les performances scolaires des élèves[12]
- Gregory Mankiw, David Romer et David Weil utilisent un modèle linéaire pour tester empiriquement la pertinence du modèle de Solow[13].
- Steven Levitt utilise un modèle linéaire pour estimer l'effet du nombre de policiers sur la criminalité[14].
- Daron Acemoglu, Simon Johnson et James Robinson utilisent une régression linéaire pour estimer l'effet des institutions sur le développement actuel des pays[15].
- Jonathan Gruber et Daniel Hungerman utilisent un modèle linéaire pour analyser sur données américaines l'effet des lois autorisant le travail le dimanche sur la participation religieuse[16].
En sciences politiques [modifier]
Andrew Gelman et Gary King utilisent un modèle linéaire pour estimer l'avantage des candidats sortants lors des élections à la chambre des représentants des États-Unis[17].
En France, l'analyse des scrutins de 1993 et 1997 au niveau national et au niveau local par Jean Chiche, utilisant la régression linéaire, montre que l'effet balancier droite modérée - PS n'est pas clairement établi contrairement à ce pouvait laisser penser les résultats. Des transferts de voix de la gauche modérée vers le PC, et de la droite modérée vers l'extrême droite (et réciproquement) ont eu lieu[18]. De même Bernard Dolez explique le scrutin européen de 1999 en utilisant plusieurs fois la régression linéaire multiple[19].
En sociologie [modifier]
La structure sociale européenne est analysée, par exemple, à l'aide de la régression linéaire entre l'écart type du niveau de revenu et celui du niveau d'éducation [20]. Patrick Peretti-Watel utilise la régression linéaire pour évaluer l'estime de soi en fonction du niveau de consommation de cannabis, de l'age et du sexe [21], et Alain Degenne, Marie-Odile Lebeaux , et Catherine Marry, qui se demandent comment s'organisent les personnes dont la vie est occupée par de multiples activités, emploient la régression linéaire multiple pour exprimer des réponses [22].
En psychologie [modifier]
Philippe Guimard, Olivier Cosnefroy et Agnès Florin analysent l'évaluation des élèves de l'école primaire par les enseignants en exploitant le modèle linéaire en vue d'apprécier le pouvoir prédictif de ces évaluations[23].
En géographie [modifier]
L'étude de la pluviométrie en fonction de l'altitude dans les Alpes du Nord effectuée par C.Castellani montre les relations linéaires existantes entre ces deux grandeurs sur des sites différents[24]. Nicole Commerçon exploite plusieurs fois le modèle linéaire pour décrire la présence des résidences secondaires dans le Mâconnais[25].
En géostatistique, Yann Richard et Christine Tobelem Zanin, utilisent la régression linéaire multiple pour décrire la régionalisation des échanges entre la Russie et l'Union européenne[26].
En mécanique [modifier]
Une pièce réelle comporte forcément des défauts par rapport au plan, sa version idéale. Or, la rectitude et l'orientation d'une arête, la planéité et l'orientation d'une face peuvent être importantes, par exemple s'il s'agit de contacts avec d'autres pièces.
Pour quantifier les défauts, on peut faire un relevé de points par la méthode dite de la métrologie par coordonnées. On obtient donc un ensemble de coordonnées (xi, yi, zi). Ces coordonnées peuvent aussi provenir d'un calcul de déformation par éléments finis : on a une structure supposée parfaite qui se déforme de manière élastique sous l'effet de charges, et l'on veut vérifier que cette déformation reste compatible avec la fonction de la structure.
Pour une arête, une régression linéaire permet d'obtenir la direction moyenne d'une arête, et donc de vérifier si cette direction est suffisamment proche de la direction idéale, et de quantifier les écarts de rectitude. De même, pour une face, une régression linéaire permet de déterminer le plan moyen, et donc de vérifier si son orientation est suffisamment proche de l'orientation idéale, et de quantifier l'état de surface (RA).
Application à des modèles non linéaires [modifier]
Dans certains cas, on peut ajuster un modèle non linéaire en effectuant un changement de variable. Par exemple, si l'on a un modèle parabolique
il suffit de considérer
et de faire la régression sur (x', y). Par exemple, lorsque l'on s'intéresse à l'oxydation à haute température d'un métal formant un oxyde protecteur, une étude théorique prédit que la prise de masse a un comportement parabolique en fonction du temps (loi d'oxydation de Wagner), Δm α √t. On peut mesurer cette prise de masse par thermogravimétrie, mais le système qui mesure de très faibles variations de masse (de l'ordre du microgramme) est très sensible aux perturbations, ce qui génère du bruit. La régression linéaire avec x = √t et y = Δm permet de caractériser la cinétique d'oxydation.
De fait, pour une loi en puissance de x — y α xn où n est un nombre réel —, on peut poser x' = xn. Et de manière encore plus générale, si le modèle fait intervenir une fonction ƒ élémentaire dans une formule affine
- y = a + b·ƒ(x)
on peut alors faire le changement de variable x' = ƒ(x) pour avoir une relation affine
- y = a + b·x'.
On peut parfois linéariser la relation en se plaçant en diagramme logartihmique :
- si y = axn, alors ln(y) = ln(a) + n·ln(x)
donc le changement de variable x' = ln(x) et y' = ln(y) donne une relation affine
- y' = a' + n·x'.
La transformation peut être plus complexe. Par exemple, si une variable aléatoire suit une loi de Weibull, alors on peut se ramener à un diagramme linéaire à partir de relevés de probabilités y = P(x)[Note 1] :
- en considérant les probabilités cumulées : la fonction de répartition vaut
; - en effectuant le changement de variable x' = ln(x) et y' = ln(-ln(1 - F)), on a alors
;
la régression linéaire permet alors de déterminer les valeurs de k et de λ.
Dans certains cas, on peut linéariser en se plaçant dans un espace de dimension supérieur. Si l'on est dans un espace à deux dimensions (x, y) et que l'on veut ajuster un modèle polynomial de degré n,
- ƒa0, a1, …, an(x) = a0 + a1x + … + anxn
on peut définir les variables
- xi = xi
et effectuer une régression avec le modèle linéaire, la variable explicative étant le vecteur (x1, …, xn) :
- ga0, a1, …, an(x1, …, xn) = a0 + a1x1 + … + anxn.
Dans le même ordre d'idées, si le modèle est un cercle, d'équation cartésienne
- (x - xc)2 + (y - yc)2 = r2 ;
on peut définir les variables
- y1 = x2 + y2 ;
- x1 = x ;
- x2 = y ;
et effectuer une régression avec le modèle linéaire, la variable expliquée étant y1 et la variable explicative étant le vecteur (x1, x2) :
- ƒa0, a1, a2(x1, x2) = a0 + a1x1 + a2x2
et déduire xc, yc et r de
- a1 = 2xc ;
- a2 = 2yc ;
- a0 = r2 - xc2 - yc2.
Bien que l'on ait effectué une régression par la méthode des moindres carrés dans l'espace (x1, x2, y1), on n'a pas le résultat que l'on obtiendrait avec une régression par la méthode des moindres carrés dans l'expace (x, y).
Considérons maintenant des positions relevées sur une sphère ; il peut s'agir de localisations géographiques, mais un point d'une sphère de référence (centrée sur l'origine du repère et de rayon 1) peut aussi servir à représenter une orientation (voir Coordonnées sphériques > Utilisation). Une régression sur ces points n'est évidemment pas linéaire.
En projection gnomonique, un grand cercle (orthodromie) est représenté par une droite. Si l'on veut trouver la « meilleure orthodromie » pour un jeu de points — par exemple trouver l'orbite d'un satellite devant survoler au plus près un ensemble de sites —, on peut donc effectuer une régression linéaire sur la représentation gnomonique[27].
Modèle linéaire simple [modifier]
On appelle généralement modèle linéaire simple un modèle de régression linéaire avec une seule variable explicative[28]. Ce modèle est souvent présenté dans les manuels de statistiques à des fins pédagogiques.
Il a par ailleurs de nombreuses applications directes : il existe de nombreuses lois affines liant deux paramètres. Par ailleurs, pour une loi reliant plus de paramètres, lorsque l'on peut maîtriser des paramètres (comme c'est le cas en physique expérimentale), on étudie fréquemment l'influence d'un seul paramètre sur une quantité, influence qui peut parfois être modélisée par une loi affine. Ainsi, dans l'étude des gaz, la loi de Gay-Lussac est une loi liant de manière affine le volume d'un gaz et sa température, la pression et le nombre de molécules étant maintenus constants ; c'est un cas particulier de la loi des gaz parfaits
On a donc deux variables aléatoires, une variable expliquée Y, qui est un scalaire, une variable explicative X, également scalaire. On dispose de n réalisations de ces variables, (xi)1 ≤ i ≤ n et (yi)1 ≤ i ≤ n. Le modèle a deux paramètres :
- β0, l'ordonnée à l'origine ;
- β1, le coefficient directeur ;
soit
ou ui est le résidu ; chaque résidu lui-même une réalisation d'une variable aléatoire Ui.
Estimateur des moindres carrés ordinaires [modifier]
L'estimateur des moindres carrés ordinaires est la solution du programme de minimisation de la somme des carrés des écarts entre les valeurs prédites et les valeurs observées par rapport aux deux paramètres β0 et β1[29] :
On a :
avec
la moyenne empirique des
et
la moyenne empirique des
.
Les valeurs (xi, yi) étant fixées, l'estimateur S est une fonction de deux variables, S(β0, β1). On recherche son minimum, ses dérivées partielle sont donc nulles.
On a
En dérivant par rapport aux deux arguments, on obtient[30] :
soit
et donc
et
avec
la moyenne empirique des
et
la moyenne empirique des
CQFD.
On peut également exprimer le résultat de la manière suivante :
On remarque que
où cov est la covariance empirique ;
où var est la variance ;
on peut donc écrire
CQFD
Notons que du fait de la seconde relation, la droite de régression passe par le barycentre (point moyen) du nuage de points, qui a pour coordonées G(x, y).
Considérons le dessin ci-dessus. Nous avons quatre points expérimentaux, de coordonnées :
- P1(1 ; 6) ;
- P2(2 ; 5) ;
- P3(3 ; 7) ;
- P4(4 ; 10).
Nous calculons
Nous savons donc que la droite de régression passe par le point G(2,5 ; 7). Et donc :
L'équation de la droite de régression est donc
- y = 1,4x + 3,5
Nous pouvons comparer les valeurs expérimentales de y avec les valeurs calculées (sur la droite de régression).
| i | x | yexp | ycal | u |
|---|---|---|---|---|
| 1 | 1 | 6 | 4,9 | 1,1 |
| 2 | 2 | 5 | 6,3 | -1,3 |
| 3 | 3 | 7 | 7,7 | -0,7 |
| 4 | 4 | 10 | 9,1 | 0,9 |
Par ailleurs, si l'on suppose (hypothèses du Théorème de Gauss-Markov, voir ci-après) que les variables aléatoires Ui :
- sont centrées (hypothèse d'exogénéité) : E(Ui) = 0 ;
- ont la même variance (hypothèse d'homoscédasticité) ;
- sont indépendantes (hypothèse de non-corrélation), E(UiUj)i ≠ j = 0 ;
alors on a :
où
- u est la moyenne empirique des Ui,
; - var est la variance empirique,
.
Avec ces hypothèses, les estimateurs
sont les meilleurs estimateurs sans biais (B.L.U.E.[Note 2]) de β0 et β1, dans le sens où ce sont les estimateurs sans biais de plus petite variance.
Coefficient de corrélation linéaire [modifier]
Le minimum de la somme des carrés des résidus vaut :
.
On a donc
Comme chacun des termes est positif, il faut minimiser chacun des termes. On a
soit
.
Cette définition est similaire à une équation du second degré en β1. On peut écrire sa forme canonique :
qui est minimal pour β1 = cov(X, Y)/var(X), et avec
Concernant le deuxième terme :
donc
donc le minimum de u2 est 0, CQFD.
On a :
- var(X) ≠ 0 ;
- var(Y) ≠ 0 ;
- var(X)var(Y) ≥ cov2(X, Y)
donc si l'on pose
on a
- -1 ≤ r ≤ 1.
La paramètre r est appelé coefficient de corrélation. On a alors
- S = n·var(Y)·(1 - r2)
En reprenant l'exemple ci-dessus :
Nous n'avons donc pas une bonne corrélation. Nous avons en effet volontairement choisi un exemple avec peu de points et une dispersion importante, afn d'avoir des calculs simples et de bien visualiser les résidus.
Les variables X et Y sont d'autant mieux corrélées que |r| est proche de 1 ; la somme S est alors proche de 0. Si r = 0, la somme S est maximale et les variables ne sont pas corrélées, c'est-à-dire que le modèle linéaire n'est pas pertinent.
La frontière entre « bonne » et « mauvaise » corrélation, c'est-à-dire la réponse à la question « Le modèle linéaire est-il pertinent ? », n'est pas universelle. Dans un domaine où la mesure est précise et les phénomènes stables, on pourra estimer que les données sont fortement corrélées si |r| ≥ 0,95. Dans des domaines où la mesure est moins précise, et notamment dans les sciences humaines, on se contentera parfois de r2 ≥ 3/4 (soit |r| ≥ 0,56).
Analyse de la variance [modifier]
On peut écrire pour tout i :
- (yi - y) = β1(xi - x) + ui
soit
On note :
- somme des carrés totale, SCT = ∑(yi - y)2 ;
- somme des carrés expliqués, SCE = β12·∑(xi - x)2 ;
- somme des carrés résiduels, SCR = ∑ui2 ;
et ainsi :
- SCT = SCE + SCR
- r = SCE/SCT.
Dans l'exemple précédent, nous avons :
- SCT = 14
- SCE = 1,42×5 = 9,8
- SCR = 1,12 + (-1,3)2 + (-0,7)2 + 0,92 = 4,2
Précision sur les paramètres β0 et β1 [modifier]
Nous ajoutons l'hypothèse que les résidus suivent des lois normales (hypothèse de normalité des termes d'erreur).
Les estimations des paramètres β0 et β1 sont des réalisations des variables aléatoires :
qui suivent elles aussi des lois normales.
On peut montrer que l'on a
- β1 = E(B1)
- β0 = E(B0)
Les variances empiriques valent :
Or,
donc
.
Pour la variance de U, plutôt que la variance empirique var(u), on a intérêt à utiliser l'estimateur sans biais σ*2 défini par :
- σ*2 = SCR/(n - 2).
On peut ainsi calculer les estimateurs des écarts types :
.
Les variables aléatoires B0 et B1 suivant des lois normales, on peut en déduire la précision de l'estimation des paramètres β0 et β1 en considérant un intervalle de confiance donné (par exemple Δ = 3σ/√n pour un intervalle de confiance de 99,7 %).
Toujours avec le même exemple :
- σ*2 = 4,2/(4-2) = 2,1
- var(β1) = 2,1/5 = 0,42 ; σβ1 ≈ 0,648
- var(β0) = 2,1×(2,52/5 + 1/4) ≈ 1,189 ; σβ0 ≈ 1,090
Comme nous avons peut d'échantillons, il faut utiliser la loi de Student. Pour un niveau de confiance de 95 % et n - 1 = 3 degrés de liberté, nous avons t = 3,182 et donc :
- Δβ1 = 3,182×0,648/√4 ≈ 1,031
- Δβ0 = 3,182×1,090/√4 ≈ 1,735
et donc, pour un niveau de confiance de 95 % :
- β1 = 1,4 ± 1,031
- β0 = 3,5 ± 1,735
Tests de nullité [modifier]
Si les valeurs de β0 ou de β1 sont faibles, on peut se demander si elles sont significativement différentes de zéro. Le test de nullité consiste à regarder si 0 est dans l'intervale de confiance de β0 ou de β1, intervalle défini ci-dessus avec l'hypothèse de normalité.
Le test de nullité de β1 est appelé « test d'indépendance des variables ». En effet, si β1 = 0 (ou, plus précisément, si β1 n'est pas significativement différent de zéro), alors X et Y ne sont pas liés.
Si l'on a β0 = 0 (ou, plus précisément, si β0 n'est pas significativement différent de zéro), alors on peut utiliser une loi strictement linéaire
- y = β1·x
et l'on a alors :
Prévision statistique [modifier]
Le but de la régression est d'établir la loi y = ƒ(x). Une fois cette loi estimée, on va chercher à prédire une valeur de y pour une valeur de x donnée ; on note y* cette valeur estimée,
- y* = β0 + β1x
Il faut donc donner un intervalle de confiance pour cette valeur de y*. On peut donner deux réponses différentes à cette question.
La valeur y* est censée être l'espérance de la variable aléatoire Y(x) en ce point x donné : si l'on fait, disons, 1 000 mesures de Y, la moyenne E(Y(x)) de ces valeurs devrait être y*. On peut donc se demander avec quelle précision ΔE(Y(x)) on estime E(Y(x)). Pour un risque α donné, nous voulons pouvoir dire : j'ai α chances que E(Y(x)) soit dans l'intervalle [y* - ΔE(Y(x)) ; y* + ΔE(Y(x))].
Nous avons :
où t est la loi de Student à n - 2 dergés de liberté pour un risque α. Lorsque x varie, les limites de l'intervalle d econfiance décrivent une hyperbole.
L'autre question est : si je fais une mesure de Y(x), j'aurai une valeur différente de y* ; quel est l'intervalle de confiance Δy pour un risque α donné ? Nous voulons donc pouvoir dire : j'ai α chances que le y mesuré soit dans l'intervalle [y* - Δy ; y* + Δy].
Si x est proche de x, c'est-à-dire si (x - x)2 est négligeable devant ∑(xi - x)2, et si n est grand, c'est-à-dire si 1/n est négligeable devant 1, alors on a un intervale de confiance
Sous ces hypothèses, on voit que Δy est constant, c'est-à-dire que l'on a une bande de confiance parallèle à la droite de régression.
L'expression exacte est
On voit que cet intervalle augmente lorsque l'on s'éloigne de x. Cela montre en particulier qu'une extrapolation, c'est-à-dire le fait d'utiliser la loi trouvée en dehors du domaine des points expérimentaux [x1 ; xn] (en supposant les abscisses classées par ordre croissant), comporte un risque statistique.
Pour un niveau de confiance de 95 % et deux degrés de liberté, nous avons
- t = 4,303
donc
ce qui permet de dresser le tableau suivant.
| i | x | y* | ΔE(Y(x)) |
|---|---|---|---|
| 1 | 1 | 4,9 | 5,217 |
| 2 | 2 | 6,3 | 3,415 |
| 3 | 3 | 7,7 | 3,415 |
| 4 | 4 | 9,1 | 5,217 |
Nous avons également
Les conditions ne permettent pas de faire l'approximation « Δy est constant » ; toutefois, nous allons le calculer afin de d'évaluer l'erreur que l'on commettrait :
- Δy0 = 4,303×√2,1 = 6,236.
| i | x | y* | Δy |
|---|---|---|---|
| 1 | 1 | 4,9 | 8,130 |
| 2 | 2 | 6,3 | 7,110 |
| 3 | 3 | 7,7 | 7,110 |
| 4 | 4 | 9,1 | 8,130 |
Là encore, nous constatons que nous n'avons pas assez d'échantillons par rapport à la dispersion.
Comparaison de deux séries [modifier]
Lorsque l'on a deux séries de données, on peut se demander si elles obéissent à la même loi, auquel cas on peut prendre l'ensemble des données pour effectuer la régression. À l'inverse, on peut vouloir scinder une série de données en deux pour modéliser chaque sous-ensemble par une loi différente.
Le test de Chow est utilisé pour estimer si deux jeux de données suivent des lois significativement différentes.
Démarche globale [modifier]
Pour résumer, face à des données pour lesquelles on veut appliquer une loi affine :
- On calcule le coefficient de corrélation r, ce qui nous indique si une loi affine est pertinente. Si ce n'est pas le cas, il faut trouver une autre loi, ou bien envisager de collecter plus de données…
- On détermine les coefficients de la droite, β0 et β1, par régression linéaire.
- On teste la non-nullité de β1 ; si β1 n'est pas significativement différent de zéro, on en conclue que les données ne sont pas corrélées.
- On teste la non-nullité de β0 ; si β0 n'est pas significativement différent de zéro, on recalcule β1 pour une droite passant par 0.
- On calcule, pour un niveau de confiance donné, la précision sur β0 et β1.
- On calcule, pour un niveau de confiance donné, la précision sur y.
Moindres carrés des écarts d'abscisse [modifier]
Ci-dessous, nous avons considéré le résidu en ordonnée, le résidu « vertical ». Cette hypothèse est pertinente si les valeurs de x sont connues sans erreur, ou du moins si la variance sur X est plus petite que la variance sur Y.
Dans le cas contraire, on peut considérer le résidu en abscisse, « horizontal ». Le modèle est alors la droite d'équation
- x = β'1y + β'0.
On inverse simplement les axes x et y, et on trouve de manière symétrique :
Dans le cas général, cette droite est différente de la précédente. Elle passe également par le centre de gravité.
Si l'on veut se ramener à une équation y = ƒ(x)
- y = β1x + β0
il suffit de poser
Régression orthogonale [modifier]
Si les erreurs sur x et sur y sont de même ordre de grandeur, alors il est plus pertinent d'effectuer une « régression orthogonale » ou « régression géométrique » : pour chaque point expérimental i, l'erreur di considérée est la distance du point à la droite modèle, c'est-à-dire la distance prise perpendiculairement à la droite — d'où le terme orthogonal.
On considère toujours la méthode des moindres carrés, que l'on nomme alors « moindre carrés totaux » (MCT) :
- S = ∑di2.
On a alors
avec
et toujours
voir http://mathworld.wolfram.com/LeastSquaresFittingPerpendicularOffsets.html
Cette droite de régression ne passe en général pas par le centre de gravité.
Si l'on impose β0 = 0, on a alors :
Modèle général [modifier]
Notations [modifier]
On rencontre principalement trois types de notations[31].
Notation simple [modifier]
On considère le modèle pour l'individu i. Pour chaque individu, la variable expliquée s'écrit comme une fonction linéaire des variables explicatives.

Notation vectorielle [modifier]
La notation vectorielle est similaire à la notation simple mais on utilise la notation vectorielle pour synthétiser la notation. Cette notation est pratique lorsqu'il y a un grand nombre de variables explicatives. On définit
le vecteur des paramètres du modèle
et
le vecteur des variables explicatives pour l'individu i
. Le modèle se réécrit alors de la manière suivante[32] :

Notation matricielle [modifier]
Enfin, on rencontre aussi souvent une notation matricielle. Ici, on écrit le modèle pour chacun des n individus présents dans l'échantillon. Le modèle s'écrit alors[33] :
avec 
Terminologie [modifier]
Le modèle linéaire est utilisé dans un grand nombre de champs disciplinaires. Il en résulte une grande variété dans la terminologie. Soit le modèle suivant :

La variable y est appelée variable expliquée ou variable endogène. Les variables
sont appelées variables explicatives, variables exogènes ou encore prédicteurs. u est appelé terme d'erreur ou perturbation.
On note généralement
le vecteur des paramètres estimés. On définit la valeur prédite
et le résidu
.
Principales hypothèses [modifier]
Les hypothèses de Gauss-Markov et les hypothèses de Normalité garantissent des propriétés particulièrement intéressantes des estimateurs des coefficients de régression[5]. Les hypothèses peuvent s'exprimer différemment selon qu'il s'agisse de la régression linéaire simple ou multiple, ou bien selon que les
[Note 3] sont des valeurs constantes (comme une unité de temps par exemple), ou un échantillon des valeurs d'une variable aléatoire.
Hypothèses de Gauss-Markov [modifier]
Exogénéité [modifier]
On dit que les variables explicatives sont exogènes si elles ne sont pas corrélées au terme d'erreur. Ce qu'on note, pour le cas où la variable explicative est aléatoire,
en notation vectorielle et
en notation matricielle où
[Note 3]. Ceci implique que les erreurs sont centrées. Si les X sont constantes ceci est noté
[5].
Homoscédasticité [modifier]
Les termes d'erreurs sont supposés de variance constante, ce qui se traduit par
si X est une variable aléatoire ou un ensemble de variables aléatoires, et par
sinon[5].
Non corrélation des termes d'erreur [modifier]
Les termes d'erreur ne sont pas corrélés entre eux. Formellement,
.
Cette hypothèse est souvent violée lorsqu'il s'agit de séries temporelles où les erreurs sont souvent dites autocorrélées[34].
Non colinéarité des variables explicatives [modifier]
Cette hypothèse suppose qu'aucune des variables explicatives du modèle ne peut s'écrire comme une combinaison linéaire des autres variables. Ce qui revient à
inversible avec
la transposée du vecteur
en notation vectorielle et à
inversible avec
la transposée de la matrice
en notation matricielle. Cette condition est souvent exprimée par le fait que la matrice
est de rang maximum.
En régression simple, il suffit de dire que les points n'ont pas tous la même abscisse :
faute de quoi la droite de régression serait une droite verticale.
Normalité des termes d'erreur [modifier]
Une hypothèses plus forte que les deux premières est celle consistant à dire que les termes d'erreurs suivent une loi normale, centrées, de variance
soit,
en notation vectorielle et sous forme matricielle
.
Hiérarchie des hypothèses [modifier]
À noter que si l'hypothèse de non colinéarité n'est pas vérifiée, l'estimation du modèle est impossible (elle nécessiterait d'inverser une matrice singulière) alors que pour toutes les autres hypothèses l'estimation est possible mais donne un estimateur biaisé et/ou non efficace (à variance non minimale).
Modèle linéaire multiple [modifier]
On appelle modèle linéaire multiple un modèle dans lequel les hypothèses d'exogénéité, de non colinéarité, de non corrélation des termes d'erreur et d'homoscédasticité sont respectées.
Estimation du modèle [modifier]
Ce modèle peut être estimé par la méthode des moindres carrés ordinaires. L'estimateur des moindres carrés ordinaires peut s'écrire :

sous forme vectorielle ou

sous forme matricielle[33].
D'après le théorème de Gauss-Markov, l'estimateur des moindres carrés ordinaires est le meilleur estimateur linéaire sans biais du vecteur des coefficients
[35],[36].
Sous l'hypothèse de normalité des termes d'erreur, l'estimateur des moindres carrés est aussi l'estimateur du maximum de vraisemblance[37].
Modèle avec corrélations des termes d'erreur ou hétéroscédasticité [modifier]
Il arrive souvent que les hypothèses de non corrélation et d'homoscédasticité ne soient pas vérifiées. On distingue alors deux cas : le cas où l'on peut faire des hypothèses raisonnables sur la matrice de variance-covariance du vecteur des perturbations et le cas où on ne fait aucune hypothèse sur cette matrice.
Estimation du modèle par les moindres carrés généralisés [modifier]
Si on note
la matrice de variance-covariance du vecteur des perturbations
, on peut définir l'estimateur des moindres carrés généralisés[38] : 
Estimation du modèle par les moindres carrés quasi-généralisés [modifier]
Modèle à variables instrumentales [modifier]
Lorsque l'une des variables explicatives est corrélée au terme d'erreur (H1 violée), alors on peut avoir recours aux variables instrumentales. On appelle variable instrumentale une variable z qui a un effet sur les variables explicatives suspectées d'endogénéité mais n'est pas corrélée avec le terme d'erreur.
Lorsque l'hypothèse H1 d'exogénéité n'est pas crédible, on peut utiliser la méthode des variables instrumentales. Dans ce cas, il faut trouver un ensemble de variables dites instrumentales qui doivent être à la fois exogènes et corrélées aux variables explicatives du modèle. On note souvent le vecteur des variables instrumentales
et la matrice des variables instrumentales
.
Formellement, on introduit donc deux nouvelles hypothèses :
- L'hypothèse d'exogénéité des instruments :
sous forme vectorielle ou
sous forme matricielle. - Condition de rang : Z doit être corrélé à X.
Application [modifier]
Très souvent utilisé en économétrie, le modèle à variables instrumentales est aussi utilisé en sciences politiques[39].
Estimation du modèle par la méthode des doubles moindres carrés [modifier]
Ce modèle peut être estimé par la méthode des doubles moindres carrés et dans ce cas, on obtient :
[40].
Extensions [modifier]
- Le modèle linéaire généralisé est une extension du modèle linéaire dans laquelle on pose
. Cette classe de modèles comprend le modèle linéaire, le modèle de régression logistique, le modèle probit, le modèle de Poisson, etc. Elle a été développée par Nelder et Wedderburn 1972 et popularisé par le livre de McCullagh et Nelder 1989[41],[42],[43]. - Le modèle linéaire hiérarchique ou modèle linéaire multiniveau est un modèle dans lequel il y a au moins deux niveaux d'observations, par exemple la région et les individus et dans lequel on va permettre aux coefficients de varier. Par exemple, le modèle suivant est un modèle linéaire hiérarchique :
[44].
- Le modèle de régression quantile linéaire[45].
- Le modèle Tobit pour traiter les variables censurées.
- Le modèle de sélection ou modèle Heckit
- Les modèles à équations simultanées
Notes et références [modifier]
Notes [modifier]
- la loi a une densité de probabilité continue, mais les valeurs sont nécessairement relevées de manière discrète
- Best Linear Unbiased Estimator
- K variant de 1 à p, ce qui permet d'inclure le cas de la régression simple
Références [modifier]
- (en) Charles Manski, « Regression », Journal of Economic Literature, vol. 29, no 1, mars 1991, p. 34-50 [texte intégral (page consultée le 01/07/2011)]
- (en) Michael Friendly et al., HistData : Data sets from the history of statistics and data, 2011 [lire en ligne (page consultée le 15 mai 2012)]
- Dodge 2010, p. 451-452
- Adrien-Marie Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, Paris, F. Didot, 1805, 80 p. [lire en ligne (page consultée le 14 mai 2012)], p. viii
- Dodge 2010, p. 217
- (en) Francis Galton, « Regression Towards Mediocrity in Hereditary Stature », Journal of the Anthropological Institute, vol. 15, 1886, p. 246-263 [texte intégral (page consultée le 15 mai 2012)]
- R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le cadre de la colinéarité », Revue de Statistique Appliquée, vol. 43, no 2, 1995, p. 5-33 [texte intégral (page consultée le 20 mai 2012)]
- (en) Robert Tibshirani, « Regression shrinkage and selection via the lasso. », Journal of the Royal Statistical Society, vol. 58, no 1, 1996, p. 267-288 [texte intégral (page consultée le 20 mai 2012)]
- Thierry Foucart, « Colinéarité et Régression Linéaire », Mathématiques et Sciences humaines, vol. 1, no 173, 2006, p. 5-25 [texte intégral (page consultée le 20 mai 2012)]
- Cameron et Trivedi 2005, Angrist et Pischke 2008, Dormont 2007, Mignon 2008...
- Cameron et Trivedi 2005, p. 69
- (en) Joshua Angrist et Victor Lavy, « Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement », The Quarterly Journal of Economics, vol. 114, no 2, 1999, p. 533-575 [texte intégral (page consultée le 14 mars 2012)]
- (en) Gregory Mankiw, David Romer et David Weil, « A Contribution to the Empirics of Economic Growth », Quarterly Journal of Economics, vol. 107, no 2, 1992, p. 407-437
- (en) Steven Levitt, « Using electoral cycles in police hiring to estimate the effect of police on crime », American Economic Review, vol. 87, no 3, 1997, p. 270-290 [texte intégral (page consultée le 27 février 2012)]
- (en) Daron Acemoglu, Simon Johnson et James Robinson, « Reversal of Fortune: Geography and Institutions in the Making of the Modern World Income Distribution », Quarterly Journal of Economics, vol. 117, no 4, 2002, p. 1231-1294
- (en) Jonathan Gruber et Daniel Hungerman, « The Church versus the Mall : What happens when religion faces increased secular competition ? », The Quarterly Journal of Economics, vol. 123, no 2, mai 2008, p. 831-862 [texte intégral (page consultée le 23 janvier 2012)]
- (en) Andrew Gelman et Gary King, « Estimating incumbency advantage without bias », American Journal of Political Science, vol. 34, no 4, novembre 1990, p. 1142-1164 [texte intégral (page consultée le 27 février 2012)]
- Jean Chiche, « Des évolutions électorales entre logique nationale et cultures politiques régionales. », Revue française de science politique, vol. 47, no 3-4, 1997, p. 416-425 [texte intégral, lien DOI (pages consultées le 17 mai 2012)]
- Bernard Dolez, « La liste Bayrou ou la résurgence du courant démocrate-chrétien », Revue française de science politique, vol. 49, no 4-5, 1999, p. 663-674 [texte intégral, lien DOI (pages consultées le 17 mai 2012)]
- Louis Chauvel, « Existe-t-il un modèle européen de structure sociale », Revue de l'OFCE, vol. 71, 1999, p. 281-298 [texte intégral, lien DOI (pages consultées le 16 mai 2012)]
- Patrick Peretti-Watel, « Comment devient-on fumeur de cannabis ? Une perspective quantitative », Revue française de sociologie, vol. 42, no 1, 2001, p. 3-30 [texte intégral, lien DOI (pages consultées le 16 mai 2012)]
- Alain Degenne, Marie-Odile Lebeaux et Catherine Marry, « Les usages du temps : cumuls d'activités et rythmes de vie : Temps sociaux et temps professionnels au travers des enquêtes Emploi du temps. », Economie et statistique, no 352-353, 2002, p. 81-99 [texte intégral, lien DOI (pages consultées le 18 mai 2012)]
- Philippe Guimard, Olivier Cosnefroy et Agnès Florin, « Évaluation des comportements et des compétences scolaires par les enseignants et prédiction des performances et des parcours à l’école élémentaire et au collège », L'orientation scolaire et professionnelle, no 36/2, 2007, p. 179-202 [texte intégral (page consultée le 20 mai 2012)]
- C. Castellani, « Régionalisation des précipitations annuelles par la méthode de la régression linéaire simple : l'exemple des Alpes du Nord . », Revue de géographie alpine, vol. 74, no 4, 1986, p. 393-403 [texte intégral, lien DOI (pages consultées le 19 mai 2012)]
- Nicole Commerçon, « Les résidences secondaires du Mâconnais : essai d'étude quantitative. », Revue de géographie de Lyon, vol. 48, no 4, 1973, p. 331-342 [texte intégral, lien DOI (pages consultées le 19 mai 2012)]
- Yann Richard et Christine Tobelem Zanin, « La Russie et l’Europe : une intégration économique encore à venir ? », Cybergeo : European Journal of Geography, 2007 [texte intégral, lien DOI (pages consultées le 20 mai 2012)]
- Droite des moindres carrés, Robert Mellet
- Wasserman 2004, p. 210, définition 13.2
- Wasserman 2004, p. 211, définition 13.3
- Wasserman 2004, p. 211, théorème 13.4
- Voir par exemple Gelman et Hill 2006, p. 37
- Cameron et Trivedi 2005, p. 70
- Cameron et Trivedi 2005, p. 71
- (en) Alan Krueger, « Symposium on Econometric Tools », The Journal of Economic Perspectives, vol. 15, no 4, automne 2001, p. 3-10 [texte intégral (page consultée le 17 janvier 2012)]
- Wasserman 2004, Chapitre 13
- Gelman et Hill 2006, p. 40
- Wasserman 2004, p. 213, théorème 13.7
- Cameron et Trivedi 2005, p. 82, équation 4.28
- (en) Allison Sovey et Donald Green, « Instrumental Variables Estimation in Political Science: A Readers’ Guide », American Journal of Political Science, vol. 55, no 1, janvier 2011, p. 188-200
- Cameron et Trivedi 2005, p. 101, équation 4.53
- . (en) Nelder et Wedderburn, « Generalized linear models », Journal of the Royal Statistical Society Series A, vol. 135, 1972, p. 370–384
- (en) McCullagh et Nelder, Generalized linear models, Londres, Chapman & Hall, 1989
- (en) Daniel Wright, « Ten Statisticians and Their Impacts for Psychologists », Perspectives on psychological science, vol. 4, no 6, novembre 2009, p. 587-597 [texte intégral (page consultée le 16 décembre 2011)]
- Gelman et Hill 2006, p. 1
- Cameron et Trivedi 2005, p. 85
Voir aussi [modifier]
Bibliographie [modifier]
Textes historiques [modifier]
- (en) Francis Galton, « Regression Towards Mediocrity in Hereditary Stature », Journal of the Anthropological Institute, vol. 15, 1886, p. 246-263 [texte intégral (page consultée le 27 février 2012)]
Sources [modifier]
- Michel Armatte, Histoire du modèle linéaire. Formes et usages en statistique et en économétrie jusqu’en 1945, 1995, thèse EHESS sous la direction de Jacques Mairesse.
- (en) E.H. Lehmann, « On the history and use of some standard statistical models », dans Deborah Nolan et Terry Speed, Probability and Statistics: Essays in Honor of David A. Freedman, Beachwood, Ohio, USA, Institute of Mathematical Statistics, 2008 [lire en ligne (page consultée le 28 décembre 2011)]
Manuels [modifier]
- Pierre-André Cornillon et Eric Matzner-Løber, Régression : Théorie et applications, Springer, 2007, 1re éd., 302 p. (ISBN 978-2287396922)
- Mathieu Rouaud, Probabilités, statistiques et analyses multicritères Un livre de 182 pages qui traite en détail la régression linéaire avec ou sans barres d'erreurs.
- Brigitte Dormont, Introduction à l'économétrie, Paris, Montchrestien, 2007, 2e éd. (ISBN 978-2-7076-1398-1)
- Valérie Mignon, Économétrie, Economica, coll. « Corpus économie », 2008, 1re éd.

- (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, 15 septembre 2004, 461 p. (ISBN 978-0387402727)

- (en) Joshua Angrist et Jörn-Steffen Pischke, Mostly Harmless Econometrics : An Empiricist's Companion, Princeton University Press, 2008, 1re éd., 392 p. (ISBN 978-0691120355)

- (en) Colin Cameron et Pravin Trivedi, Microeconometrics : Methods And Applications, Cambridge University Press, 2005, 1056 p. (ISBN 978-0521848053)

- (en) Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-0521686891)

- Bruno Crépon et Nicolas Jacquemet, Économetrie : Méthode et Applications, De Boeck Université, coll. « Ouvertures économiques », 9 juillet 2010, 1re éd., 416 p. (ISBN 978-2804153236)
- (en) Yadolah Dodge, The Concise Encyclopaedia of Statistics, New York, Springer, 2010, 622 p. (ISBN 978-0-387-31742-7)

Articles connexes [modifier]
Lien externe [modifier]
- (fr) Philippe Besse, Pratique de la régression linéaire, janvier 2003
- (fr) Thierry Verdel et coll., La régression linéaire, cours de l'École des Mines de Nancy

;
;









où cov est la
où var est la variance ;






;
.
.

.






![\begin{align}
\sum(y_i - \bar{y})^2\ & = \beta_1^2 \sum(x_i - \bar{x})^2 + 2 \beta_1 \sum \left [ (x_i - \bar{x}) ( (y_i - \bar{y}) - \beta_1(x_i - \bar{x}) \right ] + \sum u_i^2 \\
& = \beta_1^2 \sum(x_i - \bar{x})^2 + \sum u_i^2
\end{align}](http://upload.wikimedia.org/math/9/3/8/9385e2cd6d46ac6ce0925b9656b0cc12.png)





.
.













sous forme vectorielle ou
sous forme matricielle.
. Cette classe de modèles comprend le modèle linéaire, le modèle de 