Endogénéité

Un article de Wikipédia, l'encyclopédie libre.

En économétrie, l'endogénéité se réfère généralement à une situation dans laquelle une des variables explicatives est corrélée avec le terme d'erreur. La distinction entre les variables endogènes et exogènes vient des modèles d'équations simultanées, où on sépare les variables entre celles qui sont déterminées par le modèle et celles qui sont prédéterminées. Ignorer la simultanéité dans l'estimation provoque un biais des estimateurs car cela viole l'hypothèse d'orthogonalité présente dans le théorème de Gauss-Markov. Le problème de l'endogénéité est malheureusement souvent ignoré par les chercheurs faisant de la recherche non-expérimentale, ce qui empêche de faire de bonnes recommandations en matière de politique à mener[réf. nécessaire]. La méthode des variables instrumentales est souvent utilisée pour régler le problème de l'endogénéité.

En plus de la simultanéité, la corrélation entre les variables explicatives et le terme d'erreur peut survenir quand une variable omise agit à la fois sur la variable expliquée et sur une (ou des) variable(s) explicative(s). Cette corrélation peut également arriver quand il y a des erreurs de mesure sur les variables expliquées.

Exogénéité versus endogénéité[modifier | modifier le code]

Dans un modèle stochastique, on peut définir les notions de faible exogénéité, forte exogénéité et super exogénéité. Une variable est :

  • faiblement exogène si les coefficients d'intérêt sont tous inclus dans l'équation que l'on cherche à estimer, et si l'estimation de ces coefficients n'est pas contrainte par la valeur des coefficients apparaissant dans d'autres équations du modèle[1] ;
  • fortement exogène si elle est faiblement exogène et qu'elle n'est pas causée au sens de Granger ;
  • super exogène si les coefficients ne varient pas.

Quand les variables explicatives ne sont pas stochastiques, elles sont fortement exogènes. Si la variable explicative est corrélée avec le terme d'erreur, alors le coefficient estimé par l'estimateur des moindres carrés ordinaires (MCO) sera biaisé. Il existe plusieurs méthodes de correction de ce biais, comme la méthode des variables instrumentales.

Modèles statiques[modifier | modifier le code]

Cette partie présente les principales causes d'endogénéité.

Variable omise[modifier | modifier le code]

Dans ce cas, l'endogénéité vient du fait qu'une des variables explicatives corrélée à la fois avec la variable expliquée et avec le terme d'erreur n'est pas prise en compte dans l'équation. Par exemple, supposons que le « vrai » modèle devant être estimé est :

mais que l'on oublie d'inclure la variable (par exemple parce que l'on ne dispose pas de données dessus), alors sera incluse dans le terme d'erreur et l'équation que nous estimerons en réalité sera :

(avec )

Si la corrélation entre et n'est pas nulle et que agit directement sur (ce qui revient à dire que ), alors est corrélée avec le terme d'erreur.

Erreur de mesure[modifier | modifier le code]

Supposons que nous n'ayons pas une parfaite mesure d'une des variables explicatives. Par exemple, imaginons qu'au lieu d'observer , on observe est le « bruit » mesuré. Dans ce cas, un modèle sous la forme :

peut alors s'écrire :

(où )

Puisque et dépendent de , ces deux variables sont corrélées et l'estimation de par les MCO sera biaisée à la baisse. En revanche, une erreur de mesure de la variable expliquée ne cause pas d'endogénéité (bien qu'elle augmente la variance du terme d'erreur).

Simultanéité[modifier | modifier le code]

Supposons qu'on ait un modèle avec deux équations « structurelles » dans lesquelles les variables et s'influencent réciproquement :

Chercher à estimer chaque équation donnera de l'endogénéité. Par exemple, pour la première équation, on a . Si l'on cherche à exprimer (en supposant que ), on obtient

Si l'on suppose que et ne sont pas corrélées avec , on a donc

Par conséquent, si l'on essaie d'estimer l'une des deux équations structurelles, on se retrouvera bloqué par l'endogénéité.

Modèles dynamiques[modifier | modifier le code]

Le problème de l'endogénéité est particulièrement prévalent dans l'étude de liens de causalité dans les séries temporelles. Dans un système causal, il est fréquent que la valeur de certains facteurs en dépendent de la valeur d'autres facteurs en . Supposons par exemple que le niveau de contamination de la peste soit indépendant de tout autre facteur dans une période donnée, mais soit influencé par le niveau de précipitations et d'engrais utilisés au cours de la période précédente. Dans ce cas, il serait correct de dire que la contamination est exogène dans la période donnée mais endogène dans le temps.

Notons ce modèle . Si la variable est faiblement exogène pour le paramètre , et que ne cause pas au sens de Granger, alors la variable est fortement exogène pour le paramètre .

Simultanéité[modifier | modifier le code]

En général, la simultanéité se produit dans les modèles dynamiques de la même manière que dans les modèles statiques décrits ci-dessus.

Notes et références[modifier | modifier le code]

  1. Claudio Araujo, Jean-François Brun et Jean-Louis Combes, Économétrie : licence, master, Rosny, Bréal, coll. « Amphi économie », , 2e éd. (1re éd. 2004), 312 p. (ISBN 978-2-7495-0301-1, BNF 41344958), p. 27.