Méthode des moments généralisée

Cet article est une ébauche concernant l’économie et les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Type	Méthode statistique (d)
Inventeur	Lars Peter Hansen
Date d'invention	1982
Décrit par	Large Sample Properties of Generalized Method of Moments Estimators (d)

En statistique et en économétrie, la méthode des moments généralisée (en anglais generalized method of moments ou GMM) est une méthode générique pour estimer les paramètres d'un modèle statistique qui s'appuie sur un certain nombre de conditions sur les moments d'un modèle. Habituellement, cette méthode est utilisée dans un contexte de modèle semi-paramétrique, où le paramètre étudié est de dimension finie, alors que la forme complète de la fonction de distribution des données peut ne pas être connue (de ce fait, l'estimation par maximum de vraisemblance n'est pas applicable).

Cette méthode requiert la spécification d'un certain nombre de conditions de moments sur le modèle. Ces conditions sont exprimées en fonction des paramètres du modèle et des données, de façon que leur espérance soit nulle lorsque les paramètres sont à leur vraie valeur. Appliquer la méthode des moments généralisée revient à minimiser une certaine norme sur les moyennes de ces fonctions calculées sur les données disponibles.

Les estimateurs MGM sont convergents, asymptotiquement normaux et efficaces dans la classe de tous les estimateurs qui n'utilisent pas d'information supplémentaire en dehors de celle contenue dans les conditions de moment.

La méthode est une extension de la méthode des moments. Elle a été développée par Lars Peter Hansen en 1982 dans un article intitulé « Large sample properties of generalized method of moments estimators », ce qui lui a valu en partie le Prix Nobel d’économie en 2013.

Description[modifier | modifier le code]

Soit une base de données contenant N observations {Y_i} _i=1..N, dans laquelle chaque observation Yi est un vecteur aléatoire de dimension n. On suppose que les données obéissent à un modèle statistique défini par un paramètre inconnu θ ∈ Θ. On cherche à estimer la vraie valeur du paramètre, notée θ₀, à partir des observations disponibles.

La méthode des moments généralisée fait l’hypothèse que les données {Y_i} sont générées selon un processus stochastique ergodique (faiblement) stationnaire. Le cas où les données sont des variables indépendantes et identiquement distribuées est un cas particulier de cette hypothèse plus générale.

Pour utiliser la méthode des moments généralisée, on se donne des conditions de moments, c'est-à-dire une fonction à valeur vectorielle g(Y,θ) telle que

m(\theta _{0})=\mathbb {E} \left[g(Y_{i},\theta _{0})\right]=0

où $\mathbb {E}$ est l'espérance et Y_i est une observation quelconque du processus. On suppose de plus que m(θ) est nul si et seulement si θ = θ₀, afin que le paramètre optimal soit correctement identifié.

L'idée principale de la méthode des moments généralisée est de remplacer la valeur théorique de l'espérance par son analogue empirique : la moyenne calculée sur la base de données :

{\hat {m}}(\theta )={\frac {1}{N}}\sum _{i=1}^{N}\left[g(Y_{i},\theta )\right]

puis de chercher la valeur de θ minimisant la norme de cette expression, qui sera donc l'estimateur de la vraie valeur du paramètre. La loi des grands nombres garantit que pour une base de données suffisamment grande, ${\hat {m}}(\theta )\approx m(\theta )$ et donc que ${\hat {m}}(\theta _{0})\approx m(\theta _{0})=0$ . La méthode des moments généralisée considère donc la recherche d'un estimateur comme un problème de minimisation pour une certaine famille de normes de m :

{\hat {\theta _{0}}}=\operatorname {arg} \min _{\theta \in \Theta }\|{\hat {m}}(\theta )\|_{\mathbf {W} }^{2}

La famille de normes considérée dans la méthode, ||.||_W, est définie par

\|x\|^{2}=x^{\mathrm {T} }\mathbf {W} x,

où W est une matrice définie positive. En pratique on calcule un estimateur de $\mathbf {W}$ , noté $\mathbf {\hat {W}}$ , à partir des données disponibles. L'estimateur MGM peut donc être écrit sous la forme suivante :

${\hat {\theta _{0}}}=\operatorname {arg} \min _{\theta \in \Theta }\left({\frac {1}{N}}\sum _{i=0}^{N}g(Y_{i},\theta )\right)^{\mathrm {T} }\mathbf {\hat {W}} \left({\frac {1}{N}}\sum _{i=0}^{N}g(Y_{i},\theta )\right)$

Si ses conditions de validité sont remplies, cet estimateur est convergent, asymptotiquement normal. Il est également asymptotiquement efficient, pourvu que $\mathbf {\hat {W}}$ soit judicieusement choisie.

Propriétés[modifier | modifier le code]

Convergence[modifier | modifier le code]

L'estimateur est convergent si et seulement si l'estimateur converge en probabilité vers la vraie valeur du paramètre quand le nombre d'observations augmente :

${\hat {\theta _{0}}}{\xrightarrow[{N\rightarrow \infty }]{p}}\theta _{0}$

Les conditions suffisantes pour la convergence sont les suivantes :

$\mathbf {\hat {W}} {\xrightarrow {p}}\mathbf {W}$ , où $\mathbf {W}$ est une matrice semi-définie positive
$\mathbf {W} \,\mathbb {E} \left[g(Y_{i},\theta )\right]=0\;\operatorname {ssi} \;\theta =\theta _{0}$
L'espace Θ des paramètres admissibles est compact
g(Y,θ) est continue avec une probabilité de 1 pour toute valeur de θ
$\mathbb {E} \left[\sup _{\theta \in \Theta }\|g(Y,\theta )\|\right]$ est bornée

La condition (2), appelée condition d'identification globale est souvent difficile à vérifier. Il existe cependant des conditions nécessaires (mais non suffisantes) qui sont plus facile à vérifier et permettent de détecter des problèmes de non-identification :

Condition d'ordre : La dimension de la fonction des moments m(θ) est supérieure ou égale a la dimension de θ
Condition d'identification locale : Si g(Y,θ) est continûment dérivable dans un voisinage de θ₀, alors la matrice $\mathbf {W} \,\mathbb {E} \left[g(Y,\theta _{0})\right]=0$ doit être de rang n

Dans les cas d'applications pratique, on fait souvent le postulat que la condition d'identification globale est vérifiée.

Normalité asymptotique[modifier | modifier le code]

La normalité asymptotique est une propriété très utile en pratique car elle permet de définir un intervalle de confiance pour l'estimateur et d'effectuer des tests statistiques.

On définit les deux matrices auxiliaires suivantes :

$\mathrm {G} =\mathbb {E} \left[\nabla _{\theta }g(Y_{i},\theta _{0})\right]\qquad \mathbf {\Omega } =\mathbb {E} \left[g(Y_{i},\theta _{0})g(Y_{i},\theta _{0})^{\mathrm {T} }\right]$

Sous les conditions définies ci-dessous, l'estimateur converge en loi vers une loi normale :

${\sqrt {N}}({\hat {\theta }}-\theta _{0})\,{\xrightarrow {\mathcal {L}}}\,{\mathcal {N}}\left(0,(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {\Omega } \mathbf {W} ^{\mathrm {T} }\mathbf {G} )(\mathbf {G} ^{\mathrm {T} }\mathbf {W} ^{\mathrm {T} }\mathbf {G} )^{-1}\right)$

Les conditions de normalité asymptotique sont les suivantes :

L'estimateur est convergent (tel que défini au paragraphe précédent)
L'espace Θ des paramètres admissibles est compact
g(Y,θ) est continûment différentiable dans un voisinage ${\mathcal {V}}$ de θ₀ avec une probabilité de 1
$\mathbb {E} \left[\|g(Y,\theta )\|^{2}\right]$ est bornée
$\mathbb {E} \left[\sup _{\theta \in {\mathcal {V}}}\|\nabla _{\theta }g(Y_{i},\theta )\|\right]$ est bornée
La matrice G^TWG est inversible

Efficience[modifier | modifier le code]

Jusqu'ici on n'a posé comme seule condition sur W d'être semi-définie positive. Toute matrice ainsi choisie produira un estimateur convergent et asymptotiquement normal ; le choix de la matrice W influant uniquement sur la variance asymptotique de l'estimateur. On peut toutefois vérifier qu'en choisissant

\mathbf {W} \propto \ \mathbf {\Omega } ^{-1}

l'estimateur correspondant sera le plus efficient parmi tous les estimateurs asymptotiquement normaux, c'est-à-dire l'estimateur de variance minimale. Dans ce cas, la formule de la distribution normale de l'estimateur se simplifie en

{\sqrt {N}}({\hat {\theta }}-\theta _{0})\,{\xrightarrow {\mathcal {L}}}\,{\mathcal {N}}\left(0,(\mathbf {G} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {G} )^{-1}\right)

Démonstration

Considérons la différence entre la matrice de variance-covariance de la distribution avec un W quelconque et avec W = Ω^-1. Par définition, la variance de l'estimateur basé sur Ω^-1 est minimale si cette différence est semi-définie positive.

{\begin{array}{lcl}V(\mathbf {W} )-V(\mathbf {\Omega } ^{-1})&=&(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {\Omega } \mathbf {W} \mathbf {G} (\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}-(\mathbf {G} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {G} )^{-1}\\&=&(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}\left(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {\Omega } \mathbf {W} \mathbf {G} -\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} (\mathbf {G} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {G} )^{-1}\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} \right)(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}\\&=&(\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {\Omega } ^{1/2}\left(\mathbf {I} -\mathbf {\Omega } ^{-1/2}\mathbf {G} (\mathbf {G} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {G} )^{-1}\mathbf {G} ^{\mathrm {T} }\mathbf {\Omega } ^{-1/2}\right)\mathbf {\Omega } ^{1/2}\mathbf {W} \mathbf {G} (\mathbf {G} ^{\mathrm {T} }\mathbf {W} \mathbf {G} )^{-1}\\&=&\mathbf {A} (\mathbf {I} -\mathbf {B} )\mathbf {A} ^{\mathrm {T} }\end{array}}

Avec I la matrice identité, et en introduisant les matrices A et B pour simplifier les notations. On remarque que B est une matrice symétrique et idempotente, c'est-à-dire que B² = B, ce qui implique que (I - B) est également symétrique et idempotente. On peut donc écrire (I - B) = (I - B) (I - B)^T afin de factoriser l'expression :

{\begin{array}{lcl}V(\mathbf {W} )-V(\mathbf {\Omega } ^{-1})&=&\mathbf {A} (\mathbf {I} -\mathbf {B} )(\mathbf {I} -\mathbf {B} )^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }\\&=&\left(\mathbf {A} (\mathbf {I} -\mathbf {B} )\right)\left(\mathbf {A} (\mathbf {I} -\mathbf {B} )\right)^{\mathrm {T} }\end{array}}

La différence des matrices est bien une matrice semi-définie positive, ce qui conclut la démonstration.

Utilisation pratique[modifier | modifier le code]

La principale difficulté dans la mise en œuvre de l'estimateur optimal décrit ci-dessus est l'impossibilité de calculer directement Ω^-1. En effet la matrice Ω est définie par la valeur de g en θ₀. Or c'est justement θ₀ que l'on cherche à estimer. Dans le cas particulier ou les valeurs Y_i sont indépendantes et identiquement distribuées, on peut estimer la matrice W optimale en utilisant l'estimateur de θ₀ et en calculant la moyenne :

{\widehat {\mathrm {W} }}_{N}({\widehat {\theta }})=\left({\frac {1}{N}}\sum _{i=1}^{N}g(Y_{i},{\widehat {\theta }})g(Y_{i},{\widehat {\theta }})^{\mathrm {T} }\right)^{-1}

Méthode des moments en deux étapes[modifier | modifier le code]

Cette méthode (two-step GMM) est la plus couramment utilisée :

On prend W = I (la matrice identité), ou une autre matrice semi-définie positive, et on calcule une première valeur estimée de θ notée ${\widehat {\theta }}_{(1)}$
On calcule alors ${\widehat {\mathrm {W} }}_{N}({\widehat {\theta }}_{(1)})$ , qui est un estimateur convergeant en probabilité vers Ω^-1. On recalcule alors une nouvelle valeur estimée de θ avec cette matrice.

Méthode des moments itérative[modifier | modifier le code]

Il s'agit du prolongement de la méthode précédente a un nombre arbitraire d'étapes : à chaque itération on recalcule une nouvelle estimation de ${\widehat {\mathrm {W} }}_{N}({\widehat {\theta }}_{(k)})$ puis un nouvel estimateur ${\widehat {\theta }}_{(k+1)}$ avec cette nouvelle matrice W, jusqu'à convergence.

Méthode des moments continue[modifier | modifier le code]

Dans cette variante (continuously updating GMM - CUGMM) on estime simultanément θ et W.

Dans tous les cas, on se heurte également a la difficulté du problème de minimisation lors de l'estimation de θ, l'espace des paramètres étant potentiellement de dimension élevée.

Cas particuliers[modifier | modifier le code]

De nombreux estimateurs statistiques utilisés couramment peuvent être vus comme des cas particuliers de la méthode des moments généralisés :

la méthode des moindres carrés ordinaire (ordinary least squares) revient à utiliser la condition de moments $\mathbb {E} \left[x_{i}(y_{i}-x_{i}^{\mathrm {T} }\beta )\right]=0$
la méthode des moindres carrés pondérés (weighted least squares) revient à utiliser la condition de moments $\mathbb {E} \left[{\frac {x_{i}(y_{i}-x_{i}^{\mathrm {T} }\beta )}{\sigma ^{2}(x_{i})}}\right]=0$
la méthode des variables instrumentales (instrumental variables) revient à utiliser la condition de moments $\mathbb {E} \left[z_{i}(y_{i}-x_{i}^{\mathrm {T} }\beta )\right]=0$
la méthode des moindres carrés non linéaires (non-linear least squares) revient a utiliser la condition de moments $\mathbb {E} \left[\nabla _{\beta }g(x_{i},\beta )\cdot (y_{i}-g(x_{i},\beta ))\right]=0$
la méthode du maximum de vraisemblance revient à utiliser la condition de moments $\mathbb {E} \left[\nabla _{\theta }\ln f(x_{i},\theta )\right]=0$

Bibliographie[modifier | modifier le code]

Lars Peter Hansen, « Large sample properties of generalized method of moments estimators », Econometrica, vol. 50, n^o 4,‎ 1982, p. 1029-1054 (JSTOR 1912775 Jstor)

Voir aussi[modifier | modifier le code]