Critère d'information d'Akaike

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir AIC.

Le critère d'information d'Akaike, (en anglais Akaike information criterion ou AIC) est une mesure de la qualité d'un modèle statistique proposée par Hirotugu Akaike en 1973.

Lorsque l'on estime un modèle statistique, il est possible d'augmenter la vraisemblance du modèle en ajoutant un paramètre. Le critère d'information d'Akaike, tout comme le critère d'information bayésien, permet de pénaliser les modèles en fonction du nombre de paramètres afin de satisfaire le critère de parcimonie. On choisit alors le modèle avec le critère d'information d'Akaike le plus faible[1].

Définition[modifier | modifier le code]

Le critère d'information d'Akaike s'écrit comme la différence entre 2 fois le nombre de paramètres k et deux fois le logarithme de la vraisemblance L du modèle estimé.

\mathit{AIC} = 2k - 2\ln(L)

où k est le nombre de paramètres du modèle et L est la valeur maximum de la fonction de vraisemblance du modèle.

Si l'on considère un ensemble de modèles candidats, le modèle choisi est celui qui aura la plus faible valeur d'AIC. Ce critère repose donc sur un compromis entre la qualité de l'ajustement et la complexité du modèle, en pénalisant les modèles ayant un grand nombre de paramètres, ce qui limite les effets de sur-ajustement (augmenter le nombre de paramètre améliore nécessairement la qualité de l'ajustement).

L'AIC est basé sur la théorie de l'information: il propose une estimation de la perte d'information lorsqu'on utilise le modèle considéré pour représenter le processus qui génère les données. L'AIC ne fournit pas un test de modèle dans le sens d'une hypothèse nulle, c'est-à-dire que ce test ne dit rien de la qualité absolue du modèle. Il ne rendrait ainsi pas compte du fait que tous les modèles candidats ne produisent pas de bons ajustements.

Plus précisément, supposons que les données soient générées par un processus inconnu f. On considère deux modèles candidats pour représenter f: g1 et g2. Si f était connu, alors l'information perdue en utilisant g1 pour représenter f serait également connue en calculant la divergence de Kullback-Leibler DKL(fg1). De la même façon, l'information perdue en représentant f par g2 serait DKL(fg2). On choisirait alors le meilleur modèle en minimisant l'information perdue. Cependant, on ne peut choisir avec certitude car f est en général inconnu. Akaike a montré en 1973 qu'il est possible d'estimer en utilisant l'AIC si l'utilisation de g1 plutôt que g2 amène plus ou moins de perte d'information. Cette estimation n'est valide que de manière asymptotique: si le nombre de points est faible, une correction est souvent nécessaire (voir AICc).

Utilisation pratique de l'AIC[modifier | modifier le code]

Supposons disposer d'un ensemble de modèles-candidats, dont on calcule les valeurs d'AIC associées. Il y aura toujours une perte d'information, du fait qu'on utilise un modèle pour représenter le processus générant les données réelles, et nous cherchons donc à sélectionner le modèle qui minimise cette perte d'information (ou plus exactement son estimation par l'AIC).

Notons les diverses valeurs d'AIC des différents modèles AIC1, AIC2, AIC3, …, AICR et AICmin le minimum de ces valeurs. Dans ce cas exp((AICmin−AICi)/2) peut être compris comme la probabilité pour que le ième candidat modèle minimise l'estimation de la perte d'information[2].

Par exemple, supposons qu'il y ait trois modèles candidats avec pour AIC respectives: 100, 102 et 110. Dans ce cas, la probabilité pour que le second modèle soit celui qui minimise la perte d'information est de exp((100−102)/2) = 0.368 fois la probabilité pour que ce soit le premier modèle. De la même manière, la probabilité pour que le troisième modèle soit celui qui minimise la perte d'information est de exp((100−110)/2) = 0.007 fois la probabilité pour que ce soit le premier modèle.

Dans ce cas de figure, on peut considérer que les deux premiers modèles sont de qualité proches. Il y a alors plusieurs possibilités:

  • collecter plus de données, en espérant que la distinction entre le premier et le second modèles soit plus nette,
  • simplement considérer que les données sont insuffisantes pour distinguer que le premier modèle est significativement meilleur que le second,
  • prendre une moyenne pondérée des deux modèles, avec pour poids respectifs 1 et 0.368, puis faire les inférences statistiques depuis ce multi-modèle pondéré[3].

La quantité exp((AICmin−AICi)/2) est la vraisemblance relative du modèle i.

Si tous les modèles de l'ensemble des candidats ont le même nombre de paramètres, alors utiliser l'AIC peut paraître semblable à utiliser les rapports de vraisemblance. Il existe cependant des distinctions importantes, en particulier, le test du rapport de vraisemblance est valide pour les modèles imbriqués alors que l'AIC (et l'AICc) n'ont pas de telle restriction[4].

AICc[modifier | modifier le code]

L'AICc est une correction de l'AIC pour le cas d'échantillons de petite taille:

AICc = AIC + \frac{2k(k + 1)}{n - k - 1}

n désigne la taille de l'échantillon.

L'AICc intègre donc une pénalité supplémentaire pour les paramètres additionnels. L'utilisation de l'AIC plutôt que de l'AICc lorsque n n'est pas beaucoup plus grand que k augmente la probabilité de sélectionner un modèles avec un trop grand nombre de paramètres, c'est-à-dire de sur-ajuster. Cette probabilité de sur-ajustement avec l'AIC peut être élevée dans certains cas[5].

Burnham et Anderson (2002) recommandent fortement l'utilisation de l'AICc à la place de l'AIC si n est petit et/ou k grand, on note d'ailleurs que l'AICc tend vers l'AIC lorsque n devient grand[6]. Brockwell et Davis conseillent d'utiliser l'AICc comme critère primaire pour la sélection de modèles ARMA de séries temporelles[7] . McQuarrie et Tsai (1998) ont confirmé l'intérêt de l'AICc à l'aide d'un grand nombre de simulations sur des régressions et des séries temporelles.

L'AICc a été proposé en premier lieu par Hurvich et Tsai (1989). Plusieurs variantes ont été proposées par Brockwell et Davis (1991), Burnham et Anderson, puis Cavanaugh (1997). Toutes les variantes supposent un modèle monovariant avec des erreurs distribuées de manière normale, si cette hypothèse n'est pas vérifiée, la formule de l'AICc devra être modifiée en général.

Une discussion plus avancée sur le sujet, avec d'autres exemples et hypothèses, est proposée dans Burnham et Anderson (2002, ch. 7). En particulier, une estimation par bootstrapping est en général possible.

On remarquera que lorsque le nombre de paramètres k est le même pour tous les modèles, alors l'AICc et l'AIC auront des valeurs relatives identiques. Dans cette situation l'AIC peut donc toujours être utilisé.

Lien avec le test du χ² et les modèles linéaires généralisés[modifier | modifier le code]

Test du chi-carré[modifier | modifier le code]

Si l'on suppose que les fonctions de vraisemblance sont telles que les erreurs sous-jacentes sont indépendantes et distribuées de manière normale (avec une moyenne nulle), alors l'ajustement peut-être réalisé à l'aide du test du \chi^2 (chi carré).

Dans le cas du test du \chi^2, la vraisemblance est donnée par

L=\prod_{i=1}^n \left(\frac{1}{2 \pi \sigma_i^2}\right)^{1/2} \exp \left( -\sum_{i=1}^{n}\frac{(y_i-f(x_i))^2}{2\sigma_i^2}\right)
\Rightarrow \ln(L) = \ln\left(\prod_{i=1}^n\left(\frac{1}{2\pi\sigma_i^2}\right)^{1/2}\right) - \frac{1}{2}\sum_{i=1}^n \frac{(y_i-f(x_i))^2}{\sigma_i^2}
\Rightarrow \ln(L) = C - \chi^2/2 \,,

C est une constante indépendante du modèle utilisé, elle ne dépend que de l'usage de certaines données, c'est donc une constante si les données restent inchangées.

L'AIC est alors donné par AIC = 2k - 2\ln(L) = 2k - 2(C-\chi^2/2) = 2k -2C + \chi^2. Comme seules les différences d'AIC sont significatives, la constante C peut être ignorée, et on peut donc utiliser \chi^2 + 2k pour la comparaison de modèles.

Une autre forme pratique apparaît si les σi sont supposés identiques et si l'on dispose de la somme des carrés des résidus (residual sum of squares, notée RSS). Dans ce cas, on obtient AIC = n \ln(RSS/n) + 2k + C, où à nouveau la constante C peut être ignorée pour la comparaison de modèles[8].

Modèles linéaires généralisés[modifier | modifier le code]

Lorsque tous les modèles candidats sont des modèles linéaires généralisés (ou GLM), une approche possible pour sélectionner le modèle est de choisir celui qui maximise la vraisemblance L(\beta;\mu). Celle-ci peut être facilement estimée et le modèle ayant la plus grande vraisemblance sera celui qui a la plus petit AIC[9].

Comparaison au BIC[modifier | modifier le code]

Il existe de nombreux critères d'informations inspirés du critère d'Akaike. Parmi ceux-ci, le critère d'information bayésien est l'un des plus populaires. Il se définit comme suit :

\mathit{BIC} = -2\ln(L) + \ln(n)k

avec n le nombre d'observations dans l'échantillon étudié et k le nombre de paramètres[10].

L'AIC pénalise le nombre de paramètres moins fortement que le BIC. Burnham et Anderson (2002, §6.4 et 2004) proposent une comparaison de l'AIC (et de l'AICc) au BIC. Les auteurs montrent que l'AIC et l'AICc peuvent être construits dans le même contexte bayésien que le BIC, mais avec des hypothèses différentes. Burnham et Anderson défendent aussi l'idée que l'AIC et l'AICc possèdent certains avantages théoriques sur le BIC: d'abord parce que l'AIC/AICc est dérivé des principes de la théorie de l'information, au contraire du BIC, ensuite parce que les hypothèses sous-tendant la dérivation du BIC sont discutables, et enfin parce que certaines de leurs simulations suggèrent que l'AICc serait en pratique plus performant que le BIC.

Yang (2005) a également proposé des comparaisons poussées entre AIC et BIC dans le contexte des régressions. En particulier, l'AIC est asymptotiquement optimal lorsque l'on souhaite sélectionner le modèle avec l'erreur quadratique moyenne (si l'on fait l'hypothèse que le modèle générant les données n'est pas parmi les candidats, ce qui est en fait presque toujours le cas en pratique); ce n'est pas le cas du BIC. Yang montre également que la vitesse de convergence de l'AIC vers l'optimum est, dans un certain sens, la meilleure possible.

Histoire[modifier | modifier le code]

Hirotugu Akaike a introduit le concept d'AIC pour la première fois en 1973-1974 comme un "critère d'information"[11].

Le calcul original de l'AIC reposait sur quelques hypothèses fortes, Takeuchi a montré en 1976 que celles-ci pouvaient être faites plus faibles, cependant le travail de Takeuchi ayant été publié en japonais, il resta peu connu en-dehors du Japon pendant plusieurs années.

L'AICc a été proposé pour la seule régression linéaire par Sugiura en 1978 et fut à l'origine des travaux d'Hurvich et Tsai en 1989, puis d'autres articles par les mêmes auteurs, qui cherchaient à étendre le cadre d'application de l'AICc. Le travail d'Hurvich et Tsai amena à la publication de la seconde édition du livre de Brockwell et Davis (1991), qui est considéré comme un ouvrage de référence pour les séries temporelle linéaires. Il est dit dans cette édition: our prime criterion for model selection [among ARMA(p,q) models] will be the AICc (notre premier critère de sélection des modèles sera l'AICc)[7].

L'ouvrage de Burnham et Anderson (2002) est la première tentative pour replacer l'approche basée sur la théorie de l'information dans un contexte général et a largement contribué à diffuser cette approche. Il comprend notamment un exposé des travaux de Takeuchi en anglais.

Akaike a qualifié son approche de "principe de maximisation de l'entropie", celle-ci étant fondée sur le concept d'entropie en théorie de l'information. Burnham et Anderson (2002, ch. 2) discutent cette idée, et la rapproche des travaux originaux de Ludwig Boltzmann en thermodynamique. En quelques mots, minimiser l'AIC pour un modèle statistique serait essentiellement équivalent à maximiser l'entropie d'un système thermodynamique. Autrement dit, l'approche basée sur la théorie de l'information correspondrait à l'application de la deuxième principe de la thermodynamique.

Notes et références[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • (en) Hirotugu Akaike, « Information theory and an extension of the maximum likelihood principle », dans Second International Symposium on Information Theory,‎ 1973, 267-281 p.
  • (en) Hirotugu Akaike, « A new look at the statistical model identification », IEEE Transactions on Automatic Control, vol. 19, no 6,‎ 1974, p. 716-723 (DOI 10.1109/TAC.1974.1100705)
  • (en) Peter J. Brockwell et Richard A. Davis, Time Series: Theory and Methods, Springer,‎ 1991 (ISBN 0387974296)
  • (en) K. P. Burnham et D. R. Anderson, Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Springer-Verlag,‎ 2002 (ISBN 0-387-95364-7)
  • (en) G. Claeskens et N. L. Hjort, Model Selection and Model Averaging, Cambridge,‎ 2008.
  • (en) C. M. Hurvich et C.-L. Tsai, « Regression and time series model selection in small samples », Biometrika, vol. 76,‎ 1989, p. 297–307.
  • (en) N. Sugiura, « Further analysis of the data by Akaike’s information criterion and the finite corrections », Communications in Statistics - Theory and Methods, vol. A7,‎ 1978, p. 13–26.
  • (en) S. N. Wood, Generalized Additive Models, CRC Press,‎ 2006.
  • (en) Y. Yang, « Can the strengths of AIC and BIC be shared? », Biometrika, vol. 92,‎ 2005, p. 937–950.

Voir aussi[modifier | modifier le code]

Critère d'information bayésien