Test du χ²

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur les redirections Pour la loi de probabilité, voir Loi du χ2.
Densité du χ² en fonction du nombre de degrés de liberté

Le test du χ2[1] est un test statistique permettant de tester l'adéquation d'une série de données à une famille de lois de probabilités ou de tester l'indépendance entre deux variables aléatoires.

Histoire[modifier | modifier le code]

Il a été proposé par le statisticien Karl Pearson en 1900[2].

Principe[modifier | modifier le code]

À la base d'un test statistique, il y a la formulation d'une hypothèse appelée hypothèse nulle (ou hypothèse zéro), notée H0. Dans le cas présent, elle suppose que les données considérées proviennent de variables aléatoires suivant une loi de probabilité donnée, et l'on souhaite tester la validité de cette hypothèse.

Ces données ayant été réparties en classes, il faut :

  • calculer algébriquement la distance entre les données observées et les données théoriques attendues.
  • se donner a priori un risque d'erreur, celle consistant à rejeter l'hypothèse, alors qu'elle est vraie (la valeur 5 % est souvent choisie par défaut ; il s'agit plus souvent d'une coutume que du résultat d'une réflexion) ;
  • déterminer le nombre de degrés de liberté du problème à partir du nombre de classes, et à l'aide d'une table de χ², déduire en tenant compte du nombre de degrés de liberté la distance critique qui a une probabilité de dépassement égale à ce risque ;

Si la distance calculée entre les données observées et théoriques est supérieure à la distance critique, on conclut que le résultat n'est pas dû seulement aux fluctuations d'échantillonnage et que l'hypothèse nulle H0 doit donc être rejetée. Le risque choisi au départ est celui de donner une réponse fausse lorsque les fluctuations d'échantillonnage sont seules en cause. Le rejet est évidemment une réponse négative dans les tests d'adéquation et d'homogénéité mais il apporte une information positive dans les tests d'indépendance. Pour ceux-ci, il montre le caractère significatif de la différence, ce qui est intéressant en particulier dans les tests de traitement d'une maladie.

Test du χ² d'adéquation[modifier | modifier le code]

Il s'agit ici de tester si les données sont compatibles avec une loi de probabilité définie a priori. On commence par le cas de la loi multinomiale, pour laquelle la loi de probabilité prend un nombre fini de valeurs. Dans le cas général, on se ramène à la loi multinomiale en répartissant les données par classes.

Test d'adéquation à une loi multinomiale[modifier | modifier le code]

On observe un échantillon de données y_1,\ldots, y_N d'une variable aléatoire Y qui prend un nombre fini J de valeurs. On veut tester l'hypothèse nulle selon laquelle les probabilités que Y prenne les valeurs 1 à J sont respectivement p_1, \ldots, p_J avec \sum_{j=1}^{J} p_j = 1. On appelle \hat{p_j} la probabilité empirique que Y prenne la valeur j, c'est-à-dire le nombre d'observations qui prennent la valeur j dans l'échantillon divisé par le nombre total d'observations N : \hat{p_j} = \frac{1}{N} \sum_{i=1}^{N}[y_i = j]

avec [y_i = j] = \begin{cases} 1 & \text{si } y_i = j \\ 0 & \text{sinon} \end{cases}

On peut alors définir la statistique du \chi^2 : T = \sum_{j=1}^{J} \frac{(N\hat{p_j} - N p_j)^2}{N p_j}.

Sous l'hypothèse nulle, cette statistique suit asymptotiquement une loi du χ² à (J-1) degrés de libertés[3].

On peut donc construire un test de niveau \alpha en rejetant l'hypothèse nulle lorsque la statistique de test est plus grande que le quantile d'ordre 1-\alpha de la loi du χ² à (J-1) degrés de libertés : T \geqslant F^{-1}_{\chi^2(J-1)}(1-\alpha) avec F^{-1}_{\chi^2(J-1)}(1-\alpha) le quantile d'ordre 1-\alpha de la loi du \chi^2 à J-1 degrés de libertés.

Preuve[modifier | modifier le code]

On ne donnera que les arguments principaux avec lesquels on montre[4] que, sous l'hypothèse nulle, la loi de T converge vers une loi du χ² à (J-1) degrés de libertés. Avec les notations précédentes, soit donc Y une variable aléatoire telle que, pour j variant de 1 à J, P(Y = j) = p_j. On considère le vecteur aléatoire suivant :

Z = \left(\frac{[Y=1]-p_1}{\sqrt{p_1}}, \frac{[Y=2]-p_2}{\sqrt{p_2}}, \ldots, \frac{[Y=J]-p_J}{\sqrt{p_J}}\right)

avec comme ci-dessus :

[Y = j] = \begin{cases} 1 & \text{si } Y = j \\ 0 & \text{sinon} \end{cases}

Si on note (Z^{(1)}, \ldots, Z^{(J)}) les composantes de Z, on vérifie que :

pour tout i, E(Z^{(i)}) = 0
pour tout i, V(Z^{(i)}) = 1 - p_i
pour tout i différent de j, {\rm Cov}(Z^{(i)},Z^{(j)}) = -\sqrt{p_ip_j}

Autrement dit, Z est un vecteur aléatoire centré dont la matrice de covariance est \Gamma = I_J - \sqrt{p}{\rm }\,\,^t\sqrt{p}, où l'on a posé \sqrt{p} la colonne de composantes \sqrt{p_i}.

Si l'on dispose d'un échantillon y_1,\ldots, y_N de la variable Y, on en déduit un échantillon Z_1,\ldots, Z_N de la variable Z. Le théorème central limite permet alors de conclure que la loi de \frac{Z_1+\ldots+Z_N}{\sqrt{N}} converge vers une loi normale centrée de matrice de covariance \Gamma quand N tend vers l'infini. Mais cette loi n'est autre que celle du projeté d'un vecteur aléatoire de \mathbb R^J suivant une loi normale centrée réduite sur l'hyperplan orthogonal à \sqrt{p} (espace de dimension J - 1). Le carré de ce projeté suit alors une loi du χ² à (J-1) degrés de libertés. C'est la loi limite du carré de \frac{Z_1+\ldots+Z_N}{\sqrt{N}} qui n'est autre que T.

Exemple 1[modifier | modifier le code]

Le lancement d'un dé 600 fois de suite a donné les résultats suivants :

numéro tiré 1 2 3 4 5 6
effectifs 88 109 107 94 105 97

Le nombre de degré de liberté est de 6 - 1 = 5. On souhaite tester l'hypothèse selon laquelle le dé n'est pas truqué, avec un risque \alpha = 0.05. La variable T définie précédemment prend ici la valeur \frac{(88-100)^2}{100}+\frac{(109-100)^2}{100}+\frac{(107-100)^2}{100}+\frac{(94-100)^2}{100}+\frac{(105-100)^2}{100}+\frac{(97-100)^2}{100} = 3.44. Or, la loi du χ² à cinq degrés de liberté donne P(T<11.07) = 0.95. Donc, on ne considère pas ici que le dé soit truqué.


Cas général[modifier | modifier le code]

Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori. Dans le cas général, cette loi peut-être celle d'une variable aléatoire Y prenant un nombre dénombrable de valeurs (comme une loi de Poisson ou une loi géométrique par exemple), ou bien une variable aléatoire continue (comme une loi exponentielle ou une loi normale).

Pour appliquer la méthode précédente pour laquelle Y prend un nombre fini J de valeurs, on découpe l'ensemble des valeurs que peut prendre y en J classes. Par exemple, pour tester l'adéquation avec une loi de Poisson, on pourra prendre les classes {0}, {1}, ..., {J-2}, {n>J-2}. On note alors \hat{p_j} la probabilité empirique que Y appartienne à la classe j, et p_j la probabilité théorique d'y appartenir. On peut alors appliquer le test précédent. Les classes doivent être assez nombreuses pour ne pas perdre trop d'information mais, à l'inverse, pour satisfaire les conditions requises par la méthode, elles ne doivent pas être trop petites. En théorie, il faudrait que les effectifs soient infinis pour que la loi normale s'applique mais il est généralement admis qu'il faut 5 éléments dans chaque classe. Cette règle a été très discutée et celle qui semble recueillir le plus de suffrages est due à Cochran : 80 % des classes doivent satisfaire la règle des cinq éléments tandis que les autres doivent être non vides.

Le critère porte sur les Np_i\, déduits de la distribution de référence et non sur les n_i\, des données analysées. Il est souvent satisfait sans difficulté car, à la différence de la construction d'un histogramme, il est possible de jouer sur la largeur des classes.

Si la loi de probabilité théorique dépend de paramètres (moyenne, variance, ...) inconnus au moment du test, les données peuvent être utilisées pour estimer ceux-ci, ce qui facilite l'adéquation. Il faut alors diminuer le nombre de degrés de liberté du nombre de paramètres estimés. Ainsi, dans l'exemple de l'adéquation à une loi de Poisson de paramètre inconnu, on pourra estimer la valeur de ce paramètre par la moyenne empirique de Y, mais la loi du χ² à appliquer aura un nombre de degrés de libertés égal à J-2 au lieu de J-1

Exemple 2[modifier | modifier le code]

On considère une variable aléatoire Y prenant des valeurs entières positives ou nulles. Un échantillonnage de 100 valeurs de cette variable se répartit comme suit :

valeur de Y 0 1 2 3 4
effectifs 31 45 16 7 1

On souhaite tester l'hypothèse selon laquelle Y suit une loi de Poisson, avec un risque \alpha = 0.05. La valeur du paramètre de cette loi de Poisson est obtenue en calculant l'espérance empirique de Y, ce qui donne ici \lambda = 1.02. Ce paramètre étant ici l'objet d'une estimation, on diminuera le nombre de degré de liberté d'une unité. Les effectifs attendus pour une loi de Poisson de paramètre \lambda sont :

valeurs 0 1 2 3 ou plus
effectifs 36.79 37.52 19.14 6.55

On regroupe les effectifs supérieurs ou égaux à 3 dans une même classe, ceux supérieurs à 4 étant trop petits. La variable T prend alors la valeurs 3.23. Or, la loi du χ² à deux degrés de liberté donne P(T<5.99) = 0.95. Donc, on ne rejette pas l'hypothèse que la loi suivie soit de Poisson.

Test du χ² d'homogénéité[modifier | modifier le code]

Il s'agit ici de se demander si deux listes de nombres de même effectif total N peuvent dériver de la même loi de probabilité. La méthode précédente s'applique en remplaçant le terme Np_i\, relatif à la loi de probabilité par n'_i\, relatif à la seconde liste et le \chi^2\, est donné par \sum_{i=1}^J \frac {(n_i - n'_i)^2} {n'_i}.

Cette notation s'inspire de celle utilisée pour le test d'adéquation, elle-même déduite de la notation classique de la loi multinomiale. Ici, comme dans le test d'indépendance, la notion de probabilité n'apparaît plus de manière explicite. De nombreux utilisateurs préfèrent donc adopter la notation qui utilise les symboles O_i\, pour les valeurs observées et E_i\, pour les valeurs espérées, ce qui conduit à l'expression \sum_{i=1}^J \frac {(O_i - E_i)^2} {E_i}.

Dans le cas où l'on dispose de plusieurs listes de nombres, chacune d'effectif différent, et qu'on veuille tester si ces listes suivent une même loi de probabilité, on appliquera le test d'indépendance, décrit ci-après. Il s'agit en effet de tester si les diverses modalités Y de la loi de probabilité sont indépendantes des listes X en présence.

Test du χ² d'indépendance[modifier | modifier le code]

Problème[modifier | modifier le code]

On considère ici deux variables aléatoires X et Y et on souhaite tester le fait que ces deux variables sont indépendantes. Par exemple, X désigne une catégorie de population (salarié, employé, agriculteur, cadre supérieur, chômeur, ...) et Y un critère particulier (par exemple, le revenu réparti dans diverses tranches). L'hypothèse à tester est l'indépendance entre la population d'appartenance X de l'individu et la valeur Y du critère. L'hypothèse affirme donc que le fait de connaître la catégorie de population d'un individu n'influence pas la valeur des critères.

X et Y sont supposées prendre un nombre fini de valeurs, I pour X, J pour Y. On dispose d'un échantillonnage de N données. Notons Oij l'effectif observé de données pour lesquelles X prend la valeur i et Y la valeur j. Sous l'hypothèse d'indépendance, on s'attend à une valeur espérée Eij définie comme suit :

 E_{i,j} = \frac{O_{i+} \times O_{+j}}{N}

  O_{i+}=\sum_{j=1}^{J}{O_{ij}} (nombre de données pour lesquelles X = i)

et

  O_{+j}=\sum_{i=1}^{I}{O_{ij}} (nombre de données pour lesquelles Y = j)

On calcule la distance les valeurs observées Oij (ou valeurs empiriques) et les valeurs attendues s'il y avait indépendance Eij (ou valeurs théoriques) au moyen de la formule :

 T = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

On montre que la loi de T suit asymptotiquement une loi du χ² à (I - 1)(J - 1) degrés de liberté.

Exemple[modifier | modifier le code]

Considérons par exemple deux variables X et Y, X prenant les valeurs A ou B et Y prenant les valeurs entières de 1 à 5. Les distributions de A et de B sont-elles différentes ? Une représentation sur une table de contingence des occurrences des variables permet d'illustrer la question.

1 2 3 4 Total
A 50 70 110 60 290
B 60 75 100 50 285
Total 110 145 210 110 575

Dans cet exemple, on remarque que les effectifs de B sont supérieurs à ceux de A dans les classes de faible valeur Y, et inférieur dans celles à haute valeur Y. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ? Le test du χ² aide à répondre à cette question.

On a ici I = 2 et J = 4, donc la loi du χ² utilisée aura trois degrés de liberté. Si on se donne un risque de se tromper (rejeter à tort l'hypothèse nulle) égal à 5 %, la valeur critique trouvée dans les tables est 7,81. Le calcul de la variable T donne comme résultat 2,43. Étant inférieure à la distance critique (7,81), il n'y a pas lieu de mettre en cause l'indépendance de X et de Y, c'est-à-dire le fait que la répartition des valeurs de Y ne dépend pas de la valeur de X, avec un risque de se tromper égal à 5 %.

Conditions du test[modifier | modifier le code]

Plusieurs auteurs proposent des critères pour savoir si un test est valide, voir par exemple [PDF] The Power of Categorical Goodness-Of-Fit Test Statistics p. 19 (p. 11 du ch. 2), Michael C. Steele. On utilise en général le critère de Cochran de 1954 selon lequel toutes les classes i, j doivent avoir une valeur théorique non nulle (E i, j ≥ 1), et que 80 % des classes doivent avoir une valeur théorique supérieure ou égale à 5 :

E i,j ≥ 5

Lorsque le nombre de classes est petit, cela revient à dire que toutes les classes doivent contenir un effectif théorique supérieur ou égal à 5.

D'autres valeurs ont été proposées pour l'effectif théorique minimal : 5 ou 10 pour tous (Cochran, 1952), 10 (Cramér, 1946) ou 20 (Kendall, 1952). Dans tous les cas, ces valeurs sont arbitraires.

Certains auteurs ont proposé des critères basés sur des simulations, par exemple :

  • effectif théorique supérieur à 5r/k pour chaque classe, où r est le nombre de classes ayant un effectif supérieur ou égal à 5 et k est le nombre de catégories (Yarnold, 1970) ;
  • N²/k ≥ 10, où N est l'effectif total et k est toujours le nombre de catégories (Koehler et Larntz, 1980) ;
  • des recommandations plus récentes se trouvent, par exemple, dans P. Greenwood et M. Nikulin, "A Guide to Chi-Squared Testing", (1996), John Wiley and Sons.

Tests apparentés[modifier | modifier le code]

Il existe un test asymptotique très semblable, le test du rapport de vraisemblance (likelihood ratio test), ainsi qu'un test exact, le test exact de Fisher.

Le développement des méthodes bayésiennes - seules utilisables lorsqu'on n'a que peu de données sous la main - a dégagé un test de vraisemblance nommé le psi-test, dont Myron Tribus fait remarquer qu'il devient asymptotiquement identique au χ² à mesure que le nombre de données augmente[5].

Notes et références[modifier | modifier le code]

  1. prononcer « khi-deux » ou « khi carré »
  2. (en) Stephen Stigler, « Karl Pearson’s theoretical errors and the advances they inspired », Statistical Science, no 23,‎ 2008, p. 261–271 (lire en ligne)
  3. Cameron et Trivedi 2005, p. 266.
  4. Didier Dacunha-Castelle, Marie Duflo, Probabilités et statistiques, Masson (1982), p.134-135
  5. Myron Tribus, Décisions rationnelles dans l'incertain, traduction française de Jacques Pézier, Masson, 1974

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • (en) Colin Cameron et Pravin Trivedi, Microeconometrics: Methods And Applications, Cambridge University Press,‎ 2005, 1056 p. (ISBN 978-0521848053)
  • P. E. Greenwood et M. S. Nikulin, A Guide to Chi-Squared Testing, John Wiley and Sons, 1996.

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]