Aller au contenu

Loi T² d'Hotelling

Un article de Wikipédia, l'encyclopédie libre.

Loi T² d'Hotelling
Image illustrative de l’article Loi T² d'Hotelling
Densité de probabilité

Image illustrative de l’article Loi T² d'Hotelling
Fonction de répartition

Paramètres p - dimension des variables aléatoires
m - nombre de variables
Support si
sinon.

En statistiques, plus particulièrement dans les tests d'hypothèses, la loi T2 de Hotelling, proposée par Harold Hotelling[1], est une loi de probabilité multivariée qui est étroitement liée à la loi de Fisher et qui se distingue surtout par le fait qu'elle apparaît comme la loi d'un ensemble de statistiques d'échantillon qui sont des généralisations naturelles des statistiques sous-jacentes à la loi t de Student. La statistique t2 de Hotelling est une généralisation de la statistique t de Student qui est utilisée dans les tests d'hypothèses multivariées . [2]

La loi apparaît dans les statistiques multivariées lors de la réalisation de tests sur les différences entre les moyennes (multivariées) de différentes populations, où les tests pour les problèmes univariés utiliseraient un test t . La loi porte le nom de Harold Hotelling, qui l'a développée comme une généralisation de la loi t de Student[1].

Définition

[modifier | modifier le code]

Si le vecteur est une loi normale multivariée avec une moyenne nulle et une matrice de covariance unitaire et est une matrice aléatoire suivant un loi de Wishart avec une matrice d'échelle unitaire et à m degrés de liberté, et d et M sont indépendants l'un de l'autre, alors la forme quadratique suit une loi de Hotelling (de paramètres et [3])

On peut montrer que si une variable aléatoire X a la loi T2 de Hotelling, , alors[1]:

est la loi de Fisher de paramètres p et m − p + 1.

Statistique t2 d'Hotelling

[modifier | modifier le code]

Soit la covariance de l'échantillon :

où l'exposant T désigne la transposition. On peut montrer que est une matrice semi-définie positive et suit une loi de Wishart p-variée à n − 1 degrés de liberté. [4] L'échantillon de matrice de covariance de la moyenne s'obtient par .

La statistique t2 de Hotelling est alors définie comme[5]:

qui est proportionnelle à la distance de Mahalanobis entre la moyenne de l'échantillon et . Pour cette raison, on devrait s’attendre à ce que la statistique prenne des valeurs faibles si , et des valeurs élevées si elles sont différentes.

Par la définition de la loi,

est la loi de Fisher avec les paramètres p et n − p .

Afin de calculer une valeur p (sans rapport avec la variable p ici), il faut remarquer que la loi de implique de manière équivalente que

Ensuite, on utilise la quantité sur le côté gauche pour évaluer la valeur p correspondant à l'échantillon, qui provient de la loi de Fisher. Un ellipsoïde de confiance peut également être déterminé en utilisant une logique similaire.

Soit une loi normale p-variée de vecteur moyenne et matrice de covariance connue . Soient

n variables aléatoires indépendantes identiquement distribuées (iid), qui peuvent être représentées comme vecteurs colonnes de nombres réels. On pose

comme la moyenne de l'échantillon avec de covariance . On peut montrer que

est la loi du chi carré avec p degrés de liberté.

Statistique sur deux échantillons

[modifier | modifier le code]

Si on définit et , avec les échantillons tirés indépendamment de deux lois normales multivariées indépendantes avec la même moyenne et la même covariance, et on pose

comme les moyennes des échantillons, et

comme les matrices de covariance d'échantillon respectives. Alors

est l'estimateur non biaisé de la matrice de covariance groupée (une extension de la variance composite).

Enfin, la statistique t2 à deux échantillons de Hotelling est

Notions associées

[modifier | modifier le code]

Cela peut être lié à la loi de Fisher par [4]

La loi non nulle de cette statistique est la loi de Fisher non centrée (le rapport d'une variable aléatoire suivant la loi du χ² non centrée et d'une variable aléatoire centrale indépendante suivant une loi du χ² )

avec

est le vecteur de différence entre les moyennes de la population.

Dans le cas à deux variables, la formule se simplifie bien, permettant d'apprécier comment la corrélation entre les variables affecte . Si l'on définit

et

alors

Ainsi, si les différences entre les deux lignes du vecteur sont du même signe, en général, devient plus petit à mesure devient plus positif. Si les différences sont de signes opposés, devient plus grand à mesure devient plus positif.

Un cas particulier univarié peut être trouvé dans le test t de Welch.

Des tests plus robustes et plus puissants que le test à deux échantillons de Hotelling ont été proposés dans la littérature, voir par exemple les tests basés sur la distance entre points qui peuvent également être appliqués lorsque le nombre de variables est comparable, voire supérieur, au nombre de sujets[7],[8].

Voir également

[modifier | modifier le code]
  • Test de Student pour les statistiques univariées
  • Loi de Student pour les probabilités univariées
  • Loi de Student multivariée
  • Loi de Fisher (généralement tabulée ou disponible dans les bibliothèques numériques, et donc utilisée pour tester la statistique T2 en utilisant la relation donnée ci-dessus)
  • Loi du lambda de Wilks (dans les statistiques multivariées, le Λ de Wilks est au T 2 de Hotelling ce que la loi de Snedecor est à la loi de Student dans les statistiques univariées)

Références

[modifier | modifier le code]
  1. a b et c (en) Hotelling, « The generalization of Student's ratio », Annals of Mathematical Statistics, vol. 2, no 3,‎ , p. 360–378 (DOI 10.1214/aoms/1177732979)
  2. Johnson, R.A. et Wichern, D.W., Applied multivariate statistical analysis, vol. 5, Prentice hall (no 8),
  3. (en) Eric W. Weisstein, « Hotelling T-Squared Distribution », sur MathWorld
  4. a et b (en) K. V. Mardia, J. T. Kent et J. M. Bibby, Multivariate Analysis, Academic Press, (ISBN 978-0-12-471250-8)
  5. « 6.5.4.3. Hotelling's T squared »
  6. (en) Billingsley, P., Probability and measure, 3rd, (ISBN 978-0-471-00710-4), « 26. Characteristic Functions »
  7. (en) Marozzi, « Multivariate tests based on interpoint distances with application to magnetic resonance imaging », Statistical Methods in Medical Research, vol. 25, no 6,‎ , p. 2593–2610 (PMID 24740998, DOI 10.1177/0962280214529104)
  8. (en) Marozzi, « Multivariate multidistance tests for high-dimensional low sample size case-control studies », Statistics in Medicine, vol. 34, no 9,‎ , p. 1511–1526 (PMID 25630579, DOI 10.1002/sim.6418)

Liens externes

[modifier | modifier le code]