U-statistique

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Les U-statistiques, ou U-estimateurs, forment une classe de statistiques introduite par le statisticien finlandais Wassily Hoeffding en 1948, jouant un rôle important en théorie de l'estimation. La lettre U est l'initiale de «unbiased» en anglais, qui signifie «non biaisé». Les U-statistiques sont les statistiques qui peuvent s'écrire comme la moyenne empirique d'une fonction symétrique à variables prise sur toutes les sous-parties de taille d'un échantillon. Ces statistiques partagent des propriétés intéressantes et permettent entre autres de construire des estimateurs non biaisés. Les U-statistiques comprennent de nombreux estimateurs classiques tels que la moyenne empirique ou la variance empirique non biaisée .

Définition[modifier | modifier le code]

Définition comme statistique[modifier | modifier le code]

Soit et une fonction symétrique.

Alors l'application qui à un échantillon de taille associe :

est appelée une U-statistique d'ordre et de kernel [1].

Cette statistique est la moyenne de prise sur toutes les parties de .

Définition en tant que fonctionnelle[modifier | modifier le code]

On peut aussi définit une U-statistique en tant que fonctionnelle, c'est-à-dire une application d'un espace de distribution de probabilité dans .

Soit l'ensemble des distributions de probabilité sur un ensemble mesurable , une U-statistique est une fonctionnelle de la forme :

Cette définition en tant que fonctionnelle est une généralisation de la première. En effet on remarque que si est la distribution empirique d'un échantillon , alors

C'est-à-dire que la fonctionnelle évaluée en est égale à la statistique appliquée à l'échantillon . La définition par une fonctionnelle permet de parler d'une U-statistique évaluée en une distribution qui ne serait pas une distribution empirique, ce que ne permet pas la première définition.

Si sont des variables aléatoires identiquement distribuées, si est mesurable, par linéarité de l'espérance, est un estimateur non biaisé de . Ce qui explique le nom U-statistique venant de Unbiased.

Exemples[modifier | modifier le code]

De nombreux estimateurs classiques peuvent s'écrire comme des U-estimateurs:

  • L'estimateur classique la moyenne empirique est un U-estimateur d'ordre 1, et de kernel .
  • L'estimateur non biaisé de la variance peut se réécrire . Il s'agit donc d'un U-estimateur d'ordre 2 et de kernel .
  • L'estimateur du tau de Kendall peut s'écrire . Il s'agit donc d'un U-estimateur d'ordre 2.
  • L'estimateur de l'écart absolu moyen est une U-statistique d'ordre 2 et de kernel .
  • La statistique d'un test de Wilcoxon sur  : « Mediane» peut s'écrire , soit et sont deux U-statistiques: d'ordre 1 et de kernel et d'ordre 2 et de kernel [2]

Propriétés[modifier | modifier le code]

Dans ce qui suit, les échantillons sont tous supposés indépendant et identiquement distribués par défaut.

Normalité asymptotique[modifier | modifier le code]

  • Les U-statistiques sont asymptotiquement normales, l'analogue du théorème central limite pour les U-statistiques a été établi par Hoeffding en 1948 :

Normalité asymptotique des U-statistiques — (Hoeffding, 1948)

Soit une loi de probabilité, une suite de variables aléatoires indépendantes et identiquement distribuées de loi et une U-statistique d'ordre et kernel .

Alors, si existe,

et

Variance d'une U-statistique[modifier | modifier le code]

La variance d'une U-statistique d'ordre et de kernel est donnée par[3] :

où pour ,


Estimateurs non biaisé[modifier | modifier le code]

Paul Halmos a démontré en 1946 que les seules fonctionnelles admettant un estimateur non biaisé quelle que soit la distribution des données sont les U-statistiques (en tant que fonctionnelles). Alors, l'estimateur non biaisé de variance minimum est la U-statistique correspondante. Plus formellement[4],

Absence de biais des U-statistiques — (Halmos, 1946)

Soit une fonctionnelle. S'il existe une statistique non biaisée indépendamment de la distribution de , c'est-à-dire telle que pour toute distribution de probabilité ,

alors il existe un entier et une fonction symétrique à variables tels que :
.

Alors, le U-estimateur a la plus petite variance parmi les estimateurs vérifiant pour toute distribution .

En particulier, Tout U-estimateur de kernel et d'ordre est un estimateur non biaisé de .

Ce résultat ne signifie pas que les seuls estimateurs non biaisés sont des U-estimateurs, mais que les seuls estimateur non biasés, indépendemment de la distribution des donnnées sont des M-estimateur. Par exemple, la médiane empirique est un estimateur non biaisé de l'espérance sur des données issues d'une loi exponentielle (ou même de toute loi symétrique), bien qu'il ne s'agisse pas d'une U-statistique. En revanche, il ne s'agit pas d'un estimateur non biaisé de l'espérance indépendamment de la distribution des données, puisque si les données proviennent d'un loi du , alors la médiane empirique est un estimateur biaisé de la moyenne (de biais environ ).

De même, les U-estimateurs associés à une U-fonctionnelle ne sont pas nécessairement les estimateurs les plus efficaces. Ce sont simplement les estimateurs efficaces parmi les estimateurs non biaisé indépendamment de la distribution des données. Par exemple, sur des données issues d'une loi exponentielle, la médiane empirique est plus efficace que la moyenne empirique pour estimer l'espérance. Mais cela ne contredit pas le résultat précédent, puisque la médiane empirique n'est pas un estimateur non biaisé indépendamment de la distribution des données.

Références[modifier | modifier le code]

  1. (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, no 3,‎ , p. 293-325 (lire en ligne)
  2. Notes du cours «Large sample theory» donnée par Thomas S. Frugusson à l'Université de Californie Los Angeles
  3. Note du cours de statistiques donné par David Hunter à la Pennsylvania State University
  4. (en) Paul R. Halmos, « The Theory of Unbiased Estimation », The Annals of Mathematical Statistics, vol. 17, no 1,‎ , p. 34-43 (lire en ligne)