Statistique d'ordre

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Distribution pour la statistique d'ordre 5 d'une distribution exponentielle avec θ = 3.

En statistiques, la statistique d'ordre de rang k d'un échantillon statistique est égal à la k-ième plus petite valeur. Associée aux statistiques de rang, la statistique d'ordre fait partie des outils fondamentaux de la statistique non paramétrique et de l'inférence statistique.

Deux cas importants de la statistique d'ordre sont les statistiques du minimum et du maximum, et dans une moindre mesure la médiane de l'échantillon ainsi que les différents quantiles.

Quand on emploie la théorie des probabilités pour analyser les statistiques d'ordre d'un échantillon aléatoire issu d'une distribution continue, la fonction de distribution cumulative est employée pour ramener l'analyse au cas de la statistique d'ordre sur une distribution uniforme

Notation et exemples[modifier | modifier le code]

Soit une expérience conduisant à l'observation d'un échantillon de 4 nombres, prenant les valeurs suivantes :

6, 9, 3, 8,

que l'on note selon la convention :

x_1=6;\ \ x_2=9;\ \ x_3=3;\ \ x_4=8\,

où le i en indice sert à identifier l'observation (par son ordre temporel, le numéro du dispositif correspondant, etc.), et n'est pas a priori corrélée avec la valeur de l'observation.

On note la statistique d'ordre :

x_{(1)}=3;\ \ x_{(2)}=6;\ \ x_{(3)}=8;\ \ x_{(4)}=9\,

où l'indice (i) dénote la i-ième statistique d'ordre de l'échantillon suivant la relation d'ordre habituelle sur les entiers naturels.

Par convention, la première statistique d'ordre, notée X_{(1)}, est toujours le minimum de l'échantillon, c'est-à-dire :

X_{(1)}=\min\{\,X_1,\ldots,X_n\,\}

Suivant la convention habituelle, les lettres capitales renvoient à des variables aléatoires, et les lettres en bas de casse aux valeurs observées (réalisations) de ces variables.

De même, pour un échantillon de taille n, la statistique d'ordre n (autrement dit, le maximum) est

X_{(n)}=\max\{\,X_1,\ldots,X_n\,\}.

Les statistiques d'ordre sont les lieux des discontinuités de la fonction de répartition empirique de l'échantillon.

Analyse probabiliste[modifier | modifier le code]

Densité d'une statistique d'ordre[modifier | modifier le code]

Étant donné une échantillon X=(X_{1}, X_{2}, \ldots, X_{n}), les statistiques d'ordres, notées X_{(1)}, X_{(2)}, \ldots, X_{(n)}, sont donc obtenues par tri croissant.

Théorème — Si on suppose l'échantillon X indépendant et identiquement distribué selon une loi de densité f et de fonction de répartition F, alors la densité de la k-ème statistique d'ordre est


f_{X_{(k)}}(x) = {n! \over (k-1)!(n-k)!} F(x)^{k-1} (1-F(x))^{n-k} f(x).

En particulier


f_{X_{(n)}}(x) = n F(x)^{n-1}\ f(x),

formule qu'on peut trouver directement, en dérivant le résultat du calcul ci-dessous :


\begin{align}
P\left(X_{(n)}\leq  x\right) & {} = F_{X_{(n)}}(x)  \\
&=P\left( \max(X_1,...,X_n) \leq x \right) \\
&=P\left(\text{chacun des}\ n\ X\ \mathrm{est}\ \leq x \right) \\
&=P\left( X_1 \leq  x\right)...P\left( X_n \leq x \right) \\
&=F\left(  x\right)...F\left( x\right) \\
&=F\left( x\right)^{n}
\end{align}

Pour la loi uniforme continue, la densité de la k-ème statistique d'ordre est celle d'une Loi bêta, de paramètres k et n+1-k.

Densité jointe de toutes les statistiques d'ordre[modifier | modifier le code]

Théorème — Si on suppose l'échantillon X indépendant et identiquement distribué selon une loi de densité f, alors la densité jointe des n statistiques d'ordre est


f(x_{(1)},\dots,x_{(n)})\ =\ n!\ \left(\prod_{i=1}^{n} f(x_{(i)})\right)\  1\!\!1_{x_{(1)}< x_{(2)}<\dots< x_{(n-1)}< x_{(n)}}.

Références[modifier | modifier le code]