Écart type

L'écart type (standard deviation en anglais), aussi orthographié écart-type, est une notion mathématique définie en probabilités et appliquée à la statistique. En probabilité, l'écart type est une mesure de la dispersion d'une variable aléatoire ; en statistique, il est une mesure de dispersion de données. Il est défini comme la racine carrée de la variance, ou de manière équivalente comme la moyenne quadratique des écarts par rapport à la moyenne. Il a la même dimension que la variable aléatoire ou la variable statistique en question.

Les écarts types sont rencontrés dans tous les domaines où sont appliquées les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée. Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, le coefficient de variation ou la répartition optimale de Neyman.

Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.

Histoire

L'écart-type est une grandeur dont l'invention remonte à la période du XIX^e siècle qui vit la statistique se développer au Royaume-Uni.

C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718^{[b 1]}. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la « London Royal Society »^{[b 2]}. C'est aussi Karl Pearson qui utilisa pour la première fois le symbole $\scriptstyle \sigma$ pour représenter l'écart type^{[b 2]}. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population^{[b 2]}. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé The Correlation between Relatives on the Supposition of Mendelian Inheritance^{[i 1]}.

Contexte général

En statistique comme en probabilités, on définit des critères de position ainsi que des critères de dispersion. Dans le domaine des probabilités, la dispersion d'une variable aléatoire réelle X autour de sa moyenne est mesurée par divers indicateurs comme l'écart interquartile, l'étendue, la variance, l'écart type, etc.^{[b 3]}.

En statistique descriptive, où l'étude porte sur une population finie parfaitement connue, la moyenne et la médiane sont utilisées comme critères de position et l'écart type, l'écart moyen, l'étendue, etc. comme critères de dispersion. Tous ces critères aident ensemble à résumer l'échantillon statistique^{[b 4]}.

Dans la pratique, on préfère l'écart type $\scriptstyle \sigma$ (lettre grecque sigma) à la variance $\scriptstyle V=\sigma ^{2}$ , car l'écart type peut être comparé à l'ordre de grandeur des valeurs, ce qui n'est pas le cas de la variance^{[b 5]}.

Applications

L'écart type sert à mesurer la dispersion d'un ensemble de données. Plus il est faible, plus les valeurs sont regroupées autour de la moyenne. Par exemple pour la répartition des notes d'une classe, plus l'écart type est faible, plus la classe est homogène. À l'inverse, s’il est plus important, les notes sont moins resserrées. Dans le cas d'une notation de 0 à 20, l'écart type minimal est 0 (notes toutes identiques), et peut valoir jusqu'à 10 si la moitié de la classe a 0/20 et l'autre moitié 20/20^{[Note 1]}.

En sciences, il est fréquent de considérer que les valeurs se répartissent selon une courbe de Gauss. Dans le cas des sciences sociales, par exemple, la moyenne et l'écart type permettent de déterminer un intervalle dans lequel on trouve une majorité de la population. En effet, si la moyenne est $\scriptstyle m$ et l'écart type est $\scriptstyle \sigma$ , on trouve 95 % de la population dans l'intervalle $\scriptstyle [m-1,96\,\sigma \,;\,m+1,96\,\sigma ]$ et on trouve 68,2 % de la population dans l'intervalle $\scriptstyle [m-\,\sigma \,;\,m+\,\sigma ]$ ^{[b 6]}.

L'écart type est aussi utilisé pour construire un intervalle de confiance attribuable à un échantillon. Si l'on se réfère à la figure ci-contre, on voit qu'un sigma d'écart de part et d'autre de la valeur moyenne recouvre 68,2% de la distribution, deux sigmas d'écart ([ $\scriptstyle -2\sigma$ , $\scriptstyle +2\sigma$ ], 13,6+34,1+34,1+13,6 =) 95,4%, 3 sigmas d'écart ([ $\scriptstyle -3\sigma$ , $\scriptstyle +3\sigma$ ], 2,1+13,6+34,1+34,1+13,6+2,1 =) 99,6% et ainsi de suite... C'est l'usage notamment en physique des particules, où la détection d'évènements est quantifiée en nombre de sigmas, et où un résultat notamment est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00003 % (niveau de confiance de plus de 99.99997%)^{[i 2]}.

fig.03 - La moyenne mobile est en rouge et les bandes de Bollinger, calculées à l'aide de l'écart type, sont en bleu.

Dans le domaine de l'analyse technique des cours de la bourse, l'écart type est une mesure de la volatilité des cours ^{[b 7]}. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type^{[i 3]}. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz^{[i 4]}.

Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produits manufacturés ou dans l'indice de fidélité d'un appareil de mesure^{[i 5]}^,^{[i 6]}.

Enfin, en mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Planck réduite divisée par deux, soit $\scriptstyle \sigma _{x}\sigma _{p}\geq {\frac {\hbar }{2}}$ ^{[i 7]}.

En probabilités

Dans la formulation moderne des probabilités, à la suite des travaux de Henri Lebesgue et à la mise en place de l'axiomatique de Kolmogorov, une variable aléatoire X est une application à valeurs réelles, ou vectorielles^{[Note 2]}, suivant une loi de probabilité P. L'application X ne joue pas un rôle fondamental ; seule sa loi importe : l'image de P par X, notée P_X. Il s'agit d'une mesure sur $\scriptstyle \mathbb {R}$ ou sur $\scriptstyle \mathbb {R} ^{n}$ ^{[b 8]}.

Définition

Si X est une variable aléatoire de carré intégrable, appartenant donc à l'espace $\scriptstyle {\mathcal {L}}^{2}\left(\Omega ,{\mathcal {A}},P\right)$ ^{[Note 3]}, son écart type, généralement noté $\scriptstyle \sigma _{X}$ , est défini comme la racine carrée de l'espérance mathématique de (X−E[X])² , soit:

\sigma _{X}={\sqrt {E\left[\left(X-E[X]\right)^{2}\right]}}={\sqrt {E[X^{2}]-E[X]^{2}}}

^{[Note 4]}^,^{[i 8]}.

L'élévation au carré pour le membre de droite désigne implicitement la norme euclidienne au carré dans le cas où X est à valeurs vectorielles.

Enfin, l'écart type élevé au carré est égal à la variance.

Exemples

Cette identité se spécialise dans un grand nombre de cas particuliers, dont celui des variables aléatoires discrètes. Si la variable X prend un nombre fini de valeurs réelles x₁, …, x_n, avec des probabilités respectives p₁, …, p_n, l'écart type est donné par

\sigma :={\sqrt {\sum _{i=1}^{n}p_{i}(x_{i}-{\bar {x}})^{2}}}={\sqrt {\left(\sum _{i=1}^{n}p_{i}{x_{i}}^{2}\right)-{\bar {x}}^{2}}}

,

où ${\bar {x}}$ désigne la moyenne $\scriptstyle \sum _{i=1}^{n}p_{i}x_{i}$ . En particulier, si la loi de X est uniforme sur un ensemble fini de valeurs, c'est-à-dire si

p_{i}={\frac {1}{n}},i=1,\ldots ,n

^{[b 9]},

alors

\sigma _{X}:={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\sqrt {{\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}^{2}\right)-{\bar {x}}^{2}}}

,

où cette fois, $\scriptstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ .

Ces formules se généralisent immédiatement en dimension supérieure en remplaçant l'élévation au carré par la norme euclidienne au carré.

La loi P_X est dite continue lorsque la probabilité que X appartienne au segment ]a,b[ est

\mathbb {P} _{X}]a,b[\longmapsto \mathbb {P} \left(X\in ]a,b[\right)=\int _{a}^{b}f(x)\,\mathrm {d} x

où ƒ est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue^{[b 10]}. Cette fonction ƒ s'appelle la densité de probabilité de la loi P_X. L'écart type de X est défini par

\sigma _{X}:={\sqrt {\int _{\mathbb {R} }(x-{\bar {x}})^{2}f(x)\mathrm {d} x}}

où

\scriptstyle {\bar {x}}={\sqrt {\int _{\mathbb {R} }xf(x)\,\mathrm {d} x}}

et la formule

\sigma _{X}:={\sqrt {\int _{\mathbb {R} }x^{2}f(x)\mathrm {d} x-{\left(\int _{\mathbb {R} }xf(x)\,\mathrm {d} x\right)}^{2}}}

est équivalente aussi.

Avec ces formules et la définition le calcul des écarts types pour les lois couramment rencontrées est aisée. Le tableau suivant donne les écarts types de quelques-unes de ces lois :

Nom de la loi	Paramètre(s)	Description	Écart type
Loi de Bernoulli^{[b 9]}	p	Loi discrète de valeurs 0 avec probabilité 1-p et 1 avec probabilité p	$\scriptstyle \sigma ={\sqrt {p(1-p)}}$
Loi binomiale^{[b 11]}	p et $\scriptstyle n\in \mathbb {N} ^{*}$	Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de paramètre p	$\scriptstyle \sigma ={\sqrt {np(1-p)}}$
Loi géométrique^{[b 12]}	p	Loi discrète sur $\mathbb {N}$ telle que la probabilité d'obtenir l'entier n soit (1-p)pⁿ	$\scriptstyle \sigma ={\sqrt {\frac {1-p}{p^{2}}}}$
Loi uniforme sur un segment^{[b 13]}	a<b	Loi uniformément continue sur $\mathbb {R}$ de densité un multiple de la fonction indicatrice de [a;b]	$\scriptstyle \sigma ={\frac {b-a}{\sqrt {12}}}$
Loi exponentielle^{[b 13]}	p	Loi uniformément continue de support $\mathbb {R} _{+}$ de densité la fonction $f\colon x\mapsto p\exp(-px)$	$\scriptstyle \sigma ={\frac {1}{p}}$
Loi de Poisson^{[b 14]}	$\scriptstyle \lambda$	Loi sur $\mathbb {N}$ de densité la fonction $\scriptstyle f\colon x\mapsto \exp(-\lambda ){\frac {\lambda ^{x}}{x!}}$ où $\scriptstyle \lambda \in \mathbb {R} _{+}$	$\scriptstyle \sigma ={\sqrt {\lambda }}$
Loi du χ²^{[b 15]}	$\scriptstyle n$	Loi sur $\mathbb {R} ^{+}$ de densité la fonction $\scriptstyle f\colon x\mapsto {\frac {1}{2^{\frac {n}{2}}\Gamma ({\frac {n}{2}})}}x^{{\frac {n}{2}}-1}e^{-{\frac {x}{2}}}\,$ pour tout x positif où $\scriptstyle \Gamma$ est la fonction gamma	$\scriptstyle \sigma ={\sqrt {2n}}$

Si la variable X suit une loi log-normale alors $\scriptstyle \ln X$ suit une loi normale et l'écart type de X est relié à l'écart type géométrique^{[b 16]}.

Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique^{[b 17]}.

Propriétés

L'écart type est toujours positif ou nul, celui d'une constante est nul. L'écart type d'une variable aléatoire X à laquelle a été ajoutée une constante ^{[Note 5]} est égal à l'écart type de la variable X. Cette propriété est nommée invariance par translation. L'écart type d'une variable multipliée par une constante est égal à la valeur absolue de la constante multipliée par l'écart type de la variable. Cette propriété est nommée invariance par dilatation^{[Note 6]}^,^{[b 18]}. Ceci peut se résumer par $\scriptstyle \sigma _{cX+b}=|c|\sigma _{X}$ .

L'écart type de la somme algébrique de deux variables est égal à $\scriptstyle \sigma _{X\pm Y}={\sqrt {\sigma _{X}^{2}+\sigma _{Y}^{2}\pm 2\sigma _{X}\sigma _{Y}\rho (X,Y)}}$ où $\scriptstyle \rho (X,Y)$ est le coefficient de corrélation entre les deux variables X et Y^{[b 19]}.

La fonction $\scriptstyle \mathbb {R} \rightarrow \mathbb {R} ^{+}:c\rightarrow {\sqrt {(|X-c|^{2})}}$ admet son minimum au point $\scriptstyle c=E(X)$ et prend donc pour valeur en ce point l'écart type de la variable $\scriptstyle X$ ^{[b 20]}.

Usage

L'écart type intervient en probabilité pour comparer des variables ou des distributions entre elles.

Variable centrée réduite

Si X est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Z définie par $\scriptstyle Z={\frac {X-{\bar {X}}}{\sigma }}$ . Deux variables aléatoires centrées et réduites $\scriptstyle Z_{1}$ et $\scriptstyle Z_{2}$ sont aisées à comparer, puisque $\scriptstyle E(Z_{i})=0$ et $\scriptstyle \sigma _{Z_{i}}=1$ ^{[b 21]}.

Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites^{[b 22]}, les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, $\scriptstyle E[Z^{3}]~{et}~E[Z^{4}]$ , permettent de comparer des distributions différentes^{[b 23]}.

Coefficient de corrélation

Article détaillé : Corrélation (statistiques).

Le coefficient de corrélation est une autre application de l'écart type en probabilité. Si X et Y sont deux variables aléatoires, on appelle coefficient de corrélation le rapport $\scriptstyle \rho ={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}$ où $\scriptstyle \operatorname {cov} (X,Y)=\mathbb {E} [(X-\mathbb {E} [X])\,(Y-\mathbb {E} [Y])]=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]$ est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz, $\scriptstyle |\operatorname {cov} (X,Y)|\leq \sigma _{X}\sigma _{Y}$ ; ce qui permet de dire que $\scriptstyle \rho$ prend ses valeurs dans l'intervalle $\scriptstyle [-1,+1]$ ^{[b 24]}. Si $\scriptstyle \rho =0$ les deux variables ne sont pas corrélées, si $\scriptstyle \rho =\pm 1$ les deux variables sont linéairement dépendantes^{[b 25]}.

Inégalité de Bienaymé-Tchebychev

Article détaillé : Inégalité de Bienaymé-Tchebychev.

C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que $\scriptstyle P(|X-E(X)|>k\sigma )\leq {\frac {1}{k^{2}}}$ ^{[b 3]} et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart type est inférieure à $\scriptstyle {\frac {1}{k^{2}}}$ ^{[b 26]}.

En statistique

Pour une population finie - relativement faible en nombre - le calcul de l'écart type est purement algébrique, sans référence aux probabilités, et le statisticien emploie l'écart type empirique défini par $\scriptstyle s:={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ ^{[b 27]}.

Mais, en statistique, la population étudiée est souvent très importante en nombre, et il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée. Le statisticien procède par échantillonnage et estimation pour évaluer les grandeurs analysées telles que l'écart type.

Estimateurs

Un estimateur est une fonction permettant d'approcher un paramètre d'une population à l'aide d'un échantillon tiré au hasard^{[b 28]}.

Deux estimateurs de l'écart type sont généralement utilisés. Ces estimateurs sont notés $\scriptstyle S_{n}$ (ou S) et $\scriptstyle {S_{n-1}}$ (ou S′ ) et s'expriment en fonction des valeurs de l'échantillon par $\scriptstyle S_{n}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}$ et $\scriptstyle S_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}={\sqrt {\frac {n}{n-1}}}\cdot S_{n}$ . $\scriptstyle {S_{n-1}}$ est l'estimateur privilégié^{[b 29]}^,^{[b 27]}.

En effet, une bonne estimation de l'écart type réel serait

\sigma _{X}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}}

,

où $\mu$ désigne la moyenne vraie de la distribution des $x_{i}$ . Malheureusement, le plus souvent on ne connaît pas $\mu$ et on doit l'estimer à partir de l'échantillon lui-même grâce à l'estimateur suivant : $\scriptstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ .

L'estimateur de l'écart-type se calcule alors par la formule :

$S_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$

Le fait de faire intervenir non pas n mais n-1 au dénominateur vient du fait que déterminer la moyenne de x à partir de l'échantillon fait perdre un degré de liberté puisque la formule $\scriptstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ relie $\scriptstyle {\bar {x}}$ aux valeurs $\scriptstyle x_{i}$ . On a donc seulement n-1 valeurs indépendantes après le calcul de $\scriptstyle {\bar {x}}$ .

Propriétés des estimateurs

Ainsi, deux propriétés importantes des estimateurs sont la convergence et l'absence de biais^{[b 27]}.

Si $\scriptstyle {\hat {\theta }}$ est un estimateur du paramètre $\scriptstyle \theta$ , le biais est la quantité $\scriptstyle E[{\hat {\theta }}]-\theta$ . Si cette quantité est différente de zéro, cela signifie que $\scriptstyle {\hat {\theta }}$ se positionne autour de $\scriptstyle E[{\hat {\theta }}]$ au lieu de se positionner autour de $\scriptstyle \theta$ . L'estimateur $\scriptstyle {\hat {\theta }}$ est alors entaché d'erreur. Un bon estimateur n'a pas de biais^{[b 30]}. Un estimateur naturel de l'écart type est $\scriptstyle S_{n-1}$ biaisé mais dont le biais est acceptable^{[b 31]}^,^{[Note 7]}^,^{[i 9]}.

Si $\scriptstyle \lim \limits _{n\to \infty }(a_{n})=a$ , $\scriptstyle (a_{n})$ converge vers a quand n tend vers l'infini^{[Note 8]}. Or, $\scriptstyle {S_{n}}^{2}$ et $\scriptstyle {S_{n-1}}^{2}$ sont des estimateurs convergents de σ², ce qui reflète l'approximation de σ² par ces deux séries lorsque n devient de plus en plus grand^{[b 30]}. Grâce au théorème de continuité, stipulant que si f est continue $\scriptstyle \lim \limits _{n\to \infty }f(X_{n})=f(\lim \limits _{n\to \infty }X_{n})$ , la fonction racine carrée étant continue, les estimateurs $\scriptstyle S_{n}$ et $\scriptstyle S_{n-1}$ sont convergents eux aussi^{[Note 9]}^,^{[b 32]}. Ce qui conforte le statisticien à utiliser ces estimateurs.

Écart type des moyennes

Pour estimer la précision de l'estimation de la moyenne d'une variable, la méthode du calcul de l'écart type de la distribution d'échantillonnage des moyennes est utilisée. Appelé aussi erreur type de la moyenne (« Standard error »), noté $\scriptstyle \sigma _{\bar {x}}$ , c'est l'écart type des moyennes des échantillons de tailles identiques d'une population. Si n est la taille des échantillons prélevés sur une population d'écart type $\scriptstyle \sigma$ , et si N est la taille de la population, alors $\scriptstyle \sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}$ ^{[b 33]}. Lorsque l'écart type $\scriptstyle \sigma$ de la population est inconnu, il peut être remplacé par l'estimateur $\scriptstyle S_{n-1}$ ^{[b 33]}. Quand n est suffisamment grand ( $\scriptstyle n\geq 30$ ), la distribution d'échantillonnage suit approximativement une loi de Laplace-Gauss, ce qui permet de déduire un intervalle de confiance, fonction de $\scriptstyle \sigma _{\bar {x}}$ , permettant de situer la moyenne de la population par rapport à la moyenne de l'échantillon^{[b 34]}^,^{[b 35]}.

Écart type des écarts types empiriques

En général, il est très difficile de calculer la loi de distribution des écarts types empiriques. Mais si $\scriptstyle X_{n}$ est une suite de variables aléatoires distribuées selon la loi normale $\scriptstyle {\mathcal {N}}(\mu ,\sigma ^{2})$ , alors $\scriptstyle n{\frac {S_{n}^{2}}{\sigma ^{2}}}$ suit une loi du $\scriptstyle \chi ^{2}$ à n degrés de liberté^{[b 15]}^,^{[Note 10]}. Cette loi a pour écart type $\scriptstyle {\sqrt {2n}}$ et donc l'écart type de la distribution des écarts types de variables normales a pour expression $\scriptstyle \sigma _{S_{n}^{2}}=\sigma ^{2}{\sqrt {\frac {2}{n}}}$ ^{[b 15]}.

Interprétation d'un écart type élevé

La notion d'écart type élevé n'a aucun sens dans l'absolu. Elle ne traduit une forte dispersion que si on rend la valeur adimensionnelle en la divisant par la moyenne ^{[b 5]}.

Un écart type élevé peut éventuellement signaler l'existence d'une valeur aberrante. Un critère consiste à rejeter les valeurs qui diffèrent de la moyenne par plus de 3 fois l'écart type, ce qui correspond selon la loi normale à une probabilité de dépassement de l'ordre de 3/1000 ^{[b 36]}.

Sondages d'opinion

Dans les sondages d'opinion, l'écart type $\scriptstyle \sigma _{\bar {x}}$ évalue l'incertitude des variations accidentelles de $\scriptstyle {\bar {x}}$ inhérentes au sondage, ce qu'on appelle la marge d'erreur due aux variations accidentelles^{[i 10]}.

De plus, avec la méthode d'échantillonnage représentatif, lorsque les différentes strates ont des écarts types très différents, l'écart type est utilisé pour calculer la répartition optimale de Neyman qui permet d'évaluer la population dans les différentes strates en fonction de leur l'écart type ; en d'autres termes $\scriptstyle n_{i}=n{\frac {N_{i}\sigma _{i}}{\sum N_{j}\sigma _{j}}}$ est la taille de l'échantillon dans la strate i, où n est la taille totale de l'échantillon, $\scriptstyle N_{i}$ est la taille de la strate i, $\scriptstyle \sigma _{i}$ l'écart type de la strate i^{[i 10]}.

En algorithmique

Le calcul de l'écart type par un programme d'ordinateur peut aboutir à des résultats incohérents si on n'utilise pas un algorithme adapté aux données, comme lorsqu'on utilise celui qui exploite directement la formule $\scriptstyle {\sqrt {{\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}^{2}\right)-\left({{\frac {1}{n}}\sum _{i=1}^{n}x_{i}}\right)^{2}}}$ sur des grands échantillons de valeurs comprises entre 0 et 1^{[i 11]}^,^{[i 12]}.

Un des meilleurs algorithmes est celui de B.P. Welford qui est décrit par Donald Knuth dans son livre The Art of Computer Programming, Vol 2^{[i 13]}^,^{[i 14]}.

Une approximation de l'écart type de la direction du vent est donnée par l'algorithme de Yamartino dont on se sert dans les anémomètres modernes^{[i 15]}^,^{[i 16]}.

Notes et références

Notes

↑ Si n élèves ont 0/20 et n élèves ont 20/20, c'est-à-dire l'échantillon contient n fois la valeur 20 et n fois la valeur 0, la moyenne est $\scriptstyle {\frac {n\times 20}{n+n}}$ ; soit $\scriptstyle {\bar {X}}=10$ et $\scriptstyle {\bar {X}}^{2}=100$ .
Les valeurs au carré, notées $\scriptstyle X^{2}$ , sont n fois 400 et n fois 0. La moyenne de $\scriptstyle X^{2}$ vaut donc $\scriptstyle {\overline {X^{2}}}=200$ . On en déduit que la variance vaut 100 et l'écart type 10.
↑ en fait, à valeurs dans des espaces de Banach, mais cet article se limite au cas réel qui est le plus utilisé en pratique
↑ où $\scriptstyle \Omega$ est un ensemble, $\scriptstyle {\mathcal {A}}$ une tribu sur $\scriptstyle \Omega$ , et $\scriptstyle P$ une mesure sur $\scriptstyle {\mathcal {A}}$ .
↑ la première égalité définit $\scriptstyle {\sigma _{X}}^{2}$ , la seconde est donnée par le Théorème de König-Huyghens
↑ $\scriptstyle Y=X+a$
↑ Toutes ces propriétés sont la conséquence directe du théorème de Huygens et des propriétés de l'espérance mathématique .
↑ D'après G. Saporta, on a, pour une distribution normale, $\scriptstyle E(S_{n-1})=\sigma {\sqrt {\frac {2}{n-1}}}{\frac {\Gamma ({\frac {n}{2}})}{\Gamma ({\frac {n-1}{2}})}}$ qui tend vers $\scriptstyle \sigma$ lorsque $\scriptstyle n\to \infty$ où $\scriptstyle S_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}}$ et $\scriptstyle \Gamma$ la Fonction gamma
↑ la convergence peut être en loi, en moyenne, presque surement, en probabilité...
↑ d'après le théorème de continuité on a :

Théorème — Si $g$ est continue, alors : $\scriptstyle X_{n}{\xrightarrow {\mathbb {P} }}X\Longrightarrow g(X_{n}){\xrightarrow {\mathbb {P} }}g(X)$

. Comme la fonction racine carrée est une fonction continue, $\scriptstyle S_{n-1}$ et $\scriptstyle S_{n}$ sont des estimateurs convergents de l'écart type, autrement dit : $\scriptstyle S_{n-1}{\xrightarrow {\mathbb {P} }}\sigma {\text{ et }}S_{n}{\xrightarrow {\mathbb {P} }}\sigma$
↑ par définition de la loi du $\scriptstyle \chi ^{2}$

Références

Ouvrages spécialisés

↑ Bernstein 1996, p. 127
↑ ^{a b et c} Dodge 2010, p. 506
↑ ^{a et b} Saporta 2006, p. 25
↑ Saporta 2006, p. 119
↑ ^{a et b} Saporta 2006, p. 121
↑ Saporta 2006, p. 43-44
↑ Jean-Pierre Petit, La Bourse : Rupture et Renouveau, Paris, Odile Jacob economie, 2003, 285 p. (ISBN 978-2738113382), p. 36
↑ Saporta 2006, p. 16
↑ ^{a et b} Saporta 2006, p. 30
↑ Rioul 2008, p. 45
↑ Saporta 2006, p. 31
↑ Saporta 2006, p. 38
↑ ^{a et b} Saporta 2006, p. 39
↑ Saporta 2006, p. 33
↑ ^{a b et c} Dodge 2010, p. 71
↑ (en) Warren H. Finlay, The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press Inc, 2001, 320 p. (ISBN 978-0122569715), p. 5
↑ Dodge 2010, p. 60
↑ Saporta 2006, p. 23-25
↑ Saporta 2006, p. 26
↑ Rioul 2008, p. 146
↑ Gautier et al. 1975, p. 387
↑ Saporta 2006, p. 66
↑ Rioul 2008, p. 157
↑ Rioul 2008, p. 175
↑ Rioul 2008, p. 178
↑ Jacquard 1976, p. 28-29
↑ ^{a b et c} Saporta 2006, p. 279-280
↑ Saporta 2006, p. 289
↑ Tufféry 2010, p. 655
↑ ^{a et b} Saporta 2006, p. 290
↑ Saporta 2006, p. 284
↑ Rioul 2008, p. 253
↑ ^{a et b} Dodge 2010, p. 508-509
↑ Dodge 2010, p. 472
↑ Vessereau 1976, p. 56
↑ (en) David R. Anderson, Dennis J. Sweeney et Thomas A. Williams, « statistics », Encyclopaedia Britannica Ultimate Reference Suite,‎ 2010, statistics

Articles de revue

↑ [PDF] (en) Ronald Aylmar Fisher, « The Correlation between Relatives on the Supposition of Mendelian Inheritance », Philosophical Transactions of the Royal Society of Edinburgh, vol. 52,‎ 1918, p. 399–433 (lire en ligne)
↑ Rolf Heuer, « Une fin d’année pleine de suspense », Bulletin Hebdomadaire du CERN, vol. 2012, n^o 3,‎ 2012 (lire en ligne, consulté le 27 avril 2012)
↑ (en) John Bollinger, « Bollinger Bands Introduction » (consulté le 27 avril 2012)
↑ [PDF]P Fery, « Risque et calcul socioéconomique », Centre d'analyse stratégique,‎ 2010 (lire en ligne, consulté le 8 avril 2012)
↑ [PDF]P Ferignac, « Contrôle de réception quantitatif ou par mesure. », Revue de statistique appliquée, vol. 7, n^o 2,‎ 1959 (lire en ligne, consulté le 26 mars 2012)
↑ [PDF]P Ferignac, « Erreurs de mesure et contrôle de la qualité. », Revue de statistique appliquée, vol. 13, n^o 2,‎ 1965 (lire en ligne, consulté le 26 mars 2012)
↑ [PDF]Yves Meyer, « Principe d'incertitude, bases hilbertiennes et algèbres d'opérateurs. », Séminaire Bourbaki, vol. 662,‎ février 1986 (lire en ligne, consulté le 4 avril 2012)
↑ [PDF] Sylvie Méléard, « Aléatoire : Introduction à la théorie et au calcul des probabilités » (consulté le 7 mai 2012), p. 57,94
↑ [PDF]Emmanuel Grenier, « Quelle est la « bonne » formule de l’écart-type ? », La revue MODULAD, n^o 37,‎ décembre 2007 (lire en ligne, consulté le 18 février 2012)
↑ ^{a et b} [PDF]W.E. Deming, « Quelques méthodes de sondage. », Revue de statistique appliquée, vol. 12, n^o 4,‎ 1964 (lire en ligne, consulté le 9 avril 2012)
↑ (en) John D. Cook, « Theoretical explanation for numerical results » (consulté le 20 avril 2012)
↑ (en) John D. Cook, « Comparing three methods of computing standard deviation » (consulté le 20 avril 2012)
↑ [PDF] (en) B.P. Welford, « Note on a Method for Calculating Corrected Sums of Squares and Products », Technometrics, vol. 4, n^o 3,‎ août 1962, p. 419-420 (lire en ligne, consulté le 4 avril 2012)
↑ (en) John D. Cook, « Accurately computing running variance » (consulté le 20 avril 2012)
↑ (en) [PDF] (en) R.J. Yamartino, « A comparison of several "single-pass" estimators of the standard deviation of wind direction », Journal of climate and applied meteorology, vol. 23,‎ janvier 1984, p. 1362-1366 (lire en ligne, consulté le 27 avril 2012)
↑ [PDF] (en) Mike Bagot, « Victorian Urban Wind Resource Assessment » (consulté le 24 avril 2012)

Voir aussi

Bibliographie

Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, Éditions Technip, 2006, 622 p. [détail des éditions] (ISBN 978-2-7108-0814-5, présentation en ligne), seconde édition
Alain Monfort, Cours de Statistique Mathématique, Paris, éditions Economica, 1997, 333 p. (ISBN 2-7178-3217-2^{[à vérifier : ISBN invalide]})
(en) Encyclopaedia Britannica Ultimate Reference Suite, Chicago, Encyclopædia Britannica, 2010
Olivier Rioul, Théorie des probabilités, Paris, éditions Hermes sciences, 2008, 364 p. (ISBN 978-2-7462-1720-1)
(en) Yadolah Dodge, The Concise Encyclopaedia of Statistics, New York, Springer, 2010, 622 p. (ISBN 978-0-387-31742-7)
Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip, 2010, 705 p. (ISBN 978-2-7108-0946-3)
(en) Peter L. Bernstein, Against the Gods : The Remarkable Story of Risk, New York, John Wiley & sons, inc, 1996, 383 p. (ISBN 978-0-471-12104-6)
Albert Jacquard, Les Probabilités, Paris, Presses Universitaires de France, coll. « Que sais-je » (n^o 1571), 1976, 125 p. (ISBN 2-13-036532-9)
C. Gautier, G. Girard, D. Gerll, C. Thiercé et A. Warusfel, Aleph1 Analyse, Paris, éditions Hachette, 1975, 465 p. (ISBN 2-01-001370-0)
André Vessereau, La Statistique, Paris, Presses Universitaires de France, coll. « Que sais-je » (n^o 281), 1976, 128 p. (ISBN 2-13-052942-9)
(en) Richard Herrnstein et Charles Murray, The Bell Curve: Intelligence and Class Structure in American Life, New York, Simon & Schuster Ltd, 1994, 896 p. (ISBN 978-0684824291), Appendix 1, "Statistics for People Who Are Sure They Can't Learn Statistics"

Articles connexes

Liens externes

(en) Algorithms for calculating variance

Portail des probabilités et de la statistique

Cet article est reconnu comme « bon article » depuis sa version du 9 mai 2012 (comparer avec la version actuelle).
Pour toute information complémentaire, consulter sa page de discussion et le vote l'ayant promu.

La version du 9 mai 2012 de cet article a été reconnue comme « bon article », c'est-à-dire qu'elle répond à des critères de qualité concernant le style, la clarté, la pertinence, la citation des sources et l'illustration.

[7] Si n élèves ont 0/20 et n élèves ont 20/20, c'est-à-dire l'échantillon contient n fois la valeur 20 et n fois la valeur 0, la moyenne est $\scriptstyle {\frac {n\times 20}{n+n}}$ ; soit $\scriptstyle {\bar {X}}=10$ et $\scriptstyle {\bar {X}}^{2}=100$ .
Les valeurs au carré, notées $\scriptstyle X^{2}$ , sont n fois 400 et n fois 0. La moyenne de $\scriptstyle X^{2}$ vaut donc $\scriptstyle {\overline {X^{2}}}=200$ . On en déduit que la variance vaut 100 et l'écart type 10.

[16] t, à valeurs dans des espaces de Banach, mais cet article se limite au cas réel qui est le plus utilisé en pratique

[18] ù $\scriptstyle \Omega$ est un ensemble, $\scriptstyle {\mathcal {A}}$ une tribu sur $\scriptstyle \Omega$ , et $\scriptstyle P$ une mesure sur $\scriptstyle {\mathcal {A}}$ .

[19] remière égalité définit $\scriptstyle {\sigma _{X}}^{2}$ , la seconde est donnée par le Théorème de König-Huyghens

[30] $\scriptstyle Y=X+a$

[31] Toutes ces propriétés sont la conséquence directe du théorème de Huygens et des propriétés de l'espérance mathématique .

[46] D'après G. Saporta, on a, pour une distribution normale, $\scriptstyle E(S_{n-1})=\sigma {\sqrt {\frac {2}{n-1}}}{\frac {\Gamma ({\frac {n}{2}})}{\Gamma ({\frac {n-1}{2}})}}$ qui tend vers $\scriptstyle \sigma$ lorsque $\scriptstyle n\to \infty$ où $\scriptstyle S_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}}}$ et $\scriptstyle \Gamma$ la Fonction gamma

[48] vergence peut être en loi, en moyenne, presque surement, en probabilité...

[49] 'après le théorème de continuité on a :

Théorème — Si $g$ est continue, alors : $\scriptstyle X_{n}{\xrightarrow {\mathbb {P} }}X\Longrightarrow g(X_{n}){\xrightarrow {\mathbb {P} }}g(X)$

. Comme la fonction racine carrée est une fonction continue, $\scriptstyle S_{n-1}$ et $\scriptstyle S_{n}$ sont des estimateurs convergents de l'écart type, autrement dit : $\scriptstyle S_{n-1}{\xrightarrow {\mathbb {P} }}\sigma {\text{ et }}S_{n}{\xrightarrow {\mathbb {P} }}\sigma$

[54] r définition de la loi du $\scriptstyle \chi ^{2}$

[PBerstein-1] Bernstein 1996, p. 127

[Dodge506-2] {a b et c} Dodge 2010, p. 506

[Saporta25-4] {a et b} Saporta 2006, p. 25

[Saporta119-5] Saporta 2006, p. 119

[Saporta121-6] {a et b} Saporta 2006, p. 121

[Saporta43-8] Saporta 2006, p. 43-44

[JPPetit-10] Jean-Pierre Petit, La Bourse : Rupture et Renouveau, Paris, Odile Jacob economie, 2003, 285 p. (ISBN 978-2738113382), p. 36

[Saporta16-17] Saporta 2006, p. 16

[Saporta30-21] {a et b} Saporta 2006, p. 30

[Rioul45-22] Rioul 2008, p. 45

[Saporta31-23] Saporta 2006, p. 31

[Saporta38-24] Saporta 2006, p. 38

[Saporta39-25] {a et b} Saporta 2006, p. 39

[Saporta33-26] Saporta 2006, p. 33

[Dodge71-27] {a b et c} Dodge 2010, p. 71

[WHFinlay-28] (en) Warren H. Finlay, The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press Inc, 2001, 320 p. (ISBN 978-0122569715), p. 5

[Dodge60-29] Dodge 2010, p. 60

[Saporta2325-32] Saporta 2006, p. 23-25

[Saporta26-33] Saporta 2006, p. 26

[Rioul146-34] Rioul 2008, p. 146

[Gautier387-35] Gautier et al. 1975, p. 387

[Saporta66-36] Saporta 2006, p. 66

[Rioul157-37] Rioul 2008, p. 157

[Rioul175-38] Rioul 2008, p. 175

[Rioul178-39] Rioul 2008, p. 178

[AJacquard2829-40] Jacquard 1976, p. 28-29

[Saporta279-41] {a b et c} Saporta 2006, p. 279-280

[Saporta289-42] Saporta 2006, p. 289

[tuff655-43] Tufféry 2010, p. 655

[Saporta290-44] {a et b} Saporta 2006, p. 290

[Saporta284-45] Saporta 2006, p. 284

[Rioul253-50] Rioul 2008, p. 253

[Dodge509-51] {a et b} Dodge 2010, p. 508-509

[Dodge472-52] Dodge 2010, p. 472

[AVessereau56-53] Vessereau 1976, p. 56

[DAnderson-55] (en) David R. Anderson, Dennis J. Sweeney et Thomas A. Williams, « statistics », Encyclopaedia Britannica Ultimate Reference Suite,‎ 2010, statistics

[RAFisher-3] [PDF] (en) Ronald Aylmar Fisher, « The Correlation between Relatives on the Supposition of Mendelian Inheritance », Philosophical Transactions of the Royal Society of Edinburgh, vol. 52,‎ 1918, p. 399–433 (lire en ligne)

[RHeuer-9] Rolf Heuer, « Une fin d’année pleine de suspense », Bulletin Hebdomadaire du CERN, vol. 2012, n^o 3,‎ 2012 (lire en ligne, consulté le 27 avril 2012)

[JBollinger-11] (en) John Bollinger, « Bollinger Bands Introduction » (consulté le 27 avril 2012)

[12] [PDF]P Fery, « Risque et calcul socioéconomique », Centre d'analyse stratégique,‎ 2010 (lire en ligne, consulté le 8 avril 2012)

[PFerignac-13] [PDF]P Ferignac, « Contrôle de réception quantitatif ou par mesure. », Revue de statistique appliquée, vol. 7, n^o 2,‎ 1959 (lire en ligne, consulté le 26 mars 2012)

[PFerignac2-14] [PDF]P Ferignac, « Erreurs de mesure et contrôle de la qualité. », Revue de statistique appliquée, vol. 13, n^o 2,‎ 1965 (lire en ligne, consulté le 26 mars 2012)

[YMeyer-15] [PDF]Yves Meyer, « Principe d'incertitude, bases hilbertiennes et algèbres d'opérateurs. », Séminaire Bourbaki, vol. 662,‎ février 1986 (lire en ligne, consulté le 4 avril 2012)

[SMéléard-20] [PDF] Sylvie Méléard, « Aléatoire : Introduction à la théorie et au calcul des probabilités » (consulté le 7 mai 2012), p. 57,94

[EGrenier-47] [PDF]Emmanuel Grenier, « Quelle est la « bonne » formule de l’écart-type ? », La revue MODULAD, n^o 37,‎ décembre 2007 (lire en ligne, consulté le 18 février 2012)

[WEDeming-56] {a et b} [PDF]W.E. Deming, « Quelques méthodes de sondage. », Revue de statistique appliquée, vol. 12, n^o 4,‎ 1964 (lire en ligne, consulté le 9 avril 2012)

[57] (en) John D. Cook, « Theoretical explanation for numerical results » (consulté le 20 avril 2012)

[58] (en) John D. Cook, « Comparing three methods of computing standard deviation » (consulté le 20 avril 2012)

[Welfod-59] [PDF] (en) B.P. Welford, « Note on a Method for Calculating Corrected Sums of Squares and Products », Technometrics, vol. 4, n^o 3,‎ août 1962, p. 419-420 (lire en ligne, consulté le 4 avril 2012)

[60] (en) John D. Cook, « Accurately computing running variance » (consulté le 20 avril 2012)

[RJYamartino-61] (en) [PDF] (en) R.J. Yamartino, « A comparison of several "single-pass" estimators of the standard deviation of wind direction », Journal of climate and applied meteorology, vol. 23,‎ janvier 1984, p. 1362-1366 (lire en ligne, consulté le 27 avril 2012)

[62] [PDF] (en) Mike Bagot, « Victorian Urban Wind Resource Assessment » (consulté le 24 avril 2012)

[b 1]

[b 2]

[i 1]

[b 3]

[b 4]

[b 5]

[Note 1]

[b 6]

[i 2]

[b 7]

[i 3]

[i 4]

[i 5]

[i 6]

[i 7]

[Note 2]

[b 8]

[Note 3]

[Note 4]

[i 8]

[b 9]

[b 10]

[b 11]

[b 12]

[b 13]

[b 14]

[b 15]

[b 16]

[b 17]

[Note 5]

[Note 6]

[b 18]

[b 19]

[b 20]

[b 21]

[b 22]

[b 23]

[b 24]

[b 25]

[b 26]

[b 27]

[b 28]

[b 29]

[b 30]

[b 31]

[Note 7]

[i 9]

[Note 8]

[Note 9]

[b 32]

[b 33]

[b 34]

[b 35]

[Note 10]

[b 36]

[i 10]

[i 11]

[i 12]

[i 13]

[i 14]

[i 15]

[i 16]