Écart type
|
|
Cet article ne cite pas suffisamment ses sources (février 2012).
Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». (Modifier l'article)
|
|
|
Cet article ou section peut contenir un travail inédit ou des déclarations non vérifiées.
Vous pouvez aider en ajoutant des références. Voir la page de discussion pour plus de détails.
|
Dans le domaine des statistiques et des probabilités, l'écart type mesure la dispersion d'une série de valeurs autour de leur moyenne.
En probabilités, l'écart type est une quantité réelle positive, éventuellement infinie, utilisée pour caractériser la répartition d'une variable aléatoire réelle autour de sa moyenne. En particulier, la moyenne et l'écart type caractérisent entièrement les lois gaussiennes à un paramètre réel, de sorte qu'ils sont utilisés pour les paramétrer. Plus généralement, l'écart type, à travers son carré, appelé variance, permet de caractériser des lois gaussiennes en dimension supérieure. Ces considérations ne sont pas sans importance, notamment dans l'application du théorème de la limite centrale.
En statistiques, plus particulièrement en théorie des sondages, ainsi qu'en métrologie, l'écart type tente d'évaluer, à partir d'un échantillon extrait au hasard, la dispersion de la population tout entière. On distingue alors l'écart type empirique (biaisé) et l'écart type empirique corrigé dont la formule diffère de celle utilisée en probabilité.
Les écarts types connaissent de nombreuses applications, tant dans les sondages, qu'en physique (où ils sont souvent nommés RMS (Root Mean Square) par abus de langage), ou en biologie. Ils permettent en pratique de rendre compte des résultats numériques d'une expérience répétée. En finance l'écart type est une mesure de la volatilité d'un actif.
Sommaire |
[modifier] Histoire
C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion par l'écart-type dans son ouvrage « The Doctrine of Chances » en 1718[b 1]. Mais le terme d'écart-type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la « London Royal Society »[b 2]. C'est aussi Karl Pearson qui utilisa pour la première fois le symbole
pour représenter l'écart-type[b 2]. En 1908 William Gosset, plus connu sous le pseudonyme de Student, définit l'écart-type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart-type d'une population[b 2].
[modifier] Généralités
En statistiques comme en probabilités, on définit des critères de position ainsi que des critères de dispersion. Dans le domaine des probabilités, la dispersion d'une variable aléatoire réelle X autour de sa moyenne est caractérisée par la variance, dont le calcul repose sur la notion d'espérance mathématique[b 3].
En statistique descriptive, où l'étude porte sur une population finie parfaitement connue, la moyenne et la médiane sont utilisés comme critères de position et l'écart type, l'écart moyen, l'étendue , etc. comme critère de dispersion. Tous ces critères aident ensemble à résumer l'échantillon statistique[b 4].
La statistique mathématique porte au contraire sur une population infinie qui ne peut être connue qu'imparfaitement à travers un ensemble fini de données
. Pour interpréter ces données imprécises, il faut faire appel à la notion de probabilité. Les données sont alors considérées comme une réalisation d'un échantillon de n variables aléatoires
. Par des calculs arithmétiques analogues à ceux qui sont effectués en statistique descriptive, il est possible de déduire de la réalisation de l'échantillon des estimations de la moyenne empirique et de la variance empirique qui sont elles-mêmes des variables aléatoires. La moyenne empirique fournit une estimation sans biais de la moyenne de la loi de probabilité, car son espérance est égale à cette dernière[Note 1]. Au contraire, la variance empirique fournit une estimation biaisée de la variance ; pour obtenir une estimation sans biais, il faut la multiplier par
[i 1].
Dans la pratique, on préfère l'écart type σ (lettre grecque sigma) à la variance V = σ², car il possède les mêmes dimensions physiques que la variable[b 5].
[modifier] Première approche
L'écart type sert à mesurer la dispersion d'un ensemble de données. Plus il est faible, plus les valeurs sont regroupées autour de la moyenne. Par exemple pour la répartition des notes d'une classe, plus l'écart-type est faible, plus la classe est homogène. À l'inverse, s’il est plus important, les notes sont moins resserrées.
Dans le cas d'une notation de 0 à 20, l'écart type minimal est 0 (notes toutes identiques), et peut valoir jusqu'à 10 si la moitié a 0/20 et l'autre moitié 20/20[Note 2].
En sciences humaines, il est fréquent de considérer que les valeurs se répartissent selon une courbe de Gauss. Dans ce cas, la donnée de la moyenne et de l'écart type permet de déterminer un intervalle dans lequel on trouve une majorité de la population. En effet, si la moyenne est m et l'écart type est σ, on trouve 95 % de la population dans l'intervalle [m − 1.96σ ; m + 1.96σ] et on trouve 68 % de la population dans l'intervalle [m − σ ; m + σ][b 6].
Un autre manière d'aborder ce sujet est de montrer que l'écart-type peut-être utilisé pour quantifier un taux de confiance attribuable à une observation. Si l'on se réfère à la figure ci-contre, on voit qu'un sigma d'écart de part et d'autre de la valeur moyenne recouvre 68.2% de la distribution, deux sigmas d'écart ([
,
], 13.6+34.1+34.1+13.6 =) 95.4%, 3 sigmas d'écart ([
,
], 2.1+13.6+34.1+34.1+13.6+2.1 =) 99.8% et ainsi de suite... C'est l'usage notamment en physique des particules, où la détection d'évènements est quantifiée en nombre de sigmas, et où un résultat notamment est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00003 % (niveau de confiance de plus de 99.9999%)[i 2].
[modifier] En probabilités
Dans la formulation moderne des probabilités, suite aux travaux de Henri Lebesgue et à l'axiomatique de Kolmogorov, une variable aléatoire X est une application à valeurs réelles ou vectorielles, dépendant d'un paramètre x suivant une loi de probabilité P. Si la compréhension du formalisme fait appel à la théorie de la mesure, son utilisation reste simple. L'application X ne joue pas un rôle fondamental ; seule sa loi importe : l'image de P par X, notée PX. Il s'agit d'une mesure sur
ou sur
. Deux quantités lui sont associées, premièrement sa moyenne, notée E[X], aussi appelée espérance, et son écart type, généralement noté
, défini comme la racine carrée de l'espérance de (X−E[X])² :
[Note 3].
L'élévation au carré pour le membre de droite désigne implicitement la norme euclidienne au carré dans le cas où X est à valeurs vectorielles.
[modifier] Probabilité discrète
Cette identité se spécialise dans un grand nombre de cas particuliers, dont celui des variables aléatoires discrètes. Si la variable X prend un nombre fini de valeurs réelles x₁, …, xn, avec des probabilités respectives p₁, …, pn, l'écart type est donné par :
, où
désigne la moyenne
.En particulier, si la loi de X est uniforme sur un ensemble fini de valeurs, on a :
, où cette fois,
.Ces formules se généralisent immédiatement en dimension supérieure en remplaçant l'élévation au carré par la norme euclidienne au carré.
[modifier] Probabilité uniformément continue
La loi PX est dite uniformément continue lorsque la probabilité que X appartienne au segment [a;b] est :

où f est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue. Cette fonction f s'appelle la densité de probabilité de la loi PX. Elle est globalement intégrable et de carré intégrable.
L'écart type de X est défini par :
.[modifier] Exemples d'écarts types
Le tableau suivant donne les écarts types pour les lois couramment rencontrées :
| Nom de la loi | Paramètre(s) | Description | Ecart-type |
|---|---|---|---|
| Loi de Bernoulli[b 7] | p | Loi discrète de valeurs 0 avec probabilité 1-p et 1 avec probabilité p | ![]() |
| Loi binomiale[b 8] | p et ![]() |
Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de paramètre p | ![]() |
| Loi géométrique[b 9] | p | Loi discrète sur telle que la probabilité d'obtenir l'entier n soit (1-p)pn |
![]() |
| Loi uniforme sur un segment[b 10] | a<b | Loi uniformément continue sur de densité un multiple de la fonction indicatrice de [a;b] |
![]() |
| Loi exponentielle[b 10] | p | Loi uniformément continue de support de densité la fonction ![]() |
![]() |
| Loi de Poisson[b 11] | ![]() |
Loi de Poisson sur de densité la fonction où ![]() |
![]() |
[modifier] Propriétés
L'écart-type est toujours positif ou nul, celui d'une constante est nul. L'écart-type d'une variable aléatoire X translatée d'une constante [Note 4]est égal à l'écart-type de la variable X. Cette propriété est nommée invariance par translation. L'écart-type d'une variable multipliée par une constante est égal à la valeur absolue de la constante multipliée par l'écart-type de la variable. Cette propriété est nommée invariance par dilatation[Note 5],[b 12]. Enfin, il est sensible aux valeurs aberrantes[b 13].
[modifier] Coefficient de corrélation
Si X et Y sont deux variables aléatoires, on appelle coefficient de corrélation le rapport

où
est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz,
, ce qui permet de dire que
prend ses valeurs dans l'intervalle
[b 14]. Si
les deux variables ne sont pas corrélées, si
les deux variables sont linéairement dépendantes[b 15].
[modifier] Inégalité de Bienaymé-Tchebyshev
C'est grâce à l'inégalité de Bienaymé-Tchebyshev que l'écart-type apparait comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que
[b 3]et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart-type est inférieure à
[b 16].
[modifier] En statistique
En statistiques, deux estimateurs de l'écart type sont généralement utilisés. Ces estimateurs sont simplement obtenus en prenant la racine carrée des estimateurs de la variance, puisque
De même, on note très souvent la variance empirique
(ou S ²) et la variance empirique corrigée
(ou S′ ²).
[modifier] Écart type empirique
Si la valeur exacte de la moyenne
est connue (par exemple s'il s'agit d'une valeur théorique, ou si l'on considère une population de taille finie comme c'est généralement le cas en statistique descriptive), on peut utiliser l'écart type empirique défini par :
.
Une réalisation de la statistique S est donnée par :
.
[modifier] Écart type empirique corrigé
Lorsque la moyenne est une estimation, c'est-à-dire que sa valeur exacte est inconnue (c'est par exemple le cas en physique expérimentale, où l'on n'a accès qu'à la moyenne des valeurs mesurées),
représente la moyenne empirique de l'échantillon et dans ce cas, l'écart type est donné sous une forme corrigée :
.
Une réalisation de cette statistique est
.
[modifier] Propriétés des estimateurs
En général, l'estimateur
est préféré, étant donné que l'estimateur
est sans biais. Ces deux estimateurs sont cependant convergents.
[modifier] Biais
Pour établir les propriétés des estimateurs de l'écart-type, il est utile de rappeler les propriétés des estimateurs de la variance :
Il n'est cependant pas évident de trouver un estimateur non biaisé de l'écart type. En effet, on sait par l'inégalité de Jensen[i 3] que:
Inégalité de Jensen — Soit f une fonction convexe sur ]a;b[ et X une variable aléatoire d'espérance finie, à valeurs dans ]a;b[. Alors l'inégalité suivante est vraie :
L'inégalité s'inverse avec des fonctions concaves. Comme la fonction racine carrée est concave, on a :
et donc:
.
L'estimateur
sera donc biaisé vers le bas.
Il est en fait très difficile d'obtenir un estimateur sans biais, et dans le cas où les données suivent une loi normale la formule est assez complexe[Note 6].
[modifier] Convergence
Il est utile de rappeler que
et
sont des estimateurs convergents de σ².
Par le théorème de continuité, on a :
Théorème — Si g est continue, alors : 
Comme la fonction racine carrée est une fonction continue,
et
sont des estimateurs convergents de l'écart-type, autrement dit :

[modifier] Interprétation d'un écart type élevé
En raison de ses liens étroits avec la moyenne, l'écart type peut être grandement influencé si cette dernière donne une mauvaise mesure de tendance centrale. Contrairement à l'étendue et aux quartiles, la variance permet de combiner toutes les valeurs à l'intérieur d'un ensemble de données afin d'obtenir la mesure de dispersion [b 13]. Si par convention, un échantillon d’individus suivant une loi normale obtient 100 de QI et que l'écart type équivaut à 15 points de QI de différence, cela signifie que les 2/3 environ de la population d'une classe d'âge ont un QI compris entre 85 et 115[Note 7].
Généralement, plus les valeurs sont largement distribuées, plus l'écart type est élevé. Cependant, il n'est pas toujours facile d'évaluer l'importance que doit avoir l'écart type pour que les données soient largement dispersées. En effet, l'importance de l'écart type dépend aussi de l'importance de la valeur moyenne de l'ensemble des données et de leur ordre de grandeur. Par exemple, si après avoir mesuré les recettes annuelles de deux grandes entreprises, on constate un écart de 100 000 euros, la différence est considérée comme étant peu significative, alors que si l’on mesure le poids de deux personnes, dont l'écart est de 30 kilogrammes, la différence est davantage significative. Dans certains cas, il est donc parfois utile de travailler avec l’écart type relatif (écart type divisé par la moyenne), appelé aussi coefficient de variation[b 5].
Une autre raison pour laquelle l'écart-type peut être élevé est la présence de valeurs aberrantes dans l'échantillon. Une façon de savoir si la valeur x est une valeur aberrante est de calculer la valeur absolue de
, qui, si elle est supérieure ou égale à 3, désigne x comme une valeur potentiellement aberrante[b 13].
[modifier] Notes et références
[modifier] Notes
- si p échantillons de n mesures
i=1..n, j=1..p de la variables aléatoire X ont été obtenus aléatoirement, et si
sont n répliques indépendantes de la variable X, dont chaque
a pour réalisations les p
, alors
, ce qui prouve que la moyenne empirique est sans biais - Si n élèves ont 0/20 et n élèves ont 20/20, c'est-à-dire l'échantillon contient n fois la valeur 20 et n fois la valeur 0, la moyenne est
; soit
et
.
Les valeurs au carré, notées
, sont n fois 400 et n fois 0. La moyenne de
vaut donc
. On en déduit que la variance vaut 100 et l'écart-type 10. - la première égalité définit
, la seconde est donnée par le Théorème de König-Huyghens -

- Toutes ces propriétés sont la conséquence directe du théorème de Huygens et des propriétés de l'espérance mathématique .
- voir la page anglaise: Unbiased estimation of standard (en)
- Voir également à ce sujet l'intervalle de confiance d'une distribution normale gaussienne
[modifier] Références
[modifier] Ouvrages spécialisés
- (en) Peter L. Bernstein, « Against the Gods » : « The Remarkable Story of Risk », New York, [Wiley & sons, inc], 1996, 383 p. (ISBN 978-0-471-12104-6)
- Dodge 2010, p. 506
- Saporta 2006, p. 25
- Saporta 2006, p. 119
- Saporta 2006, p. 121
- Saporta 2006, p. 43-44
- Saporta 2006, p. 30
- Saporta 2006, p. 31
- Saporta 2006, p. 38
- Saporta 2006, p. 39
- Saporta 2006, p. 33
- Saporta 2006, p. 23-25
- (en) David R. Anderson, Dennis J. Sweeney et Thomas A. Williams, « « statistics » », dans « Encyclopaedia Britannica Ultimate Reference Suite », 2010, p. statistics
- Rioul 2008, p. 175
- Rioul 2008, p. 178
- Albert Jacquard, Les Probabilités, Paris, [Universitaires de France], coll. « Que sais-je » (no 1571), 1976, 125 p. (ISBN 2-13-036532-9)
- Monfort 1997, p. 118
[modifier] Articles publiés sur internet
- [PDF]Emmanuel Grenier, « Quelle est la « bonne » formule de l’écart-type ? », dans La revue MODULAD, no 37, décembre 2007 [texte intégral (page consultée le 18 février 2012)]
- Qu'est-ce qu'un résultat significatif pour le boson de Higgs ?Mediapart.fr - 13/12/2011
- Johan Ludvig William Voldemar Jensen, « Sur les fonctions convexes et les inégalités entre les valeur s moyennes », dans Acta Mathematica, vol. 30, 1906, p. 175-193
[modifier] Voir aussi
[modifier] Bibliographie
- (fr) Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, Editions Technip, 2006, 622 p. (ISBN 978-2-7108-0814-5).

- (fr) Alain Monfort, Cours de Statistique Mathématique, Paris, Editions Economica, 1997, 333 p. (ISBN 2-7178-3217-2).

- (en) « Encyclopaedia Britannica Ultimate Reference Suite », Chicago, Encyclopædia Britannica, 2010.

- (fr) Olivier Rioul, Théorie des probabilités, Paris, Editions Hermes sciences, 2008, 364 p. (ISBN 978-2-7462-1720-1).

- (en) Yadolah Dodge, « The Concise Encyclopaedia of Statistics », New York, Springer, 2010, 622 p. (ISBN 978-0-387-31742-7).

[modifier] Articles connexes
[modifier] Liens internes
[modifier] Liens externes



telle que la probabilité d'obtenir l'entier n soit (1-p)pn

de densité la fonction 


où 

.
.
.
.
est un estimateur biaisé de σ².![f(\mathbb{E}(X)) \leqslant \mathbb{E}[f(X)]](http://upload.wikimedia.org/wikipedia/fr/math/d/d/6/dd699b8b9a78efe6fffaf8b98103b55b.png)
et donc:
.
i=1..n, j=1..p de la variables aléatoire X ont été obtenus aléatoirement, et si
sont n répliques indépendantes de la variable X, dont chaque
a pour réalisations les p
, alors
, ce qui prouve que la moyenne empirique est sans biais
; soit
et
.
, sont n fois 400 et n fois 0. La moyenne de
. On en déduit que la variance vaut 100 et l'écart-type 10.
, la seconde est donnée par le 