Distribution statistique

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

En statistique, la distribution statistique, distribution empirique ou distribution des fréquences, est un tableau qui associe des classes de valeurs obtenues lors d'une expérience à leurs fréquences d'apparition. Ce tableau de valeurs est modélisé en théorie des probabilités par une loi de probabilité.

Dans le cas général, les classes sont des intervalles de valeurs. Dans le cas de valeurs discrètes, une classe peut ne regrouper qu'une seule valeur. Pour que les calculs statistiques aient un sens, il faut que l'effectif de chaque classe soit suffisant.

Caractérisation[modifier | modifier le code]

Fonction de répartition empirique[modifier | modifier le code]

Article détaillé : Fonction de répartition empirique.

Une manière de représenter cette distribution statistique est par la fonction de répartition empirique.

Des résultats probabilistes annoncent que la fonction de répartition empirique converge, en un certain sens, vers la fonction de répartition (voir la convergence de la fonction empirique et l'approximation de la fonction théorique).

Fonction quantile[modifier | modifier le code]

Article détaillé : Quantile.

La fonction quantile est une autre manière de représenter une distribution statistique. Connaître plusieurs quantiles permet de donner des propriétés sur les données, mais connaitre tous les quantiles permet de caractériser complètement la série.

Modélisation probabiliste[modifier | modifier le code]

Une modélisation probabiliste est associée : chaque résultat est modélisé par une variable aléatoire. La distribution statistique est alors modélisée par une loi de probabilité. Plus précisément, la fréquence observée ou empirique d'appartenance à la classe $A$ peut être modélisée par une valeur théorique qui est la probabilité de l'évènement : "appartenir à la classe $A$ ". La modélisation se justifie par le fait que plus l'échantillon est grand plus la distribution statistique est proche (au sens des lois de probabilités) de la loi de probabilité.

Lors d'un échantillonnage de $n$ observations, si on observe $k$ valeurs, la fréquence obtenue est alors : $\scriptstyle {\frac {k}{n}}$ .

Cette valeur est modélisée par $\textstyle {\frac {S_{n}}{n}}$ où $S_{n}$ est une variable aléatoire de loi binomiale qui représente le nombre d'individus observés dans la classe considérée.