Distribution statistique
En statistique, la distribution statistique, distribution empirique ou distribution des fréquences, est un tableau qui associe des classes de valeurs obtenues lors d'une expérience à leurs fréquences d'apparition. Ce tableau de valeurs est modélisé en théorie des probabilités par une loi de probabilité.
Dans le cas général, les classes sont des intervalles de valeurs. Dans le cas de valeurs discrètes, une classe peut ne regrouper qu'une seule valeur. Pour que les calculs statistiques aient un sens, il faut que l'effectif de chaque classe soit suffisant.
Caractérisation
[modifier | modifier le code]Fonction de répartition empirique
[modifier | modifier le code]Une manière de représenter cette distribution statistique est par la fonction de répartition empirique.
Des résultats probabilistes annoncent que la fonction de répartition empirique converge, en un certain sens, vers la fonction de répartition (voir la convergence de la fonction empirique et l'approximation de la fonction théorique).
Fonction quantile
[modifier | modifier le code]La fonction quantile est une autre manière de représenter une distribution statistique. Connaître plusieurs quantiles permet de donner des propriétés sur les données, mais connaitre tous les quantiles permet de caractériser complètement la série.
Modélisation probabiliste
[modifier | modifier le code]Une modélisation probabiliste est associée : chaque résultat est modélisé par une variable aléatoire. La distribution statistique est alors modélisée par une loi de probabilité. Plus précisément, la fréquence observée ou empirique d'appartenance à la classe peut être modélisée par une valeur théorique qui est la probabilité de l'évènement : "appartenir à la classe ". La modélisation se justifie par le fait que plus l'échantillon est grand plus la distribution statistique est proche (au sens des lois de probabilités) de la loi de probabilité.
Lors d'un échantillonnage de observations, si on observe valeurs, la fréquence obtenue est alors : .
Cette valeur est modélisée par où est une variable aléatoire de loi binomiale qui représente le nombre d'individus observés dans la classe considérée.
La loi des grands nombres assure que
- la fréquence observée converge vers une valeur qui est la probabilité qu'un individu pris au hasard appartienne à la classe .
On retrouve la définition de la probabilité d'un évènement dans le cas discret :