Distribution statistique

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Distribution (statistique))
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Distribution.

En statistique, la distribution statistique, distribution empirique ou distribution des fréquences, est un tableau qui associe des classes de valeurs obtenues lors d'une expérience à leurs fréquences d'apparition. Ce tableau de valeurs est modélisé en théorie des probabilités par une loi de probabilité.

Dans le cas général, les classes sont des intervalles de valeurs. Dans le cas de valeurs discrètes, une classe peut ne regrouper qu'une seule valeur. Pour que les calculs statistiques aient un sens, il faut que l'effectif de chaque classe soit suffisant.

Caractérisation[modifier | modifier le code]

Fonction de répartition empirique[modifier | modifier le code]

Article détaillé : Fonction de répartition empirique.

Une manière de représenter cette distribution statistique est par la fonction de répartition empirique.

Des résultats probabilistes annoncent que la fonction de répartition empirique converge, en un certain sens, vers la fonction de répartition (voir la convergence de la fonction empirique et l'approximation de la fonction théorique).

Fonction quantile[modifier | modifier le code]

Article détaillé : Quantile.

La fonction quantile est une autre manière de représenter une distribution statistique. Connaître plusieurs quantiles permet de donner des propriétés sur les données, mais connaitre tous les quantiles permet de caractériser complètement la série.

Modélisation probabiliste[modifier | modifier le code]

Une modélisation probabiliste est associée : chaque résultat est modélisé par une variable aléatoire. La distribution statistique est alors modélisée par une loi de probabilité. Plus précisément, la fréquence observée ou empirique d'appartenance à la classe peut être modélisée par une valeur théorique qui est la probabilité de l'évènement : "appartenir à la classe ". La modélisation se justifie par le fait que plus l'échantillon est grand plus la distribution statistique est proche (au sens des lois de probabilités) de la loi de probabilité.

Lors d'un échantillonnage de observations, si on observe valeurs, la fréquence obtenue est alors : .

Cette valeur est modélisée par est une variable aléatoire de loi binomiale qui représente le nombre d'individus observés dans la classe considérée.

La loi des grands nombres assure que

la fréquence observée converge vers une valeur qui est la probabilité qu'un individu pris au hasard appartienne à la classe .

On retrouve la définition de la probabilité d'un évènement dans le cas discret :

Articles connexes[modifier | modifier le code]