Loi hypergéométrique

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Hypergéométrique
Image illustrative de l'article Loi hypergéométrique
Fonction de masse
Image illustrative de l'article Loi hypergéométrique
Fonction de répartition

Paramètres \begin{align}A&\in 0,1,2,\dots \\
                                 p&\in [0;1] \\
                                 n&\in 0,1,2,\dots,A\end{align}\,
Support \scriptstyle{k\, \in\, \max{(0,\, n-qA)},\, \dots,\, \min{(pA,\, n )}}\,
Fonction de masse \frac{{pA\choose k}{qA\choose n-k}}{{A\choose n}}
Espérance np\!
Mode \left \lfloor (n+1)\frac{(pA+1)}{A+2} \right \rfloor
Variance npq\frac{(A-n)}{(A-1)}
Asymétrie \frac{(A-2n)(q-p)(A-1)^\frac{1}{2}}{[npq(A-n)]^\frac{1}{2}(A-2)}
Kurtosis normalisé \scriptstyle \frac{(A-1)[A^2(1-6pq)+A(1-6n)+6n^2]}{npq(A-n)(A-2)(A-3)}

+ \frac{6A^2}{(A-2)(A-3)} - 6

Fonction génératrice des moments \frac{{qA \choose n} \scriptstyle{\,_2F_1(-n, -pA; qA - n + 1; e^{t}) } }
                         {{A \choose n}}  \,\!
Fonction caractéristique \frac{{qA \choose n} \scriptstyle{\,_2F_1(-n, -pA; qA - n + 1; e^{it}) }}
{{N \choose n}}

La loi hypergéométrique de paramètres associés n, p et A est une loi de probabilité discrète, décrivant le modèle suivant :

On tire simultanément n boules dans une urne contenant pA boules gagnantes et qA boules perdantes (avec q = 1 - p, soit un nombre total de boules valant pA + qA = A). On compte alors le nombre de boules gagnantes extraites et on appelle X la variable aléatoire donnant ce nombre.

L'univers X(Ω) est l'ensemble des entiers de 0 à n. La variable aléatoire suit une loi de probabilité définie par

p(k)=\frac{{pA\choose k}{qA\choose n-k}}{{A\choose n}}.

Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres (n ; p ; A). Il est nécessaire que p soit un réel compris entre 0 et 1, que pA soit entier et que nA. Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles X(Ω) est l'ensemble des entiers entre max(0 ; nqA) et min(pA ; n).

Une autre paramétrisation très répandue consiste à considérer une loi hypergéométrique de paramètres (A, Na, n) avec A le nombre total de boules, Na le nombre de boules à succès (ici pA) et n le nombre de tirages.

Calcul de p(k)[modifier | modifier le code]

Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise) de n éléments parmi A. Tirage que l'on considère comme équiprobable.

La combinatoire permet de dire que le cardinal de l'univers est \textstyle{A\choose n}.

Tirage Resté dans l'urne Total
succès k pAk pA
échec nk qAn + k qA
Total n An A

L'événement { X=k } (voir tableau) signifie que l'on a tiré k boules gagnantes parmi pA et nk boules perdantes parmi qA. Le cardinal de cet événement est donc \textstyle{pA\choose k}{qA\choose n-k}.

La probabilité de l'événement est donc p(k) = \frac{{pA\choose k}{qA\choose n-k}}{{A\choose n}}
Remarque : la somme des p(k) vaut 1 ce qui prouve l'identité de Vandermonde

Espérance, variance et écart type[modifier | modifier le code]

L'espérance d'une variable aléatoire suivant une loi hypergéométrique est la même que dans le cas binomiale. X\, suit une loi hypergéométrique de paramètres n, p, A\,, alors son espérance est \mathbb{E}(X)=np\,.

La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres n, p, A est npq\frac{A - n}{A - 1}

L'écart type est alors \sqrt{npq}\sqrt{\frac{A - n}{A - 1}}.

Convergence[modifier | modifier le code]

Pour n petit devant A, la loi hypergéométrique converge vers une loi binomiale de paramètres n et p. En fait, on considère que, pour A grand, tirer simultanément n boules revient à effectuer n fois une épreuve de Bernoulli dont la probabilité de succès serait p (p est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.

En pratique, on peut approcher la loi hypergéométrique de paramètres (n ; p ; A) par une loi binomiale de paramètres (n ; p) dès que n/A < 0,1. C'est-à-dire lorsque l'échantillon n est 10 fois plus petit que la population A.

Un exemple très classique de ce remplacement concerne le sondage. On considère fréquemment le sondage de n personnes comme n sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme n (nombre de personnes interrogées) < A (population sondée)/10, cette approximation est légitime.