Loi hypergéométrique
|
|
Fonction de masse
|
Fonction de répartition
|
|
Paramètres
|
|
Support
|
|
Fonction de masse
|
|
Espérance
|
|
Mode
|
|
Variance
|
|
Asymétrie
|
|
Kurtosis normalisé
|
|
Fonction génératrice des moments
|
|
Fonction caractéristique
|
|
modifier  |
La loi hypergéométrique de paramètres associés n, p et N est une loi de probabilité discrète, décrivant le modèle suivant :
- On tire simultanément n boules dans une urne contenant N1=pN boules gagnantes et N2=qN boules perdantes (avec q = 1 - p, soit un nombre total de boules valant pN + qN = N). On compte alors le nombre de boules gagnantes extraites et on appelle X la variable aléatoire donnant ce nombre.
L'univers X(Ω) est l'ensemble des entiers de 0 à n. La variable X suit alors la loi de probabilité définie par
(probabilité d'avoir k succès).
Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres (n ; p ; N) et l'on note
.
Il est nécessaire que p soit un réel compris entre 0 et 1, que pN soit entier et que n ≤ N. Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles X(Ω) est l'ensemble des entiers entre max(0 ; n − qN) et min(pN ; n).
Un lac renferme une centaine de poissons dont un quart sont des brochets. On pêche 10 poissons. La loi du nombre X de brochets dans la prise est H(10,1/4,100).
On trouve alors pour les couples successifs [k , P(X = k)] :
- [0, 5%], [1, 18%], [2, 30%], [3, 26%], [4, 15%], [5, 5%], [6, 1%], [7, 0%], [8, 0%], [9, .0%], [10, 0%]
Donc un maximum de chances pour 2 ou 3 brochets. D'ailleurs, l'espérance du nombre de brochets vaut 10/4=2,5.
Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise même si la loi probabilité resterait la même si l'on décidait d'ordonner le tirage car cela reviendrait à multiplier par n! au numérateur et dénominateur de la quantité P(X=k) de n éléments parmi N, tirage que l'on considère comme équiprobable.
La combinatoire permet de dire que le cardinal de l'univers est
.
|
Tirage
|
Resté dans l'urne
|
Total
|
succès
|
k
|
pN − k
|
pN
|
échec
|
n − k
|
qN − n + k
|
qN
|
Total
|
n
|
N − n
|
N
|
L'événement { X=k } (voir tableau) signifie que l'on a tiré k boules gagnantes parmi pN et n − k boules perdantes parmi qN. Le cardinal de cet événement est donc
.
La probabilité de l'événement est donc
.
Remarque : comme pour toute densité de probabilités, la somme des P(X=k) vaut 1, ce qui prouve l'identité de Vandermonde.
L'espérance d'une variable aléatoire suivant une loi hypergéométrique est la même que dans le cas binomial. Si X suit une loi hypergéométrique de paramètres n, p, N, alors son espérance est
.
Démonstration
On se donne :
(si on se rapporte à un modèle d'urnes à tirage simultané, c'est-à-dire non ordonné et sans remise. On a donc NN = pN : le nombre de boules de type "réussite" et NB = qN = (1–p)N : le nombre de boules de type "échec".)

Numérotons de 1 à NN les boules de type "réussite" et définissons pour tout k compris entre 1 et NN l'événement :
.
Comme le nombre total X de boules de type "réussite" tirées est
(où 1 est la fonction indicatrice de Ek), par linéarité de l'espérance,
.
Évaluons maintenant
. En passant au complémentaire,

qui est la probabilité de ne jamais tirer une boule donnée.
Donc
On en conclut donc que
En rappelant que
qui est exactement la probabilité d'avoir un succès, on a bien
.
La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres n, p, N est
L'écart type est alors
.
Pour n petit devant N, la loi hypergéométrique converge vers une loi binomiale de paramètres n et p. En fait, on considère que, pour N grand, tirer simultanément n boules revient à effectuer n fois une épreuve de Bernoulli dont la probabilité de succès serait p (p est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.
Démonstration de la convergence vers la loi binomiale
En pratique, on peut approcher la loi hypergéométrique de paramètres (n ; p ; N) par une loi binomiale de paramètres (n ; p) dès que n/N < 0,1.
C'est-à-dire lorsque l'échantillon n est 10 fois plus petit que la population N.
Un exemple très classique de ce remplacement concerne le sondage. On considère fréquemment le sondage de n personnes comme n sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme n (nombre de personnes interrogées) < N (population sondée)/10, cette approximation est légitime.
L'appellation "loi hypergéométrique" vient du fait que sa série génératrice
est un cas particulier de série hypergéométrique, série généralisant la série géométrique. En effet
est bien une fraction rationnelle en k.