Loi binomiale

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Binomiale
Image illustrative de l'article Loi binomiale
Fonction de masse
Image illustrative de l'article Loi binomiale
Fonction de répartition

Paramètres n \geq 0
0\leq p \leq 1
q=1-p
Support k \in \{0,\dots,n\}\!
Fonction de masse {n\choose k} p^k q^{n-k} \!
Fonction de répartition I_{1-p}(n-[ k ], 1+[ k]) \!
Espérance np\!
Médiane [ np] ou [np]+1
Mode [(n+1)\,p]\!
Variance npq\!
Asymétrie \frac{q-p}{\sqrt{npq} }\!
Kurtosis normalisé 3+\frac{1-6pq}{npq}\!
Entropie  \frac{1}{2} \ln \left( 2 \pi n e p q \right) + O \left( \frac{1}{n} \right)
Fonction génératrice des moments (q + pe^t)^n \!
Fonction caractéristique (q + pe^{it})^n \!

En mathématiques, la loi binomiale de paramètres n et p est une loi de probabilité qui correspond à l'expérience suivante :

On renouvelle n fois de manière indépendante une épreuve de Bernoulli de paramètre p (expérience aléatoire à deux issues possibles, généralement dénommées respectivement « succès » et « échec », la probabilité d'un succès étant p, celle d'un échec étant q = 1 - p). On compte alors le nombre de succès obtenus à l'issue des n épreuves et on appelle X la variable aléatoire indiquant ce nombre de succès.

L'univers X(Ω) désigne l'ensemble des entiers naturels de 0 à n.

La variable aléatoire suit une loi de probabilité définie par :

p(k) = \mathbb{P}(\mathrm{X} = k)= {n \choose k} \, p^k q^{n-k}= {n \choose k} \, p^k (1-p)^{n-k}

Cette formule fait intervenir le nombre des combinaisons de k éléments parmi n, généralement noté {n\choose k} ou \mathrm{C}_{n}^{k}. Notons que ce nombre de combinaisons se distingue du nombre des arrangements de k éléments parmi n, \mathrm{A}^k_n = \dfrac{n!}{(n-k)!}, du fait que dans une combinaison l'ordre des éléments n'importe pas. Et comme il y a k! (prononcer factorielle k) façons d'ordonner k éléments, le nombre des combinaisons se déduit du nombre des arrangements par la simple division \dfrac{\mathrm{A}^k_n}{k!}\, et on obtient :

{n\choose k} =\frac{n!}{k!(n-k)!}

Cette loi de probabilité s'appelle la loi binomiale de paramètres n et p et se note B(n, p).

Historique[modifier | modifier le code]

planche de Galton
La planche de Galton : les empilements de billes rouges correspondent à la fonction de masse de la loi binomiale, la courbe bleue correspond à la densité de la loi normale.

La loi binomiale fait partie des plus ancienne lois de probabilités étudiées[1]. Elle est découverte par Jacques Bernoulli qui y fait référence en 1713 dans son ouvrage Ars Conjectandi. Entre 1708 et 1718, la loi multinomiale (généralisation multi-dimensionnelle de la loi binomiale), la loi binomiale négative ainsi que l'approximation de la loi binomiale par la loi de Poisson, la loi des grands nombres pour la loi binomiale et une approximation de la queue de la loi binomiale sont découvertes[2].

Grâce à l'expression de sa fonction de masse, la loi binomiale a été utilisée par plusieurs scientifiques pour étudier des phénomènes. C'est le cas d'Abraham de Moivre[a 1] qui réussit à trouver une approximation de la loi binomiale par la loi normale, il publie d'abord ses résultats en 1733 en latin[3] : Approximatio ad Summam Terminorum Binomii \scriptstyle(a+b)^n in Seriem expansi, puis les traduit pour les publier en 1756 dans Doctrine of Chances. En 1812, Pierre-Simon de Laplace reprend ces travaux. Francis Galton crée la planche de Galton qui permet d'avoir une représentation physique de cette convergence[a 1]. En 1909, Émile Borel énonce et prouve, dans le cas de la loi binomiale, la première version de la loi forte des grands nombres[4].

Plus récemment, en 1914, McKendrick a démontré que la loi binomiale est la solution d'un processus simple de naissance et d'émigration[5]. D'après les travaux de William Feller en 1957, la loi peut aussi être vue comme la loi stationnaire pour le modèle des urnes d'Ehrenfest. Cette même année, Haight montre que la loi binomiale est liée à un problème de file d'attente[5].

La loi binomiale apparait dans de nombreuses applications au XXième siècle[6] : en génétique, en biologie animale, en écologie végétale, pour les tests statistiques, dans différents modèles physiques tels que des réseaux téléphoniques[7] ou le modèle des urnes d'Ehrenfest, etc

Le nom binomiale de cette loi provient[8],[a 1] de l'écriture de sa fonction de masse (voir ci-dessous) qui contient un coefficient binomial issu du développement du binôme : \scriptstyle (p+q)^n.

Définition intuitive[modifier | modifier le code]

La loi de Bernoulli décrit le comportement d'un évènement aléatoire qui possède deux résultats possibles. Ces deux résultats sont traditionnellement appelés succès et échec[9]. Une telle expérience s'appelle une épreuve de Bernoulli. Par exemple, lors d'une lancer de pile ou face, on peut considérer qu'obtenir face est un succès et obtenir pile est un échec. Dans ce modèle, la probabilité de succès est une valeur fixe, c'est-à-dire qui reste constante à chaque renouvellement de l'expérience aléatoire.

On considère la situation où une telle expérience aléatoire (deux résultats possibles et une probabilité fixe) est répétée un nombre de fois de manière indépendante ; notons n ce nombre de fois. Cette répétition indépendante d'épreuves de Bernoulli s'appelle un schéma de Bernoulli ou simplement des épreuves de Bernoulli[10]. La loi binomiale décrit le nombre de fois où le succès apparait sur les n expériences effectuées. Le nombre de succès obtenus étant une valeur aléatoire, la loi binomiale est décrite grâce à la donnée des probabilités que le succès apparaisse précisément k fois sur les n essais.

En reprenant l'exemple du pile ou face, si on lance n=cinq fois la pièce, la loi binomiale décrit les probabilités qu'il y ait 0, 1, 2, 3, 4 ou 5 succès. (Ces probabilités sont détaillées dans les sections suivantes de cet article).

Définition mathématique[modifier | modifier le code]

La loi binomiale est une loi de probabilité discrète[1] à deux paramètres : \scriptstyle n\in \mathbb N^* et \scriptstyle p\in[0,1]. Il est fréquent d'utiliser également le paramètre \scriptstyle q=1-p pour avoir des expressions plus concises. Plusieurs définitions équivalentes se trouvent pour la loi binomiale.

fonctions de masse de la loi binomiale
Diagrammes en bâtons de trois fonctions de masse de lois binomiales. Les paramètres sont \scriptstyle n=20 et \scriptstyle p=0,1 (en bleu), \scriptstyle p=0,5 (en vert) et \scriptstyle p=0,8 (en rouge).

Définition 1[11],[9] — La loi binomiale, de paramètres \scriptstyle n et \scriptstyle p, est la loi de probabilité d'une variable aléatoire \scriptstyle X égale au nombre de succès rencontrés au cours d'une répétition de \scriptstyle n épreuves de Bernoulli, \scriptstyle p étant la probabilité de succès d'une épreuve de Bernoulli.

Définition 2[12] — La loi binomiale, de paramètres \scriptstyle n et \scriptstyle p, est la loi de probabilité d'une variable aléatoire \scriptstyle X telle que :

X=Y_1+Y_2+\dots +Y_n,

\scriptstyle Y_1,Y_2,\dots ,Y_n, sont des variables aléatoires indépendantes de loi de Bernoulli de même paramètre \scriptstyle p.

Définition 3[1] — La loi binomiale, de paramètres \scriptstyle n et \scriptstyle p, est la loi de probabilité discrète d'une variable aléatoire \scriptstyle X dont la fonction de masse est donnée par :

p_k=\mathbb P(X=k)={n\choose k}p^kq^{n-k} pour \scriptstyle k=0,1,\dots ,n.

La fonction de masse donnée dans la définition 3 a bien un sens puisque la formule du binôme de Newton donne[13] : \scriptstyle \sum_{k=0}^n p_k=\sum_{k=0}^n{n\choose k}p^kq^{n-k}=(p+1-p)^n=1. La définition 2 est l'écriture mathématique de la définition 1[8].

La définition 3 est équivalente des deux autres : on calcule explicitement la probabilité que \scriptstyle k succès apparaissent dans \scriptstyle n essais. Puisque les \scriptstyle n répétitions sont indépendantes, la probabilité d'obtenir \scriptstyle k succès et donc \scriptstyle n-k échecs est : \scriptstyle p^k(1-p)^{n-k}, dans le cas où on ne tient pas compte de la place des résultats[12],[14]. Il suffit alors de s'intéresser à la place des \scriptstyle k succès et \scriptstyle n-k échecs. C'est-à-dire, combien y a-t-il de manière de placer \scriptstyle k succès parmi \scriptstyle n résultats (sans s'occuper de l'ordre entre les succès) ? C'est le nombre de combinaisons de \scriptstyle k éléments parmi \scriptstyle n éléments[15] donné par le coefficient binomial : \scriptstyle {n\choose k}. On retrouve alors la fonction de masse de la définition 3.

Notation

Un variable aléatoire \scriptstyle X qui suit une loi binomiale de paramètres \scriptstyle n et \scriptstyle p est notée[1],[12] : \scriptstyle X\sim b(n,p) ; \scriptstyle X\sim B(n,p) ou \scriptstyle X\sim Bi(n,p).

Mesure de probabilité

Puisque la loi binomiale \scriptstyle b(n,p) est une loi discrète, il est possible de la définir grâce à sa mesure de probabilité[16] :

\mathbb P = \sum_{k=0}^n {n\choose k}p^kq^{n-k}\delta_k , où \scriptstyle \delta_k est la mesure de Dirac au point \scriptstyle k.

Représentation sous la forme d'un arbre[modifier | modifier le code]

Article détaillé : Arbre de probabilité.
Représentation de la loi binomiale sous forme d'un arbre.

Puisque la loi binomiale est une suite d'épreuves de Bernoulli, il est possible de la représenter grâce à un arbre de probabilité : chaque nœud représente une épreuve de Bernoulli, les succès et échecs sont représentés par une branche gauche et une branche droite. Le graphique est donc un arbre binaire équilibré. Un arbre contenant \scriptstyle n générations correspond à une loi binomiale \scriptstyle b(n,p).

Si on indique les résultats de chaque épreuve de Bernoulli sur les arêtes de l'arbre, il est possible de visualiser les différentes issues de la loi binomiale[17]. Si ce sont les valeurs des probabilités qui sont indiquées sur les arêtes, il est possible de récupérer les probabilités de la loi binomiale[18] (voir le graphique ci-contre).

Le graphique est un arbre de probabilité pour lune loi binomiale de paramètre \scriptstyle n = 3. Sur chaque branche, sont indiquées sont les probabilités des différentes issues. Au bout des branches de l'arbre, apparait les probabilités de chaque issue de la loi binomiale \scriptstyle b(3,p). C'est-à-dire pour les valeurs \scriptstyle k=0, 1, 2 ou \scriptstyle 3, on obtient \scriptstyle \mathbb P(X=0)=q^3, \scriptstyle \mathbb P(X=1)=3pq^2, \scriptstyle \mathbb P(X=2)=3qp^2 et \scriptstyle \mathbb P(X=3)=p^3. On retrouve les différents coefficients binomiaux : \scriptstyle {3 \choose 0} = 1 \text{ ; } {3 \choose 1} = 3 \text{ ; } {3 \choose 2} = 3 \text{ ; } {3 \choose 3} = 1 \text{.}

Propriétés[modifier | modifier le code]

Moments[modifier | modifier le code]

Les moments suivants sont les moments d'une variable aléatoire \scriptstyle X de loi binomiale[19],[20] \scriptstyle b(n,p) :

La formule suivante est une formule de récurrence qui permet obtenir les moments : \mu'_{r+1}=pq\left(\frac{n}{q}\mu'_r+\frac{d\mu'_r}{dp}\right).

  • Les moments inverses, c'est-à-dire \scriptstyle \mathbb E( X^{-r}), sont infinis[21].
Moments centrés[20]

En 1923, Romanovsky donne une formule de récurrence pour obtenir les moments centrés : \mu_{r+1}=pq\left(nr\mu_{r-1}+\frac{d\mu_r}{dp}\right).

En 1943, Kendall obtient une formule grâce à la fonction de répartition : \mu_{r}=npq\sum_{k=0}^{r-2}{r-1\choose k}\mu_k - p\sum_{k=0}^{r-2}{r-1\choose k}\mu_{k+1}.

Déviation moyenne
La déviation moyenne est donnée par[21] :  \mathbb E(|X-np|)=2n{n-1\choose [np]} p^{[np]+1}q^{n-[np]} ,

\scriptstyle [np] est la partie entière de \scriptstyle np. Des ordres plus élevés ont été étudiés en 1960 par Katti.

Fréquence de succès

Grâce aux formules précédentes, on obtient les moments de la fréquence de succès[22] : \scriptstyle \frac{X}{n} :

  • moment d'ordre 1 (ou espérance) de la fréquence de succès : \mathbb E\left(\frac{X}{n}\right)=p,
  • moment centré d'ordre 2 (ou variance) de la fréquence de succès : \mathbb E\left((\frac{X}{n}-p)^2\right)=\frac{p(1-p)}{n}=\frac{pq}{n},
    cette formule donne l'écart type de la fréquence de succès : \sigma_{X/n} =\sqrt{\frac{p(1-p)}{n}}=\frac{\sqrt{pq}}{\sqrt{n}},
  • moment centré d'ordre 4 de la fréquence de succès : \mathbb E\left((\frac{X}{n}-p)^4\right)=\frac{pq(1-6pq)}{n^3}+3\frac{p^2q^2}{n^2}.

Propriétés immédiates et caractérisations[modifier | modifier le code]

Valeurs descriptives de la loi
  • Le coefficient d'asymétrie d'une loi binomiale \scriptstyle b(n,p) est [23] : \scriptstyle\gamma = \frac{q-p}{\sqrt{npq}}. L'asymétrie de la loi binomiale \scriptstyle b(n,p) est positive[24] si \scriptstyle p<1/2 et négative si \scriptstyle p>1/2. La loi est symétrique si et seulement si \scriptstyle p=1/2.
  • La médiane de la loi binomiale est m=\scriptstyle [np] ou m=\scriptstyle [np]+1, \scriptstyle [.] étant la partie entière. Ces valeurs s'obtiennent grâce à la formule[a 2] : \scriptstyle |m-np|<\ln(2) (cette borne étant optimale).
Propriétés de stabilité
  • Si \scriptstyle X suit une loi binomiale \scriptstyle b(n,p), alors[12] \scriptstyle  Y=n-X suit une loi \scriptstyle b(n,1-p). Cette symétrie donne les relations suivantes pour la fonction de répartition et pour la fonction de masse[25],[26] : \scriptstyle \mathbb P(X\leq k)=\mathbb P(Y\geq n-k) et \scriptstyle \mathbb P(X = k)=\mathbb P(Y = n-k).
  • Si les variables aléatoires \scriptstyle X_1 et \scriptstyle X_2 sont de lois binomiales respectives \scriptstyle b(n_1,p) et \scriptstyle b(n_2,p), alors la variable aléatoire \scriptstyle X_1+X_2 est de loi binomiale \scriptstyle b(n_1+n_2,p). Cette propriété peut s'obtenir grâce à l'expression des fonctions caractéristiques ou grâce à l'écriture sous forme de somme de variables de Bernoulli[27].
Inégalité de Bienaymé-Tchebychev

L'inégalité de Bienaymé-Tchebychev pour une variable aléatoire \scriptstyle X suivant la loi binomiale \scriptstyle b(n,p) est obtenue grâce aux moments[22] :

\mathbb P\left( \left| \frac{X}{n}-p  \right|>\varepsilon \right) \leq \frac{p(1-p)}{n\varepsilon^2}
Caractérisations

Fonction de répartition[modifier | modifier le code]

Graphique de 3 fonctions de répartition de lois binomiales avec paramètres : \scriptstyle n=20 et \scriptstyle p=0.1 (en bleu), \scriptstyle p=0.5 (en vert) et \scriptstyle p=0.8 (en rouge).

La fonction de répartition d'une variable aléatoire \scriptstyle X suivant la loi binomiale \scriptstyle b(n,p) est donnée par[19] :

 F(x)=\mathbb P(X\leq x) = \begin{cases} 1 & si\; x\geq n\\ \displaystyle \sum_{k=0}^{[x]}{n\choose k} p^k(1-p)^{n-k}  & si\; 0\leq x < n\\ 0 & si \; x< 0 \end{cases}

\scriptstyle [x] est la partie entière de \scriptstyle x.

Même s'il existe une expression de la fonction de répartition, son calcul n'est pas facile[29] dû aux coefficients binomiaux \scriptstyle {n\choose k}, notamment lorsque \scriptstyle n est grand. Il existe alors des tables de valeurs (voir ci-dessous). Des théorèmes d'approximation ont été développés[29] pour approcher de manière théorique et calculatoire cette fonction de répartition (voir ci-dessous). L'expression suivante provient du lien entre la loi binomiale et la loi bêta[19] (voir ci-dessous) : pour \scriptstyle 0\leq x < n

 F(x)= \frac{1}{B\left( [x]+1,n-[x] \right)} \int_p^1 t^{[x]} (1-t)^{n-[x]-1} dt

\scriptstyle B est la fonction bêta. il est alors possible d'écrire la fonction de répartition grâce à la fonction bêta incomplète[30] :

 F(x)= I_{1-p}(n-[ x ], 1+[ x]).


Fonctions caractéristique et génératrice[modifier | modifier le code]

La fonction caractéristique d'une variable aléatoire \scriptstyle X suivant la loi binomiale \scriptstyle b(n,p) est donnée par[22] :

\phi(t)=\mathbb E\left(e^{itX}\right)=\left(q+pe^{it}\right)^n.

La fonction génératrice des moments d'une variable aléatoire \scriptstyle X suivant la loi binomiale \scriptstyle b(n,p) est donnée par[19] :

M(t)=\mathbb E\left(e^{tX}\right)=\left(q+pe^t\right)^n.

On déduit directement la fonction génératrice des cumulants[5] :

\ln(M(t))=n\ln\left(q+pe^t\right),

et la fonction génératrice des cumulants factoriels[5] :

\ln\left(\mathbb E(t^X)\right)=n\ln\left(q+pt\right).

Lien avec d'autres lois[modifier | modifier le code]

Loi de Bernoulli

Rappelons que la loi binomiale de paramètres \scriptstyle n\in \mathbb N^* et \scriptstyle p\in [0,1] est la loi de la somme de \scriptstyle n variables aléatoires indépendantes de loi de Bernoulli de même paramètre \scriptstyle p.

Ainsi, la loi binomiale \scriptstyle b(1,p) est une loi de Bernoulli de paramètre \scriptstyle p.

C'est par cette représentation de nombre de succès et d'échecs dans une suite d'épreuves que la loi binomiale est source de nombreuses applications.

Lois réciproques

Les lois suivantes ont un lien avec la loi binomiale grâce à leur fonctions de répartition. Lorsque le nombre de succès \scriptstyle k est fixé, elles donnent la loi du nombre d'épreuves nécessaires (loi binomiale négative) ou la loi du paramètre \scriptstyle p (lois bêta ou de Fisher). En ce sens, elles peuvent servir de lois réciproques.

  • La loi binomiale \scriptstyle b(n,p) donne le nombre de succès dans une succession de \scriptstyle n épreuves indépendantes. La loi binomiale négative, ou loi de Pascal, \scriptstyle Pa(k,p) est le nombre d'épreuves nécessaires pour obtenir \scriptstyle k succès[31]. le terme négatif provient de l'écriture de la fonction de masse qui contient un coefficient binomial avec un terme négatif[a 3].
De plus, si \scriptstyle X suit une loi \scriptstyle Pa(k,p) et si \scriptstyle Y suit une loi \scriptstyle b(n+k,p) alors[32],[33], pour \scriptstyle k entre 0 et \scriptstyle n  :
\mathbb P(Y\leq k)= 1-I_p(k,n+1) = \mathbb P(X\geq n) , où \scriptstyle I_p est la fonction bêta incomplète. Autrement dit : la probabilité qu'il faille moins de \scriptstyle n épreuves pour avoir \scriptstyle k succès est égale à la probabilité qu'il y ait au moins \scriptstyle k succès en \scriptstyle n+k épreuves.
\mathbb P(Y\leq k)= 1-I_p(k+1,n-k) = \mathbb P(X \geq p)\scriptstyle X suit une loi bêta de paramètres \scriptstyle k+1,n-k et \scriptstyle Y suit une loi binomiale \scriptstyle b(n,p).
  • La loi binomiale est liée à la loi de Fisher par la propriété suivante[a 3],[34]: si Y suit une loi binomiale \scriptstyle b(n,p) alors, pour \scriptstyle k entre 0 et \scriptstyle n  :
\mathbb P(Y \le k) = \mathbb P(F> \frac{\nu_2}{\nu_1}\cdot\frac{p}{1-p})\scriptstyle F suit une loi de Fischer de paramètres \nu_1=2(k+1)\, , \, \nu_2=2(n-k).
La relation précédente permet de trouver les quantiles de la loi binomiale[34].
Autres lois
  • La loi binomiale(doublement) tronquée de paramètres \scriptstyle n,p,r_1 et \scriptstyle r_2 est la loi binomiale \scriptstyle b(n,p) avec \scriptstyle r_1<n-r_2 telle que les valeurs dans \scriptstyle [0,r_1[ et dans \scriptstyle ]n-r_2,n] sont enlevées[35]. La fonction de masse de cette loi est donnée par l'expression : pour \scriptstyle k=r_1,\dots n-r_2
\mathbb P(X=k)={n\choose k}p^kq^{n-k}/\sum_{i=r_1}^{n-r_2} {n\choose i}p^iq^{n-i}.
De la même manière il est possible de définir la loi binomiale (simplement) tronquée[35] en omettant uniquement les valeurs entre 0 et \scriptstyle r_1 ou entre \scriptstyle n-r_2 et \scriptstyle n.
  • La loi binomiale positive ou loi binomiale tronquée en 0 est la loi binomiale \scriptstyle b(n,p) dont on retire la valeur 0. Sa fonction de masse est : \scriptstyle \mathbb P(X=k)={n\choose k}\frac{p^kq^{n-k}}{1-q^n}. De la même manière il est possible de définir la loi binomiale négative.
  • La loi multinomiale est la généralisation multi-dimensionnelle de la loi binomiale[19] dans le sens où la loi multinomiale modélise une succession d'épreuves dont chacune possède plusieurs issues, pas uniquement succès ou échec. Cette loi multidimensionnelle donne les probabilités du nombre d'apparition des différentes issues dans une succession d'épreuves indépendantes[a 3].
  • La fonction de masse de la loi hypergéométrique de paramètres \scriptstyle A,p=1-q,n est donnée par : p_k=\frac{{k\choose pA}{n-A\choose qA}}{{n\choose A}}. Elle correspond au nombre tirages gagnants dans une expérience de \scriptstyle n tirages simultanés dans une urne contenant \scriptstyle A boules et une proportion de \scriptstyle p boules gagnantes.
Si le nombre de boules augmente, c'est-à-dire \scriptstyle A tend vers l'infini, et si \scriptstyle p/A tend vers une valeur \scriptstyle p'\in [0,1], alors la loi hypergéométrique converge vers une loi binomiale[36] \scriptstyle b(n,p').
Autrement dit, si la taille de la population (\scriptstyle A) est grande par rapport à la taille de l'échantillon (\scriptstyle n), alors les tirages peuvent être convenablement représentés par une loi binomiale de paramètre \scriptstyle p' égal au pourcentage (\scriptstyle p) d'éléments ayant la caractère étudié.
De plus, si \scriptstyle X_1 et \scriptstyle X_2 sont deux variables aléatoires indépendantes de loi binomiale respectives \scriptstyle b(n_1,p) et \scriptstyle b(n_2,p), alors la loi de \scriptstyle X_1 sachant que \scriptstyle X_1+X_2=k est la loi hypergéométrique de paramètres[27] : \scriptstyle k, \frac{n_1}{n_1+n_2} et \scriptstyle n_1+n_2.

Convergences et approximations[modifier | modifier le code]

Pour de grandes valeurs de n, le calcul de {n \choose k} \, p^k q^{n-k} devient vite pratiquement impossible, sauf si l'on cherche à calculer le logarithme de cette expression au lieu de l'expression elle-même (et à condition d'utiliser l'approximation des factorielles par la formule de Stirling). On distingue deux cas :

Loi des grands nombres[modifier | modifier le code]

La loi binomiale, son espérance et sa variance, ainsi que l'inégalité de Bienaymé-Tchebychev permettent de démontrer une version simple de la loi des grands nombres.

Convergence vers la loi de Poisson[modifier | modifier le code]

Convergence

Considérons une loi binomiale \scriptstyle b(n,p) telle que les paramètres \scriptstyle n et \scriptstyle p sont liés par la formule : \scriptstyle np=\lambda>0\scriptstyle \lambda est fixé. Lorsque \scriptstyle n tend vers l'infini, et donc \scriptstyle p tend vers 0, alors[37] : \scriptstyle \lim_{n\rightarrow +\infty} {n\choose k}p^kq^{n-k} = e^{-\lambda}\frac{\lambda^k}{k!}. Autrement dit la probabilité qu'une variable de loi binomiale prenne la valeur \scriptstyle k converge (lorsque \scriptstyle n devient grand) vers la probabilité qu'une variable de loi de Poisson prenne la valeur \scriptstyle k. Le paramètre \scriptstyle p converge alors vers 0, il correspond donc à un évènement de probabilité très faible, la loi de Poisson est alors appelée loi des évènements rares[37]. Par sommation, on obtient alors le résultat[38] :

\lim_{n\rightarrow +\infty}\mathbb P(X\leq x)=\lim_{n\rightarrow +\infty}\sum_{k=0}^{[x]} {n\choose k}p^kq^{n-k} =  e^{-\lambda}\sum_{k=0}^{[x]}\frac{\lambda^k}{k!}=\mathbb P(Y\leq x)

\scriptstyle [\cdot] est la partie entière, \scriptstyle X est une variable de loi binomiale et \scriptstyle Y de loi de Poisson \scriptstyle \mathcal P(\lambda). Cette limite montre la convergence en loi de la loi binomiale (avec les conditions précédentes) vers la loi de Poisson. Une expression plus détaillée de la convergence peut être donnée par la formule[39],[19] : \scriptstyle \mathbb P(X\leq x) = e^{-\lambda}\sum_{k=0}^{[x]}\frac{\lambda^k}{k!}+\mathcal O(\frac{1}{n^2}) avec \scriptstyle \lambda = \frac{(2n-[x])p}{2-p} lorsque \scriptstyle n tend vers l'infini et \scriptstyle \mathcal O(\cdot) est le comparateur asymptotique.

Fonctions de masse d'une loi binomiale \scriptstyle b(60\,;\,0,2) (en rouge) et d'une loi de poisson \scriptstyle \mathcal P(12) (en bleu).

En 1953, Iouri Prokhorov donne une majoration de l'erreur totale d'approximation entre la fonction de répartition d'une loi binomiale \scriptstyle b(n,p) et une loi de Poisson \scriptstyle \mathcal P(np)[40] : \scriptstyle  \sum_{k=0}^{+\infty}\left|{n\choose k}p^kq^{n-k}-\frac{e^{-np}(np)^k}{k!}\right| \leq \min (2np^2,3p) . Il est également possible de borner le ratio entre les deux fonctions de répartition[40] : \scriptstyle e^{np}\left(1-\frac{k}{n}\right)^k q^n  \leq  \frac{{n\choose k}p^kq^{n-k}}{e^{-np}(np)^k/k!} \leq e^{np} q^{n-k}.

Approximation

Grâce à la convergence ci-dessus, il est possible d'approcher les probabilités de la loi binomiale par la loi de Poisson. En pratique, le cas s'applique lorsque \scriptstyle n est grand et donc \scriptstyle p petit. Différentes valeurs sont proposées[39],[37],[41],[42] :

  • \scriptstyle p<0,4, lorsque \scriptstyle n=3 (ce qui fait \scriptstyle np<1,2),
  • \scriptstyle p<0,3, lorsque \scriptstyle n=30 (ce qui fait \scriptstyle np<9),
  • \scriptstyle p<0,2, lorsque \scriptstyle n=300 (ce qui fait \scriptstyle np<60),
  • \scriptstyle 0<np<10,
  • \scriptstyle p<0,1, lorsque \scriptstyle n\geq 30,
  • \scriptstyle np\leq 10 et \scriptstyle n\geq 1500 p.

L'idée commune de toutes ces propositions est d'avoir la valeur \scriptstyle np stable lorsque \scriptstyle n est grand et \scriptstyle p petit.

Convergence vers la loi normale[modifier | modifier le code]

Article détaillé : Théorème de de Moivre-Laplace.
convergence de la loi binomiale
Illustration de la convergence de la fonction de masse de la loi binomiale vers la loi normale lorsque \scriptstyle n grandit.
Convergence

Le théorème de de Moivre-Laplace, énoncé en 1733, montre qu'une variable aléatoire de loi binomiale, convenablement renormalisée, converge en loi vers une variable aléatoire de loi normale. Ce résultat peut s'énoncer grâce aux fonctions de répartition des deux lois. Considérons variable aléatoire \scriptstyle X de loi binomiale \scriptstyle b(n,p), la variable aléatoire \scriptstyle X renormalisée est la variable aléatoire centrée et réduite, c'est-à-dire : \scriptstyle \frac{X-\mathbb E(X)}{\sigma_X}=\frac{X-np}{\sqrt{npq}}. Si on note \scriptstyle \Phi la fonction de répartition de la loi normale, alors :

Théorème de de Moivre-Laplace : pour tout \scriptstyle x\in \mathbb R , \lim_{n\to+\infty}\mathbb{P} \left( \frac{X- np}{\sqrt{npq}}\leq x \right) =\frac{1}{\sqrt{2\pi}}\int_{-\infty}^x e^{-\frac{t^2}{2}}dt = \Phi(x).

Bien qu'Abraham de Moivre n'ait énoncé ce résultat que dans le cas d'une loi binomiale[43], cette convergence est généralisée dans le cas d'autres lois, c'est le théorème central limite. Dans cette convergence permet d'approcher une loi discrète par une loi continue, il est alors utile d'ajouter un coefficient, dit correction de continuité, afin d'améliorer les approximations futures (voir ci-dessous), la convergence précédente peut alors s'écrire sous forme d'équivalence lorsque \scriptstyle n tend vers l'infini[44] : pour tout \scriptstyle a,b\in \mathbb R

\mathbb P\left( a \leq X \leq b\right) \approx \mathbb P\left( \frac{a-\frac{1}{2}-np}{\sqrt{npq}} \leq \frac{X-np}{\sqrt{npq}}\leq \frac{b+\frac{1}{2}-np}{\sqrt{npq}} \right) \operatorname{\sim}_{n\rightarrow +\infty} \Phi\left(\frac{b+\frac{1}{2}-np}{\sqrt{npq}}\right) - \Phi\left(\frac{a-\frac{1}{2}-np}{\sqrt{npq}}\right).

L'erreur commise par l'approximation est estimée par l'inégalité de Berry-Esseen dont la constante est régulièrement améliorée, elle fournit une borne de la différence entre les deux fonctions de répartition lorsque \scriptstyle n est grand[45],[a 4], pour \scriptstyle X une variable aléatoire de loi binomiale \scriptstyle b(n,p) et \scriptstyle Y de loi normale \scriptstyle \mathcal N(0,1) de fonction de répartition notée \scriptstyle \Phi : \scriptstyle \sup_{x\in \mathbb R}\left| \mathbb P\left( \frac{X-np}{\sqrt{npq}}\leq x \right) - \Phi(x) \right| \leq \frac{0,4748}{\sqrt{npq}}. Une expression plus détaillée de la convergence peut être donnée par la formule avec correction de continuité[19] : \scriptstyle \mathbb P(X\leq x) = \Phi\left( \frac{x-np+1/2}{\sqrt{npq}} \right)+\mathcal O(\frac{1}{\sqrt{n}}) uniformément pour toute variable \scriptstyle x, lorsque \scriptstyle n tend vers l'infini et où \scriptstyle \mathcal O(\cdot) est le comparateur asymptotique. D'autres approximations plus fines ont été étudiées[46], par exemple par Pierre-Simon de Laplace (1820), Iouri Prokhorov (1953) ou Peizer et Pratt (1968).

Approximation

Grâce aux théorème de convergence ci-dessus, lorsque \scriptstyle n est grand, les probabilités de la binomiale renormalisée peuvent être approchées par les valeurs des probabilités de la loi normale. il existe plusieurs règles sur les paramètres \scriptstyle n et \scriptstyle p pour que l'approximation soit valable[47],[42] :

  • \scriptstyle npq>9,
  • \scriptstyle np>9 et \scriptstyle p<1/2.

L'influence de ces paramètres sur l'approximation a été finement étudiée dans les années 1990, par exemple[47] : pour \scriptstyle n fixé, l'erreur absolue minimale est atteinte pour \scriptstyle p=1/2 ; l'erreur absolue est inférieure à \scriptstyle 0,0212/\sqrt{npq}.

Tables de la loi binomiale[modifier | modifier le code]

Des tables de la fonction de masse et de la fonction de répartition de la loi binomiale ont été publiée en 1950 par le National Bureau of Standards puis en 1955 dans National of the Computation Laboratory et par Rao et al. en 1985[48].

Grâce aux relations de symétrie (voir ci-dessus), il suffit[25],[26] de donner des tables de valeurs pour \scriptstyle p\leq 0.5.

Valeurs de la fonction de masse[modifier | modifier le code]

Les tables de valeurs suivantes[41] donnent les valeurs de la fonction de masse de la loi binomiale \scriptstyle b(n,p) pour différentes valeurs de \scriptstyle n.

Exemples : Si \scriptstyle X suit une loi \scriptstyle b(10\,;\,0,15), alors \scriptstyle \mathbb P(X=4)\simeq 0,0401. Si \scriptstyle Y suit une loi \scriptstyle b(10\,;\,0,85), alors \scriptstyle \mathbb P(Y=4)=\mathbb P(X=6)\simeq 0,0012.


Valeurs de la fonction de répartition[modifier | modifier le code]

Les tables de valeurs suivantes[49] donnent les valeurs de la fonctions de répartition de la loi binomiale \scriptstyle b(n,p) pour différentes valeurs de \scriptstyle n.

Exemples : Si \scriptstyle X suit une loi \scriptstyle b(10\,;\,0,15), alors \scriptstyle \mathbb P(X\leq 4)\simeq 0,9901. Si \scriptstyle Y suit une loi \scriptstyle b(10\,;\,0,85), alors \scriptstyle \mathbb P(Y\leq 4)=\mathbb P(X\geq 6)=1-\mathbb P(X\leq 5)\simeq 1-0,9986=0,0014.

Applications[modifier | modifier le code]

Des exemples importants où la loi binomiale apparaît comme loi de la somme de variables de Bernoulli sont les suivants :

Notes et références[modifier | modifier le code]

  1. a, b, c et d dodge 2007, p. 287
  2. Hald 2005, p. 5
  3. Hald 2005, p. 485
  4. Hazewinkel 1994, p. 438
  5. a, b, c et d Johnson, Kemp et Kotz 2005, p. 109
  6. Johnson, Kemp et Kotz 2005, p. 136
  7. Johnson, Kemp et Kotz 2005, p. 140
  8. a et b Ruegg 1994, p. 39
  9. a et b Gosset 2009, p. 310
  10. Dodge 2007, p. 175
  11. Ruegg 1994, p. 38
  12. a, b, c et d Bogaert 2005, p. 50
  13. Gosset 2009, p. 316
  14. Gosset 2009, p. 311
  15. Bogaert 2005, p. 305
  16. Foata, Fuchs et Ranchi 2012, p. 68
  17. Gosset 2009, p. 274
  18. Ruegg 1994, p. 23
  19. a, b, c, d, e, f et g Hazewinkel 1994, p. 397
  20. a et b Johnson, Kemp et Kotz 2005, p. 110
  21. a et b Johnson, Kemp et Kotz 2005, p. 111
  22. a, b, c et d Courtin 2012, p. 1G17
  23. Bogaert 2005, p. 329
  24. Johnson, Kemp et Kotz 2005, p. 114
  25. a et b Mittag et Rinne 1993, p. 515
  26. a, b et c Mittag et Rinne 1993, p. 105
  27. a et b Johnson, Kemp et Kotz 2005, p. 115
  28. a, b et c Johnson, Kemp et Kotz 2005, p. 135
  29. a et b Johnson, Kemp et Kotz 2005, p. 116
  30. Johnson, Kemp et Kotz 2005, p. 125
  31. Bogaert 2005, p. 54
  32. Johnson, Kemp et Kotz 2005, p. 218
  33. Mittag et Rinne 1993, p. 109
  34. a et b Mittag et Rinne 1993, p. 116
  35. a et b Johnson, Kemp et Kotz 2005, p. 137
  36. Courtin 2012, p. 1G18
  37. a, b et c Foata, Fuchs et Ranchi 2012, p. 73
  38. Hald 2005, p. 215
  39. a et b Johnson, Kemp et Kotz 2005, p. 121
  40. a et b Johnson, Kemp et Kotz 2005, p. 123
  41. a et b Bogaert 2005, p. 348
  42. a et b Mittag et Rinne 1993, p. 106
  43. Hald 2005, p. 492
  44. Ruegg 1994, p. 93
  45. Hazewinkel 1994, p. 369
  46. Johnson, Kemp et Kotz 2005, p. 118
  47. a et b Johnson, Kemp et Kotz 2005, p. 117
  48. Dodge 2005, p. 288
  49. Bogaert 2005, p. 349
Articles et autres sources
  1. a, b et c Aimé Fuchs, « Plaidoyer pour la loi normale »
  2. (en) Hamza K., « The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions », Statist. Probab. Lett., vol. 23,‎ 1995, p. 21-25 (lire en ligne)
  3. a, b, c et d E. Morice, « Quelques modèles mathématiques de durée de vie », Revue de statistique appliquée, t. 14, no 1,‎ 1966 (lire en ligne), p. 68
  4. (en) Korolev Victor et Shevtsova Irina, « An improvement of the Berry–Esseen inequality with applications to Poisson and mixed Poisson random sums », Scandinavian Actuarial Journal, vol. 2,‎ 2012, p. 81-105 (lire en ligne)
  5. Émile Borel, « Les probabilités dénombrables et leurs applications arithmétiques », Rendiconti del Circolo Matematico di Palermo, vol. 27, no 1,‎ décembre 1909, p. 247-271 (ISSN 0009-725X et 1973-4409, DOI 10.1007/BF03019651, lire en ligne)

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]