Variables indépendantes et identiquement distribuées

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En théorie des probabilités et en statistique, des variables indépendantes et identiquement distribuées, sont des variables aléatoires qui ont toutes la même loi de probabilité et sont indépendantes. On dit que ce sont des variables i.i.d.

Cette situation apparait souvent en statistique. En effet, le caractère étudié sur la population est supposé suivre une loi de probabilité. Lorsque l'on réalise un échantillon, les mesures obtenues sur les individus sélectionnés suivent toutes cette loi prédéfinie. De plus la méthode d'échantillonnage est choisie pour obtenir des résultats indépendants entre eux.

Ces deux conditions sont nécessaires à l'application des théorèmes les plus courants. En particulier le théorème central limite dans sa forme classique énonce que la somme renormalisée de variables aléatoires i.i.d tend vers une loi normale. C'est également le cas de la loi des grands nombres qui assure que la moyenne de variables i.i.d converge vers l'espérance de la loi de probabilité des variables.

Origines et explications[modifier | modifier le code]

Dans l'histoire des probabilités, les premiers raisonnements tel que le problème des partis au XVII siècle, ont été faits sur des jeux de hasard. Il est question d'un jeu en plusieurs parties, même si le terme de variables aléatoires indépendantes et identiquement distribuées n'est pas utilisé, il en est question : « le hasard est égal »[1]. Dans le problème du jeu de dés posé par le chevalier de Méré, il admet que « les faces du dé sont également possibles et par là-même qu'elles ont la même chance de se produire »[1].

C'est toujours au XVII siècle que Jérome Cardan, Pierre de Fermat et Christian Huygens utilisent la notion d'équiprobabilité. C'est-à-dire que certains évènements ont la même probabilité d'apparaître, autrement dit que certaines variables ont la même loi. La notion d'indépendance n'apparaît que plus tard avec Abraham de Moivre[2].

Dans les mêmes années, des questions se posent en démographie au sujet des rentes viagères[3]. Ces questions statistiques s'appuient sur les travaux probabilistes naissants des jeux de hasard pour évaluer des valeurs des rentes. Leibniz considère ces questions comme analogue aux jeux de hasard, c'est-à-dire dans le cas d'évènements indépendants et de même chance : les fréquence des décès sont considérés comme des valeurs de probabilité, la durée comme le gain dans un jeu contre la nature et les calculs sur plusieurs personnes se font par multiplication[3].

Ainsi les exemples du lancer du dé[4], du jeu de pile ou face[5] ou du tirage (aléatoire avec remise) de boules dans une urne sont des exemples classiques que l'on modélise par des variables aléatoires indépendantes et identiquement distribuées. En statistique, un échantillon est construit en « tirant au hasard » des individus dans une population[6]. Le terme « au hasard » sous-entend que l'hypothèse d'équiprobabilité c'est-à-dire qu'à chaque tirage, les individus ont la même chance d'être prélevés ce qui assure que les résultats du tirage sont de même loi. Pour avoir l'indépendance, le tirage peut être réalisé avec remise. Dans le cas ou la population totale est très grande ou considérée infinie, le fait de tirer avec ou sans remise ne modifie l'indépendance des résultats.

Définition[modifier | modifier le code]

La désignation indépendantes et identiquement distribuées regroupe deux notions : l'indépendance et loi de probabilité.

Dans le cas de variable aléatoire réelle, deux variables aléatoires \scriptstyle X_1,X_2, sont dites indépendantes[7] si \scriptstyle \mathbb P(X_1 \leq t_1,X_2\leq t_2)=\mathbb P(X_1 \leq t_1)\times \mathbb P(X_2 \leq t_2) pour tous réels \scriptstyle t_1,t_2. Cette propriété se généralise pour \scriptstyle n variables aléatoires indépendantes, dites mutuellement indépendantes.

Des variables aléatoires ont même loi si leur fonction de répartition sont égales.

Définition — Des variables aléatoires réelles \scriptstyle X_1,X_2,\dots, X_n sont dites indépendantes et identiquement distribuées si elles sont :

  1. indépendantes,
    c'est-à-dire pour toute sous-famille finie \scriptstyle X_{i_1},X_{i_2},\dots, X_{i_k}, \scriptstyle \mathbb P(X_{i_1} \leq t_{i_1},\dots ,X_{i_k}\leq t_{i_k})=\mathbb P(X_{i_1} \leq t_{i_1})\times \dots \times \mathbb P(X_{i_k} \leq t_{i_k}) pour tous réels \scriptstyle t_{i_1},\dots,t_{i_k}, et
  2. de même loi,
    c'est-à-dire \scriptstyle \mathbb P(X_i \leq t_i)=\mathbb P(X_1 \leq t_1) pour tout \scriptstyle i=1,\dots;n.

De manière plus générale, il est possible de considérer des variables aléatoires à valeurs non réelles, c'est-à-dire dans un espace mesurable général. Dans ce cas, chaque variable aléatoire est une fonction mesurable d'un espace probabilisé \scriptstyle (\Omega, \mathcal{F}, \mathbb{P}) dans un espace mesurable. \scriptstyle X : (\Omega, \mathcal{F}, \mathbb{P})\longrightarrow (E_X, \mathcal{E}_X) et \scriptstyle Y : (\Omega, \mathcal{F}, \mathbb{P})\longrightarrow (E_Y, \mathcal{E}_Y) . Ainsi, on dit que les variables : \scriptstyle X et \scriptstyle Y sont indépendantes et identiquement distribuées si :

Ces définitions se généralisent au cas d'une suite finie ou infinie dénombrable ou non-dénombrable de variables aléatoires[8].

Variables échangeables[modifier | modifier le code]

Une généralisation de variables aléatoires est la notion de variables échangeables[8].

Les variables aléatoires réelles \scriptstyle X_1,X_2,\dots,X_n sont dites échangeables si la loi de probabilité du n-uplet \scriptstyle (X_1,X_2,\dots,X_n) est la même que la loi de \scriptstyle (X_{\sigma(1)},X_{\sigma(2)},\dots,X_{\sigma(n)}) pour toute permutation \scriptstyle \sigma. Autrement dit, la loi du n-uplet ne dépend pas de l'ordre des variables.

Si des variables aléatoires réelles sont indépendantes et identiquement distribuées, alors elles sont échangeables[8]. Il existe une réciproque partielle : des variables échangeables sont identiquement distribuées. Cependant, elles ne sont généralement pas indépendantes[9].

Le théorème central limite s'applique pour des variables i.i.d., il existe des versions de ce théorème pour des variables échangeables[10].

Propriétés[modifier | modifier le code]

Applications et exemples[modifier | modifier le code]

En théorie des probabilités et en statistique, il existe deux types de théorèmes limites : la loi des grands nombres et le théorème central limite[5]. Ces deux théorèmes s'appliquent dans le cas d'une répétition de \scriptstyle n fois la même expérience, c'est-à-dire dans le cas de \scriptstyle n variables aléatoires indépendantes et identiquement distribuées. Au XX siècle, Benoît Mandelbrot désigne différents types de hasard[11] : ceux dits « benins » qui vérifient les hypothèses de ces théorèmes limites et ceux plus « sauvages » ou « chaotiques » qui ne vérifient pas l'hypothèse i.i.d.

Loi des grands nombres[12] : Si \scriptstyle X_1,X_2,\dots,X_n sont des variables aléatoires réelles indépendantes et identiquement distribuées d'espérance finie \scriptstyle \mu et de variance finie \scriptstyle \sigma^2, alors la variable \scriptstyle \frac{1}{n}(X_1+X_2+\dots+X_n) converge en probabilité vers \scriptstyle \mu.

Théorème central limite[13] : Si \scriptstyle X_1,X_2,\dots,X_n sont des variables aléatoires réelles indépendantes et identiquement distribuées d'espérance finie \scriptstyle \mu et de variance finie \scriptstyle \sigma^2, alors la variable \scriptstyle \frac{1}{\sigma\sqrt{n}}(X_1+X_2+\dots+X_n - n\mu) convergence en loi vers une variable aléaoire de loi normale centrée réduite.

L'hypothèse i.i.d. de ces théorèmes n'est pas nécessaire. Par exemple, la loi des grands nombres s'appliquent également lorsque la covariance des variables \scriptstyle (X_i)_{i\geq 1} converge vers 0 lorsque la distance entre les indices grandit[14] : \scriptstyle \lim_{j\rightarrow +\infty} R(j)=0 avec \scriptstyle R(j-i)=cov(X_i,X_j).

Tirages aléatoires[modifier | modifier le code]

Un exemple de tirage aléatoire i.i.d est celui du pile ou face. Chaque lancer de pièce suit la même loi de Bernoulli de paramètre p et est indépendant de ceux qui l'ont précédé ou vont lui succéder. Si p=0.5 (pile et face ont la même chance d'apparition), et que nous avons obtenu 10 fois face lors des 10 tirages précédents, les chances d'obtenir pile et face lors du prochain tirage sont néanmoins égales.

Dans l'exemple précédent, le tirage ne serait plus i.i.d :

  • si on utilise alternativement deux pièces biaisées différemment (p_1 \ne p_2) car dans ce cas les tirages ne suivent pas la même loi. Ils restent néanmoins indépendants.
  • si on choisit systématiquement la pièce ayant le plus de chance de donner face après chaque tirage pile (et que l'on prend les pièces au hasard après un tirage face), les tirages ne sont plus indépendants car conditionnées par le résultat du tirage précédent.

Processus et bruit blanc[modifier | modifier le code]

Article détaillé : Bruit blanc.

Un processus stochastique représente l'évolution en fonction du temps d'une variable aléatoire. Il est alors intéressant de s'intéresser aux accroissements des processus.

Pour un processus stochastique \scriptstyle  (X_t)_{t\geq 0}, si pour toutes variables \scriptstyle t_1<t_2<\dots <t_n, les accroissements \scriptstyle X_{t_2}-X_{t_1}, X_{t_3}-X_{t_2},\dots ,X_{t_n}-X_{t_{n-1}} sont indépendants, alors le processus est dit à accroissements indépendants[15]. De plus, si la loi de probabilité des accroissements \scriptstyle X_{t}-X_{t+h}, pour tout \scriptstyle h>0 ne dépend pas de \scriptstyle t, alors le processus est dit stationnaire[15].

Il existe de nombreux de processus stationnaires à accroissements indépendants : la marche aléatoire dans le cas où la variable de temps \scriptstyle t est un nombre entier, le processus de Wiener ou mouvement brownien dans le cas où \scriptstyle X_t suit une loi normale \scriptstyle \mathcal N(0,t), le processus de Poisson et plus généralement les processus de Markov, le processus de Lévy.

Un autre exemple de processus à accroissements indépendants et stationnaires est le bruit blanc. Le bruit blanc est un processus stochastique \scriptstyle  (X_t)_{t\geq 0} tel que[15] : pour tous \scriptstyle t et \scriptstyle h,

On dit que c'est un processus i.i.d. car il est formé de variables indépendantes et identiquement distribuées[15]. Si de plus la loi de \scriptstyle X_t est normale alors le bruit blanc est parfois dit gaussien et est noté n.i.d.

Notes et références[modifier | modifier le code]

  1. a et b Henry 2001, p. 20
  2. Henry 2001, p. 23
  3. a et b Henry 2001, p. 29
  4. Henry 2001, p. 142
  5. a et b Henry 2001, p. 127
  6. Henry 2001, p. 122
  7. Morgenthaler 2007, p. 86
  8. a, b et c Severini 2005, p. 59
  9. Severini 2005, p. 60
  10. Severini 2005, p. 399
  11. Henry 2001, p. 129
  12. Severini 2005, p. 342
  13. Severini 2005, p. 365
  14. Severini 2005, p. 344
  15. a, b, c et d Bourbonnais et Terraza 2010, p. 85

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]