Variables indépendantes et identiquement distribuées

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En théorie des probabilités et en statistique, des variables indépendantes et identiquement distribuées, sont des variables aléatoires qui ont toutes la même loi de probabilité et sont indépendantes. On dit que ce sont des variables i.i.d.

Cette situation apparait souvent en statistique. En effet, le caractère étudié sur la population est supposé suivre une loi de probabilité. Lorsque l'on réalise un échantillon, les mesures obtenues sur les individus sélectionnés suivent toutes cette loi prédéfinie. De plus la méthode d'échantillonnage est choisie pour obtenir des résultats indépendants entre eux.

Ces deux conditions sont nécessaires à l'application des théorèmes les plus courants. En particulier le théorème central limite dans sa forme classique énonce que la somme renormalisée de variables aléatoires i.i.d tend vers une loi normale. C'est également le cas de la loi des grands nombres qui assure que la moyenne de variables i.i.d converge vers l'espérance de la loi de probabilité des variables.

Origines et explications[modifier | modifier le code]

Dans l'histoire des probabilités, les premiers raisonnements tel que le problème des partis au XVII siècle, ont été faits sur des jeux de hasard. Il est question d'un jeu en plusieurs parties, même si le terme de variables aléatoires indépendantes et identiquement distribuées n'est pas utilisé, il en est question : « le hasard est égal »[1]. Dans le problème du jeu de dés posé par le chevalier de Méré, il admet que « les faces du dé sont également possibles et par là-même qu'elles ont la même chance de se produire »[1].

C'est toujours au XVII siècle que Jérome Cardan, Pierre de Fermat et Christian Huygens utilisent la notion d'équiprobabilité. C'est-à-dire que certains évènements ont la même probabilité d'apparaître, autrement dit que certaines variables ont la même loi. La notion d'indépendance n'apparaît que plus tard avec Abraham de Moivre[2].

Dans les mêmes années, des questions se posent en démographie au sujet des rentes viagères[3]. Ces questions statistiques s'appuient sur les travaux probabilistes naissants des jeux de hasard pour évaluer des valeurs des rentes. Leibniz considère ces questions comme analogues aux jeux de hasard, c'est-à-dire dans le cas d'évènements indépendants et de même chance : les fréquence des décès sont considérés comme des valeurs de probabilité, la durée comme le gain dans un jeu contre la nature et les calculs sur plusieurs personnes se font par multiplication[3].

Ainsi les exemples du lancer du dé[4], du jeu de pile ou face[5] ou du tirage (aléatoire avec remise) de boules dans une urne sont des exemples classiques que l'on modélise par des variables aléatoires indépendantes et identiquement distribuées. En statistique, un échantillon est construit en « tirant au hasard » des individus dans une population[6]. Le terme « au hasard » sous-entend que l'hypothèse d'équiprobabilité c'est-à-dire qu'à chaque tirage, les individus ont la même chance d'être prélevés ce qui assure que les résultats du tirage sont de même loi. Pour avoir l'indépendance, le tirage peut être réalisé avec remise[7]. Dans le cas ou la population totale est très grande ou considérée infinie, le fait de tirer avec ou sans remise ne modifie l'indépendance des résultats.

De tels résultats obtenus par plusieurs observations successives d'un même phénomène aléatoire sont appelés des échantillons aléatoires[8].

Définition[modifier | modifier le code]

La désignation indépendantes et identiquement distribuées regroupe deux notions : l'indépendance et loi de probabilité. L'indépendance est une propriété des variables aléatoires alors que le second point ne concerne que leur loi de probabilité.

Intuitivement, dans le cas de variable aléatoire réelle, l'indépendance entre deux variables aléatoires signifie que la connaissance de l'une n'influe en rien sur la valeur de l'autre[9]. Plus mathématiquement, les variables \scriptstyle X_1,X_2, sont dites indépendantes[10] si \scriptstyle \mathbb P(X_1 \leq t_1,X_2\leq t_2)=\mathbb P(X_1 \leq t_1)\times \mathbb P(X_2 \leq t_2) pour tous réels \scriptstyle t_1,t_2. Cette propriété se généralise pour \scriptstyle n variables aléatoires indépendantes, dites mutuellement indépendantes[8].

Des variables aléatoires ont même loi si leur fonction de répartition sont égales.

Définition — Des variables aléatoires réelles \scriptstyle X_1,X_2,\dots, X_n sont dites indépendantes et identiquement distribuées si elles sont :

  1. indépendantes,
    c'est-à-dire pour toute sous-famille finie \scriptstyle X_{i_1},X_{i_2},\dots, X_{i_k}, \scriptstyle \mathbb P(X_{i_1} \leq t_{i_1},\dots ,X_{i_k}\leq t_{i_k})=\mathbb P(X_{i_1} \leq t_{i_1})\times \dots \times \mathbb P(X_{i_k} \leq t_{i_k}) pour tous réels \scriptstyle t_{i_1},\dots,t_{i_k}, et
  2. de même loi,
    c'est-à-dire \scriptstyle \mathbb P(X_i \leq t_i)=\mathbb P(X_1 \leq t_1) pour tout \scriptstyle i=1,\dots;n.

Des variables indépendantes et identiquement distribuées sont dites iid[9] ou i.i.d.[11]

De manière plus générale, il est possible de considérer des variables aléatoires à valeurs non réelles, c'est-à-dire dans un espace mesurable général. Dans ce cas, chaque variable aléatoire est une fonction mesurable d'un espace probabilisé \scriptstyle (\Omega, \mathcal{F}, \mathbb{P}) dans un espace mesurable. \scriptstyle X : (\Omega, \mathcal{F}, \mathbb{P})\longrightarrow (E_X, \mathcal{E}_X) et \scriptstyle Y : (\Omega, \mathcal{F}, \mathbb{P})\longrightarrow (E_Y, \mathcal{E}_Y) . Ainsi, on dit que les variables : \scriptstyle X et \scriptstyle Y sont indépendantes et identiquement distribuées si :

Ces définitions se généralisent au cas d'une suite finie ou infinie dénombrable ou non-dénombrable de variables aléatoires[12].

Propriétés[modifier | modifier le code]

Les variables indépendantes et identiquement distribuées apparaissent dans beaucoup de situations et résultats statistiques et probabilistes car elles possèdent beaucoup de bonnes propriétés. Dans la suite de cette section, \scriptstyle X_1,X_2,\dots,X_n sont variables aléatoires réelles indépendantes et identiquement distribuées.

Si l'espérance commune des variables \scriptstyle X_i est \scriptstyle \mu et la variance commune est \scriptstyle \sigma^2, alors la somme et la moyenne ont pour espérance et pour variance[13] :

\mathbb E(X_1+X_2+\dots+X_n)=n\mu et Var(X_1+X_2+\dots+X_n)=n\sigma^2,
\mathbb E\left(\frac{X_1+X_2+\dots+X_n}{n}\right)=\mu et Var\left(\frac{X_1+X_2+\dots+X_n}{n}\right)=\frac{\sigma^2}{n}.

Si on note \scriptstyle \Psi la fonction caractéristique commune des variables \scriptstyle X_i et \scriptstyle \Psi_{S_n} celle de la somme \scriptstyle S_n=X_1+X_2+\dots+X_n, alors[13]

\Psi_{S_n}(t)=\left(\Psi(t)\right)^n.

La covariance et la corrélation de deux variables aléatoires indépendantes est nulle : \scriptstyle Corr(X_1,X_2)=Cov(X_1,X_2)=0 c'est-à-dire \scriptstyle \mathbb E(X_1X_2)=\mathbb E(X_1)\mathbb E(X_2). Cependant une covariance nulle n'implique pas l'indépendance des variables aléatoires[14]. Dans le cas où les variables sont de loi normale alors l'indépendance des variables est équivalent au fait que leur covariance soit nulle[15].

Si \scriptstyle X_1 et \scriptstyle X_2 sont i.i.d., alors[16] : \scriptstyle Cov(X_1+X_2,X_1-X_2)=0.

Exemples de sommes de variables aléatoires i.i.d.


Une généralisation de variables aléatoires est la notion de variables échangeables[12].

Les variables aléatoires réelles \scriptstyle X_1,X_2,\dots,X_n sont dites échangeables si la loi de probabilité du n-uplet \scriptstyle (X_1,X_2,\dots,X_n) est la même que la loi de \scriptstyle (X_{\sigma(1)},X_{\sigma(2)},\dots,X_{\sigma(n)}) pour toute permutation \scriptstyle \sigma. Autrement dit, la loi du n-uplet ne dépend pas de l'ordre des variables.

Si des variables aléatoires réelles sont indépendantes et identiquement distribuées, alors elles sont échangeables[12]. Il existe une réciproque partielle : des variables échangeables sont identiquement distribuées. Cependant, elles ne sont généralement pas indépendantes[24].

Le théorème central limite s'applique pour des variables i.i.d., il existe des versions de ce théorème pour des variables échangeables[25].

En statistique[modifier | modifier le code]

En haut : la série de données. En bas : la fonction d'auticorrélation.

La statistique est une science qui étudie et interprète les données. Lorsque l'on possède une série de données, la question se pose de savoir si elles peuvent être modélisées par des variables aléatoires indépendantes et identiquement distribuées. Autrement dit sont-elles différentes valeurs obtenues de manière indépendante d'un même phénomène aléatoire[26] ? Les données peuvent être obtenues par mesures sur des individus ou objets qui doivent alors être choisis au hasard et avec remise[26], elles peuvent également provenir d'une simulation grâce à un générateur de nombres aléatoires, dans ce cas la graine du générateur doit être choisi aléatoirement et ne doit plus être changé après[26].

Il y a plusieurs méthodes pour tester l'indépendance des variables.

Visualiser le graphique d’autocorrélation ou corrélogramme

Dans le cas où la série est stationnaire, c'est-à-dire que les accroissements sont de covariance nulle, on peut s'intéresser à la fonction d'autocorrélation[27] (ACF). C'est la corrélation entre la première valeur et la \scriptstyle k-ième valeur. Cette fonction permet d'évaluer si les données sont issue d'un modèle i.i.d.[27], elle est nulle si les données sont parfaitement i.i.d.[26] En fait les valeurs de la fonction d'autocorrélation décroissent en fonction de la taille \scriptstyle n du nombre de données suivant le ratio \scriptstyle \frac{\pm1,96}{\sqrt{n}}.

Visualiser le graphe de retard (Lag-plot)

Le graphique de retard \scriptstyle h est un nuage de points qui ont pour abscisse les valeurs \scriptstyle x_1,x_2,\dots,x_n de la série de donnée et en ordonnées ces valeurs décalées de \scriptstyle h : \scriptstyle x_{1+h},x_{2+h},\dots,x_{n+h}. Si un des nuages fait apparaître une tendance d'orientation, la série n'est pas considérée i.i.d.[28]

Effectuer des tests statistiques
Article détaillé : Test (statistique).

Il est possible de réaliser des tests statistiques pour vérifier si les données sont associée à une loi de probabilité (tests d'adéquation) et d'autres pour vérifier si les données sont indépendantes (test d'indépendance). Il existe aussi des tests pour vérifier si des valeurs sont i.i.d. comme le test du point tournant (turning point test (en))[a 1],[29].

Si on note \scriptstyle x_1,x_2,\dots,x_{j-1},x_j,x_{j+1},\dots,x_n les valeurs obtenues, on dit la suite de valeur est monotone en \scriptstyle j si \scriptstyle x_{j-1}\leq x_j\leq x_{j+1} ou \scriptstyle x_{j-1}\geq x_j\geq x_{j+1}. Dans le cas contraire, on dit que \scriptstyle j est un point tournant. Intuitivement cela signifie que les valeurs ne sont pas ordonnées. Si les valeurs \scriptstyle x_1,x_2,\dots,x_n sont issue d'un modèle i.i.d. alors le nombre de points tournants suit une loi normale lorsque \scriptstyle n tend vers \scriptstyle \infty. il est alors possible de faire un test statistique : on teste \scriptstyle H_0=[x_1,x_2,\dots,x_n \text{ sont }i.i.d.] contre \scriptstyle H_1=[x_1,x_2,\dots,x_n \text{ ne sont pas }i.i.d.].

Si \scriptstyle T_n est le nombre de points tournants pour \scriptstyle n valeurs, alors \scriptstyle T_n suit la loi \scriptstyle \mathcal N\left( \frac{2n-4}{3} , \frac{16n-29}{90} \right). Si \scriptstyle \mathbb P(Z< t_{\alpha})=\alpha avec \scriptstyle Z de loi normale centrée réduite, alors la valeur critique est :

 v_\alpha= \frac{2n-4}{3} + t_{\alpha}\sqrt{ \frac{16n-29}{90}}.

C'est-à-dire, si le nombre de points tournants est plus petit que \scriptstyle v_\alpha, alors il est considéré comme trop petit et l'hypothèse i.i.d. est alors rejeté avec un risque \scriptstyle \alpha de se tromper.

Par exemple, la série \scriptstyle 1,2,3,5,4,6,7,8 contient 2 points tournants pour \scriptstyle n=8 valeurs. Pour un risque de \scriptstyle \alpha=5\%, la table de valeur de la loi normale donne \scriptstyle t_\alpha=-1,645. Ainsi : \scriptstyle v_\alpha = 2,27 > T=2 . On rejette l'hypothèse et on conclut que les valeurs ne sont pas issue d'un modèle i.i.d. avec un risque de 5% de se tromper. (cet exemple est réalisé avec une faible valeur de \scriptstyle n, ce qui ne le rend pas très performant).

Applications et exemples[modifier | modifier le code]

Exemple classique[modifier | modifier le code]

Un exemple de tirage aléatoire i.i.d. est celui d'un jeu de pile ou face. Chaque lancer de la même pièce suit la même loi de Bernoulli de paramètre \scriptstyle p et est indépendant de ceux qui l'ont précédé ou vont lui succéder.

Dans cet exemple simple, le tirage pourrait ne plus être i.i.d. on peut utiliser deux pièces différentes dont l'une n'est pas équilibrée comme l'autre. Par exemple une première pièce avec la probabilité \scriptstyle p_1 d'obtenir pile et l'autre avec probabilité \scriptstyle p_2\neq p_1.

  • si on utilise alternativement les deux pièces biaisées, les résultats ne suivent pas la même loi e probabilité, ils restent néanmoins indépendants.
  • si on lance systématiquement la pièce ayant le plus de chance de donner face après chaque tirage pile, les tirages ne sont plus indépendants car conditionnées par le résultat du tirage précédent. Les valeurs n'ont pas non plus la même loi.

Théorèmes limites[modifier | modifier le code]

En théorie des probabilités et en statistique, il existe deux types de théorèmes limites : la loi des grands nombres et le théorème central limite[5]. Ces deux théorèmes s'appliquent dans le cas d'une répétition de \scriptstyle n fois la même expérience, c'est-à-dire dans le cas de \scriptstyle n variables aléatoires indépendantes et identiquement distribuées. Au XX siècle, Benoît Mandelbrot désigne différents types de hasard[30] : ceux dits « benins » qui vérifient les hypothèses de ces théorèmes limites et ceux plus « sauvages » ou « chaotiques » qui ne vérifient pas l'hypothèse i.i.d.

Loi des grands nombres[31] : Si \scriptstyle X_1,X_2,\dots,X_n sont des variables aléatoires réelles indépendantes et identiquement distribuées d'espérance finie \scriptstyle \mu et de variance finie \scriptstyle \sigma^2, alors la variable \scriptstyle \frac{1}{n}(X_1+X_2+\dots+X_n) converge en probabilité vers \scriptstyle \mu.

Théorème central limite[32] : Si \scriptstyle X_1,X_2,\dots,X_n sont des variables aléatoires réelles indépendantes et identiquement distribuées d'espérance finie \scriptstyle \mu et de variance finie \scriptstyle \sigma^2, alors la variable \scriptstyle \frac{1}{\sigma\sqrt{n}}(X_1+X_2+\dots+X_n - n\mu) convergence en loi vers une variable aléaoire de loi normale centrée réduite.

L'hypothèse i.i.d. de ces théorèmes n'est pas nécessaire. Par exemple, la loi des grands nombres s'appliquent également lorsque la covariance des variables \scriptstyle (X_i)_{i\geq 1} converge vers 0 lorsque la distance entre les indices grandit[33] : \scriptstyle \lim_{j\rightarrow +\infty} R(j)=0 avec \scriptstyle R(j-i)=cov(X_i,X_j).

Processus et bruit blanc[modifier | modifier le code]

Article détaillé : Bruit blanc.

Un processus stochastique représente l'évolution en fonction du temps d'une variable aléatoire. Il est alors intéressant de s'intéresser aux accroissements des processus.

Pour un processus stochastique \scriptstyle  (X_t)_{t\geq 0}, si pour toutes variables \scriptstyle t_1<t_2<\dots <t_n, les accroissements \scriptstyle X_{t_2}-X_{t_1}, X_{t_3}-X_{t_2},\dots ,X_{t_n}-X_{t_{n-1}} sont indépendants, alors le processus est dit à accroissements indépendants[34]. De plus, si la loi de probabilité des accroissements \scriptstyle X_{t}-X_{t+h}, pour tout \scriptstyle h>0 ne dépend pas de \scriptstyle t, alors le processus est dit stationnaire[34].

Il existe de nombreux de processus stationnaires à accroissements indépendants : la marche aléatoire dans le cas où la variable de temps \scriptstyle t est un nombre entier, le processus de Wiener ou mouvement brownien dans le cas où \scriptstyle X_t suit une loi normale \scriptstyle \mathcal N(0,t), le processus de Poisson et plus généralement les processus de Markov, le processus de Lévy.

Un autre exemple de processus à accroissements indépendants et stationnaires est le bruit blanc. Le bruit blanc est un processus stochastique \scriptstyle  (X_t)_{t\geq 0} tel que[34] : pour tous \scriptstyle t et \scriptstyle h,

On dit que c'est un processus i.i.d. car il est formé de variables indépendantes et identiquement distribuées[34]. Si de plus la loi de \scriptstyle X_t est normale alors le bruit blanc est parfois dit gaussien et est noté n.i.d.

Monte-Carlo[modifier | modifier le code]

Les méthodes de Monte-Carlo sont des méthodes numériques qui permettent de réaliser des calculs sans faire les calculs exacts mais en utilisant des simulations de valeurs aléatoires[35]. Plus précisément, la méthode de Monte-Carlo ordinaire utilise des variables aléatoires indépendantes et identiquement distribuées \scriptstyle X_1,X_2,\dots ,X_n. Grâce au théorème central limite, la variable aléatoire \scriptstyle \hat\mu_n-\frac{1}{n}(X_1+X_2+\dots+X_n) converge en loi vers une variables aléatoire de loi normale[36]. Grâce à la connaissance de la loi normale, on peut donc obtenir une valeur approchée de la valeur recherchée pour un grand nombre de variables aléatoires considérées. Ainsi la moyenne empirique \scriptstyle \hat\mu_n est une valeur approchée de la vraie moyenne recherchée. Plus précisément[36], on peut obtenir un intervalle de confiance de la moyenne au seuil de confiance 95% : \scriptstyle [\hat\mu_n-1,96\frac{\hat\sigma_n}{\sqrt{n}} \,;\, \hat\mu_n+1,96\frac{\hat\sigma_n}{\sqrt{n}}]\scriptstyle \hat\sigma_n=\frac{1}{n}\sum_{i=1}^n(X_i-\hat\mu_n)^2.

Cette méthode sert également à réaliser d'autres types de calculs tel que le calcul d'intégrale ou permet également de donner une méthode pour simuler différentes variables d'une loi prédéfinie, en utilisant par exemple l'algorithme de Metropolis-Hastings ou l'échantillonnage de Gibbs[35].

La méthode de Monte-Carlo existe aussi dans le cas où les variables aléatoires ne sont plus i.i.d., on parle alors de méthode de Monte-Carlo par chaînes de Markov. La suite de variables aléatoires est alors une Chaîne de Markov stationnaire. La perte de l'hypothèse i.i.d. complique les résultats[37].

Notes et références[modifier | modifier le code]

  1. a et b Henry 2001, p. 20
  2. Henry 2001, p. 23
  3. a et b Henry 2001, p. 29
  4. Henry 2001, p. 142
  5. a et b Henry 2001, p. 127
  6. Henry 2001, p. 122
  7. Lejeune 2004, p. 39
  8. a et b Lejeune 2004, p. 37
  9. a et b Le Boudec 2015, p. 39
  10. Morgenthaler 2007, p. 86
  11. Morgenthaler 2007, p. 100
  12. a, b et c Severini 2005, p. 59
  13. a et b Lejeune 2004, p. 38
  14. Lejeune 2004, p. 36
  15. Lejeune 2004, p. 42
  16. Lejeune 2004, p. 43
  17. Lejeune 2004, p. 48
  18. Lejeune 2004, p. 50
  19. Lejeune 2004, p. 53
  20. Lejeune 2004, p. 56
  21. Lejeune 2004, p. 57
  22. Lejeune 2004, p. 72
  23. Lejeune 2004, p. 73
  24. Severini 2005, p. 60
  25. Severini 2005, p. 399
  26. a, b, c et d Le Boudec 2015, p. 40
  27. a et b Le Boudec 2015, p. 143
  28. Le Boudec 2015, p. 41
  29. Le Boudec 2015, p. 123
  30. Henry 2001, p. 129
  31. Severini 2005, p. 342
  32. Severini 2005, p. 365
  33. Severini 2005, p. 344
  34. a, b, c et d Bourbonnais et Terraza 2010, p. 85
  35. a et b Brooks et al. 2011, p. 3
  36. a et b Brooks et al. 2011, p. 7
  37. Brooks et al. 2011, p. 8
Articles et autres sources
  1. (en) R. Dudley, « The turning point test », MIT OpenCourseWare - Statistics for Applications,‎ , p. 1-6 (lire en ligne)

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]


  • (en) Jean-Yves Le Boudec, Performance evaluation of computer and communication systems, EPFL,‎ , 359 p. (lire en ligne)

Articles connexes[modifier | modifier le code]