Théorie des probabilités
La théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard et l'incertitude. Elle forme avec la statistique les deux sciences du hasard qui sont partie intégrante des mathématiques. Les débuts de l'étude des probabilités correspondent aux premières observations du hasard dans les jeux ou dans les phénomènes climatiques par exemple.
Bien que le calcul de probabilités sur des questions liées au hasard existent depuis longtemps, la formalisation mathématique n'est que récente. Elle date du début du XXe siècle avec l'axiomatique de Kolmogorov. Des objets tels que les événements, les mesures de probabilité, les espaces probabilisés ou les variables aléatoires sont centraux dans la théorie. Ils permettent de traduire de manière abstraite les comportements ou des quantités mesurées qui peuvent etre supposés aléatoires. En fonction du nombre de valeurs possibles pour le phénomène aléatoire étudié, la théorie des probabilités est dite discrète ou continue. Dans le cas discret, c'est-à-dire pour un nombre au plus dénombrable d'états possibles, la théorie des probabilités se rapproche de la théorie du dénombrement ; alors que dans le cas continu, la théorie de l'intégration et la théorie de la mesure donnent les outils nécessaires.
Les objets et résultats probabilistes sont un support nécessaire à la statistique, c'est le cas par exemple du théorème de Bayes, de l'évaluation des quantiles ou du théorème central limite et de la loi normale. Cette modélisation du hasard permet également de résoudre plusieurs paradoxes probabilistes.
Qu'il soit discret ou continu, le calcul stochastique est l'étude des phénomènes aléatoires qui dépendent du temps. La notion d'intégrale stochastique et d'équation différentielle stochastique font partie de cette branche de la théorie des probabilités. Ces processus aléatoires permettent de faire des liens avec plusieurs domaines plus appliqués tels que les mathématiques financières, la mécanique statistique, le traitement d'images, etc.
Sommaire |
Historique [modifier]
Avant que l'étude des probabilités soit considérée comme une science, l'observation du hasard dans les évènements naturels a amené les philosophes et les scientifiques a réfléchir sur la notion de liens entre évènements, causes et conséquences, et lois de la nature[1]. Les jeux de hasard, les situations météorologiques ou les trajectoires des astres ont faits partie des domaines étudiés[2]. Les explications données sont alors liées au destin, à une colère celeste ou à une présence divine[2].
Il est communément admis que le début de la science des probabilités se situe au XVIe siècle avec l'analyse de jeux de hasard par Jérôme Cardan et au XVIIe siècle avec les discussions entre Pierre de Fermat et Blaise Pascal au sujet du problème des partis posé par Antoine Gombaud, chevalier de Méré[3]. Cette nouvelle théorie est nommée géométrie alétoire par le chevalier de Méré en 1654, elle est appelée par la suite calcul conjectural, arithmetique politique et plus communément aujourd'hui théorie des probabilités[3]. Cette théorie, dite des probabilités modernes, est alors étudiée par de nombreux penseurs jusqu'au XIXe siècle : Kepler, Galilée, Leibniz, Huygens, Halley, Buffon, les frères Bernoulli, Moivre, Euler, D'Alembert, Condorcet, Laplace, Fourier[4],[5]. Elle est principalement basée sur les évènements discrets et la combinatoire.
Au début du XXe siècle, Kolmogorov fit la connexion entre la théorie de la mesure de Borel, la théorie de l'intégration de Lebesgue et les probabilités[5].
Des considérations analytiques ont forcé l'introduction de variables aléatoires continues dans la théorie. Cette idée prend tout son essor dans la théorie moderne des probabilités, dont les fondations ont été posées par Andreï Nikolaevich Kolmogorov. Kolmogorov combina la notion d'univers, introduite par Richard von Mises et la théorie de la mesure pour présenter son système d'axiomes pour la théorie des probabilités en 1933. Très vite, son approche devint la base incontestée des probabilités modernes.
Définition [modifier]
Suivant les époques ou les domaines d'application, la théorie des probabilités peut prendre des noms différents : la théorie de la probabilité mathématique[6], le calcul des probabilités[7], ou plus simplement les probabilités bien qu'il ne faille pas confondre avec la probabilité d'un évènement qui est l'évaluation de son caractère probable ou une probabilité qui est une loi (ou mesure) de probabilité.
Il a été difficile de donner une définition de la théorie des probabilités. Dans son cours vers 1893, Henri Poincaré s'exprime ainsi : « On ne peut guère donner de définition satisfaisante de la Probabilité. On dit généralement ... etc »[a 1]. Cependant, il est toujours fait mention de l'étude de notions comme le hasard, l'aléa, la chance ou encore le caractère probable d'un évènement. Une définition peut être donnée sous la forme :
- La théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard et l'incertitude[b 1],[a 2].
C'est-à-dire que la théorie des probabilités est un domaine des mathématiques. Ce n'a pas toujours été le cas, cette théorie a été rattachée à la théorie des jeux de hasard[a 3], à la philosophie[8], les géomètres ont été parmi les premiers scientifiques à utiliser le calcul des probabilités[9]. Il est à noter que le groupe mathématique Bourbaki, créé en 1930 et dont le but est de proposer une présentation cohérente des mathématiques, a été critiqué pour ne pas avoir pris suffisamment en considération la théorie des probabilités : « Bourbaki s'est écarté des probabilités, les a rejetées, les a considérées comme non rigoureuses et, par son influence considérable, a dirigé la jeunesse hors du sentier des probabilités. » soulignait Laurent Schwartz dans son autobiographie[a 4].
Axiomatique [modifier]
Pour pleinement appartenir aux mathématiques, la théorie des probabilités a eu besoin d'une axiomatique. Plusieurs constructions sont proposées au début du XXe siècle comme la théorie des collectifs de Richard von Mises ou l'axiomatique de Andreï Kolmogorov. Cette dernière étant la plus pratique des axiomatiques disponibles à l'époque a été adoptée définitivement par les scientifiques à partir de 1950[a 5]. Elle a permis de pouvoir étudier le calcul des probabilités au-delà des probabilités finies, dites théorie discrète des probabilités et de considérer un cadre plus général pour la théorie des probabilités. Dans cette axiomatique, la théorie des probabilités est basée sur un espace probabilisé et ainsi beaucoup de notions correspondent à des notions de la théorie de l'intégration[10]. Cependant dans la théorie des probabilités, le but est de proposer un modèle pour une expérience aléatoire.
- Un ensemble, souvent noté
, représente l'ensemble de toutes les éventualités possibles, c'est-à-dire qu'il donne tous les hasards différents de l'expérience[10]. Cet ensemble est également appelé univers des possibles. - Un ensemble
contient les événements qui regroupent les éventualités pour lesquelles une certaine propriété est vérifiée. Ces évènements représentent les ensembles de possibilités pour lesquels on cherche la probabilité. Mathématiquement, un élément
est un sous-ensemble de
et l'ensemble d'ensembles
est une tribu[10]. - L'espace
est muni d'une mesure de probabilité afin de pouvoir calculer la probabilité d'une situation liée à l'expérience aléatoire. Mathématiquement, cette mesure de probabilité est une fonction qui à chaque évènement
associe une valeur entre 0 et 1, dite probabilité de l'évènement A. Cette probabilité
vérifie les trois axiomes des probabilités[11] :
- (positivité) la probabilité d'un évènement est une valeur entre 0 et 1 : pour tout
,
, - (masse unitaire) la probabilité de l'univers est 1 :
, - (additivité) pour toute suite dénombrable d'évènements
disjoints deux à deux, c'est-à-dire tels que
pour tous
, alors
.
- (positivité) la probabilité d'un évènement est une valeur entre 0 et 1 : pour tout
L'intérêt de cette construction plutôt abstraite est qu'elle permet une explication globale des calculs de probabilités et notamment des paradoxes qui occupaient tant les scientifiques tels que Joseph Bertrand (voir le paradoxe de Bertrand), Émile Borel (voir le paradoxe du singe savant), etc[a 5].
À titre d'exemple, donnons une modélisation sous forme d'espace probabilisé du lancer d'un dé :
,
.
Cependant cette axiomatique n'est pas nécessaire pour calculer des probabilités dans des cas simples notamment dans le cas discret. Il est facile de calculer que la probabilité d'obtenir un chiffre pair dans un lancer de dé est de 1/2.
Variable aléatoire [modifier]
L'espace probabilisé
construit dans la section précédente est un espace abstrait. Il n'est pas forcément adapté pour effectuer des calculs. Lorsque les résultats possibles de l'expérience aléatoire ne sont pas des nombres, c'est le cas des résultats pile et face dans un lancer de pièce, il est utile de pouvoir associer une valeur numérique à chaque résultat. Une variable aléatoire remplit ce rôle.
Une variable aléatoire est une application mesurable
où
est un espace mesurable[12]. C'est-à-dire qu'à chaque éventualité
est associée une valeur
. Si cette valeur est réelle, la variable aléatoire est dite réelle.
Comme précisé précédemment, il n'est pas toujours utile de définir l'espace probabilisé
, mais il est possible de donner directement les variables aléatoires sur l'espace
. La variable aléatoire s'écrit simplement
au lieu de
.
De la même manière qu'il existe des cas continus et discrets pour la théorie des probabilités, il existe des variables aléatoires discrètes[13] et continues[14]. Il est possible de considérer un vecteur aléatoire comme une variable aléatoire multidimensionnelle :
. Lorsque la dimension n du vecteur n'est plus finie mais infinie, on parle de marche aléatoire ; lorsque la dimension est infinie non dénombrable, on parle de processus stochastique (voir la section Calcul stochastique ci-dessous).
- Exemple
Donnons un exemple simple du lancer de deux dés, c'est-à-dire le lancer d'un dé répété une fois. Une première variable
aléatoire donne le résultat du premier lancer, une deuxième
donne le résultat du deuxième lancer, c'est-à-dire
et
que l'on note plus simplement
et
.
Il est possible de s'intéresser à la somme des deux résultats, qui peut être notée par une variable aléatoire[12] :
.
Théorie des probabilités discrète [modifier]
La théorie des probabilités est dite discrète lorsque l'ensemble
de l'espace probabilisé est fini ou dénombrable[15]. Le plus simple exemple d'étude en théorie des probabilités discrète est le jeu de pile ou face, dans ce cas l'univers
ne contient que deux éléments : pile et face. Les études d'un lancer de dé, d'un tirage d'une carte dans un jeu de cartes ou par exemple du loto font également parties de la théorie des probabilités discrète.
Avant que la théorie de la mesure soit introduite, la probabilité d'un évènement a été définie comme le nombre de cas favorables divisé par le nombre de cas possibles. De manière plus pratique, une expérience aléatoire était répétée un nombre N de fois, le nombre de fois où l'évènement A est réalisé est noté
. Lorsque N tend vers l'infini, la proportion
converge vers une valeur dite probabilité de A[16].
Cependant ce raisonnement n'est pas si simple pour toute question relative à une expérience aléatoire. Les différentes manières de compter ont amenées des paradoxes probabilistes. L'axiomatique de Kolomogorov (voir la section ci-dessus) a permis de résoudre ces problèmes. Dans le cas de la théorie discrète, pour une expérience non répétée, l'axiomatique s'écrit[16] :
où le choix
peut être effectué pour représenter les différents résultats équiprobables de l'expérience. Plusieurs choix de tribu sont possibles, cependant il est raisonnable pour une étude discrète de choisir la tribu de ensemble des parties puisqu'il contient tous les évènements possibles :
.
Dans le cas de la théorie discrète, la mesure de probabilité possède la particularité de pouvoir être définie uniquement sur les singletons[14] :
. Les probabilités des autres évènements s'obtiennent grâce aux axiomes des probabilités (voir la section ci-dessus).
Lorsque l'univers
est fini, contenant n éléments, il est possible de choisir la mesure uniforme[13] :
et ainsi obtenir la formule utile et cohérente à l'intuition des scientifiques plus anciens :
pour tout
.
Grâce à l'utilisation de ces formules, la théorie des probabilités discrète repose sur la théorie des combinaisons, aujourd'hui appelée la combinatoire et le dénombrement[17].
- Exemple
Reprenons l'exemple du lancer de deux dés[16]. L'ensemble de tous les possibles est :
C'est-à-dire que
contient tous les couples de deux chiffres, le premier correspondant au résultat du premier dé, le deuxième au résultat du deuxième. Un choix possible pour la tribu
est l'ensemble des parties :
Le choix de l'espace
est fait de tel sorte que les singletons de
aient tous la même probabilité, ils sont dits équiprobables. Il est alors possible de calculer les probabilités de plusieurs évènements comme
, donc
.
, donc
.
s'obtient également en décomposant en singletons :
.
Théorie des probabilités continue [modifier]
La théorie des probabilités est dite continue lorsque l'univers
n'est plus dénombrable mais quelconque, possiblement non topologique[a 5]. C'est-à-dire lorsque la théorie des probabilité n'est plus discrète.
Il est possible de choisir plusieurs tribus, cependant lorsque l'univers est l'ensemble des réels, il est classique de lui munir la tribu borélienne qui possède de bonnes propriétés. Si ce n'est pas le cas, l'utilisation des variables aléatoires permet de représenter l'univers par l'ensemble des réels
. Le terme théorie des probabilités continue est également utilisé pour désigner le cas où la variable aléatoire, ou la loi de probabilité, associée est absolument continue, c'est-à-dire qu'elle possède une densité.
La mesure de probabilité se définie plus facilement sur
, c'est-à-dire qu'il est plus facile de définir la loi de probabilité de la variable aléatoire[a 5] :
pour tout
tel que
soit l'image réciproque de
par
:
.
Dans certains cas de la théorie des probabilités continue, la variable aléatoire réelle est dite absolument continue par rapport à la mesure de Lebesgue[14], c'est-à-dire qu'il existe une fonction
telle que :
où le terme
dans l'intégrale est une indicatrice. La fonction
est appelée la densité de probabilité de
.
Grâce à l'utilisation de ces formules, la théorie des probabilités continue repose sur la théorie de l'intégration[10].
- Exemple
Des algorithmes[18] de calcul utilisent des valeurs choisies de manière uniforme entre 0 et 1. C'est-à-dire que l'on choisit (aléatoirement) une valeur réelle entre 0 et 1 telle qu'aucune des valeurs n'ait plus de chance d'apparaître qu'une autre. Pour formaliser cette expérience, il y a un espace probabilisé
non détaillé ici, cependant on se donne une variable aléatoire
à valeurs dans
muni de sa tribu borélienne
ainsi que les probabilités[19] :
pour tout intervalle
.
Propriétés et outils [modifier]
Calculs élémentaires [modifier]
Plusieurs formules dites élémentaires se déduisent des axiomes des probabilités (voir la section ci-dessus). Certaines sont intuitives, d'autres le sont moins.
Il est à noter que toute tribu contenant l'ensemble vide, le deuxième axiome des probabilités permet d'obtenir sa probabilité :
. Un évènement de probabilité nulle est appelé ensemble négligeable, ensemble
-négligeable, ou ensemble impossible[20]. Il existe des ensembles négligeables autres que l'ensemble vide. Par exemple la probabilité d'obtenir le résultat pile lors d'une infinité de lancers de pile ou face est nulle.
Il est possible de calculer la probabilité de la négation d'une proposition ; mathématiquement, c'est la probabilité du complémentaire d'un ensemble. Il est également possible d'obtenir la probabilité de se trouver dans une configuration ou dans une autre, cela correspond à une union de deux ensembles. Quant à la probabilité de se retrouver dans deux situations simultanément, c'est la probabilité de l'intersection des deux ensembles[21]. Elle est nulle si et seulement si les deux ensembles sont disjoints.


.
- Exemple
Reprenons l'exemple du lancer de deux dés.
La probabilité d'obtenir au moins une fois un 6 se calcule à partir de la probabilité de ne pas obtenir de 6 lors des deux lancers :
.
Cet évènement est le même qu'obtenir un 6 au premier lancer ou un 6 au deuxième lancer. Sa probabilité s'obtient également par le calcul de la probabilité de l'union :
Indépendance [modifier]
La notion d'indépendance est une hypothèse utilisée depuis longtemps en théorie des probabilités. On dit que deux évènements sont indépendants lorsque le fait de connaître le résultat du premier évènement ne nous aide pas pour prévoir le second et inversement. Plusieurs lancers de dés successifs sont considérés indépendants. Dans ce cas l'hypothèse est raisonnable, cependant d'autres situations d'indépendance peuvent paraître indépendantes alors qu'elles ne le sont pas. C'est le cas par exemple du problème de Monty Hall. L'indépendance n'est pas toujours intuitive et demande alors d'être étudiée.
L'indépendance peut se définir sur les ensembles[22], deux évènements A et B sont dits indépendants si la probabilité que A apparaissent ne dépend pas de la connaissance de l'obtention de B. Mathématiquement, les évènements sont indépendants si et seulement si la probabilité de leur intersection est égale au produit de leur probabilité[23] :
L'indépendance se définit également pour les variables aléatoires en utilisant la formule précédente. Les variables aléatoires X et Y sont indépendantes si[24] :
, pour tout
et tout
,
en reprenant les notation de la section variable aléatoire et
pour les variables aléatoires réelles.
De même, des tribus
et
sont dites indépendantes si[24] :
, pour tout
et tout
.
Lorsque l'on considère plusieurs évènements, variables aléatoires ou tribus, il existe plusieurs notions d'indépendance. Les évènements A, B et C sont dits[22]
- indépendants deux à deux si :

- mutuellement indépendants si : ils sont indépendants deux à deux et
.
Ces définitions se généralisent pour plus de trois évènements, variables aléatoires ou tribus, possiblement un nombre infini[22].
Probabilité conditionnelle et théorème de Bayes [modifier]
À partir des probabilités élémentaires, il est possible de définir la probabilité conditionnelle d'un évènement A sachant un autre évènement B. La probabilité de l'évènement A est diminuée ou augmentée si l'évènement B s'est réalisé. Si
alors la probabilité de A sachant B est définie par[25] :
.
Plus mathématiquement,
est une nouvelle mesure de probabilité, elle permet de définir des espérances conditionnelles ou des lois conditionnelles. De manière plus générale, il est possible de définir la probabilité conditionnelle sachant une variable aléatoire, une probabilité conditionnelle sachant une tribu, une densité conditionnelle, etc.
Cette formule simple permet de faire le lien entre
et
par le très utile théorème de Bayes[26] :
.
De même que la remarque précédente, il est possible de donner d'autres versions du théorème de Bayes par un conditionnement utilisant des variables aléatoires, des tribus ou par l'intermédiaire de lois de probabilité.
Il est possible de décomposer la probabilité d'un évènement en probabilités conditionnelles sachant toutes les situations possibles. C'est le rôle de la formule des probabilités totales[26] : pour une partition d'évènements
, possiblement infinie,
.
Une marnière de représenter cette formule est un arbre de probabilité, chaque branche représente un cas possible.
- Exemple
Reprenons l'exemple des deux dés. Considérons les deux évènements
: « le résultat du premier lancer est i », B : « le résultat de la somme des deux lancers est 7 » et C : « le résultat du premier lancer est pair ». Il est facile de calculer les probabilités :
,
et
. La formule des probabilités totales permet d'obtenir :
et
.
Le théorème de Bayes permet d'obtenir la probabilité d'avoir eu un résultat pair au premier lancer sachant que la somme des deux résultats est de 7 :
.
Lois de probabilité [modifier]
Comme précisé dans les sections ci-dessus, le choix de la mesure de probabilité pour l'espace probabilisé peut se faire en donnant directement en donnant les probabilités
d'une variable aléatoire X. Ainsi la mesure de probabilité donnée par[12] :
est appelée la loi de probabilité de la variable X. Elle décrit complétement le comportement de la variable X. De manière plus générale, une loi de probabilité est une mesure décrivant le comportement aléatoire d'un phénomène dépendant du hasard, c'est-à-dire qu'elle n'est pas toujours définie à partir d'une variable aléatoire. Cependant pour une loi de probabilité donnée, il existe une variable aléatoire dont la loi est la loi de probabilité précédente. La représentation dune loi par une variable aléatoire n'est pas unique, c'est-à-dire que deux variables aléatoires différentes peuvent avoir la même loi. Comme mentionné dans les sections précédentes, il existe des lois discrètes, des lois absolument continues, mais il existe également des lois plus générales. Les lois discrètes et les lois absolument continues peuvent s'écrire respectivement sous la forme[14] :
et 
Certaines lois de probabilité sont fréquemment rencontrées en théorie des probabilités car on les retrouve dans de nombreux processus naturels. Les lois discrètes les plus fréquentes sont la loi uniforme discrète, la loi de Bernoulli, ainsi que les lois binomiale, de Poisson et géométrique. Les lois uniforme continue, normale, exponentielle et gamma sont parmi les plus importantes lois continues.
Plusieurs outils permettent de définir et étudier ces lois. La fonction de répartition, la fonction caractéristique, la fonction génératrice, la fonction quantile, la densité de probabilité (pour les lois continues), la fonction de masse (pour les lois discrètes) en sont les exemples principaux.
Espérance et moments [modifier]
L'espérance est une propriété des lois de probabilités mais elle s'écrit plus simplement en utilisant une variable aléatoire. Elle donne la moyenne de la variable aléatoire X. L'espérance de la variable aléatoire X de loi
est donnée par[14] :
Cette expression s'écrit de manière plus simple dans le cas des variables discrètes et des variables continues (en reprenant les notation de la section Lois de probabilité) :
pour le cas discret[27] et
pour le cas continu, si les séries et intégrales convergent.
Il est possible de calculer l'espérance d'une fonction de la variable aléatoire par la formule[28] : pour toute fonction
mesurable
.
Lorsque la fonction
est suffisamment générale, alors
permet de récupérer la loi de X. Pour la fonction indicatrice
, l'espérance redonne la probabilité :
. Pour les fonctions
, les valeurs
sont les moments de la loi de X.
Ces définitions sont valides pour tout espace de valeurs de la variable aléatoire. Dans le cas multidimensionnel, c'est-à-dire de vecteurs aléatoires réels, la notion de espérance se généralise en vecteur des moyennes et la variance en matrice de variance-covariance qui donne les variances des coordonnées sur la diagonale et les covariances entre coordonnées dans le reste de la matrice[29].
L'espérance et les moments permettent d'obtenir des inégalités[30] : sans préciser les conditions d'existence,
Ces inégalités sont très utiles pour estimer la queue de la loi d'une variable aléatoire, c'est-à-dire le comportement de la variable aléatoire lorsqu'elle prend des valeurs éloignées de sa moyenne.
Convergences et résultats limites [modifier]
Lorsque l'on considère un nombre infini de données aléatoires, elles sont modélisées par une suite (infinie) de variables aléatoires. Il peut être utile d'étudier le comportement limite de cette suite. Plusieurs notions de convergences de variables aléatoires ont été définies et des théorèmes limites renseignent sur les résultats asymptotiques.
Une suite de variables aléatoires
[31],[32] :
- converge en loi vers une variable aléatoire X si la suite de leur lois de probabilité
converge étroitement vers une loi
. En particulier dans le cas réel, cette convergence est équivalente à la convergence des fonctions de répartition vers la fonction de répartition de X en tout point de continuité de cette dernière[33]. Cette convergence est également équivalente à la convergence des fonctions caractéristiques, c'est le théorème de continuité de Paul Lévy [34]. - converge en probabilité vers une variable aléatoire X si pour tout
,
. Cette convergence implique la convergence en loi. - converge presque sûrement vers une variable aléatoire X si
. Cette convergence implique les convergences en probabilité et en loi. - converge dans
vers une variable aléatoire X si
. Cette convergence implique la convergence en probabilité.
Donnons quelques théorèmes limites importants :
- théorème de Borel-Cantelli[35] : pour une suite
d'évènements, si
converge alors
. Réciproquement, si les évènements sont indépendants et si
diverge alors
. - loi du zéro un de Kolmogorov[36] (également appelé loi du tout ou rien[37]) : pour une suite
de variables aléatoires, notons la tribu asymptotique
où
, alors pour tout évènements
,
0 ou 1. Intuitivement, un évènement qui ne dépend que d'un comportement limite est de probabilité 0 ou 1. - loi des grands nombres (faible)[38] : pour une suite
de variables aléatoires indépendantes, de même loi et de variance finie, alors
converge dans
vers la moyenne de la loi commune
. Les hypothèses de ce théorème peuvent être diminuées pour obtenir cette même convergence dans
. Il est également possible d'obtenir une convergence presque sûre, c'est la loi forte des grands nombres[39]. Intuitivement, ces résultats annoncent que lors d'un grand nombre d'expériences, la moyenne calculées des résultats tend à se rapprocher de la moyenne théorique du phénomène aléatoire. - théorème central limite[40] : pour une suite
de variables aléatoires indépendantes, de même loi et de variance finie, alors
converge en loi vers une variable aléatoire de loi normale
. Ce théorème possède plusieurs versions : dans le cas où les variables aléatoires sont de loi de Bernouilli c'est le théorème de De Moivre-Laplace, ce théorème peut s'écrire par l'intermédiaire des fonctions de répartition ou des fonctions caractéristiques. Il existe une version multidimensionnelle de ce théorème central limite pour des vecteurs aléatoires[41].
Pour pouvoir utiliser ces théorèmes de convergence dans les applications, notamment informatiques, il est utile de connaître leur vitesse de convergence : c'est l'étude du principe de grandes déviations[42].
Calcul stochastique [modifier]
Le calcul stochastique est l'étude des phénomènes qui évoluent au cours du temps de manière aléatoire[43]. Le temps peut être modélisé de manière discrète, c'est-à-dire par les valeurs entières :
, dans ce cas le phénomène est représenté par une suite (infinie) de variables aléatoires :
, c'est une marche aléatoire. Le temps peut également être modélisé de manière continue c'est-à-dire par des valeurs réelles
ou
, il s'agit alors de processus stochastique
.
Marche aléatoire et chaîne de Markov [modifier]
Parmi les modélisations de phénomènes aléatoires dépendant du temps, certaines l'ont été par un temps discret, c'est-à-dire à valeurs entière :
. Un processus
est appelé marche aléatoire[44] partant d'un point
lorsque la variable
s'écrit sous la forme d'une somme de pas aléatoires donné par des variables :
et
pour
.
L'espace de probabilité et la tribu sur lequel le processus est défini n'est pas trivial, la notion de filtration a donc été introduite. C'est une suite de tribu prévue pour que la marche aléatoire puisse être définie sur chaque tribu de la suite, le processus est dit adaptée[45].
Un propriété particulière des marches aléatoires est régulièrement utilisée. Une marche aléatoire est appelée chaîne de Markov si elle possède la propriété de Markov, c'est-à-dire que le n-ième pas ne dépend pas du comportement du processus avant. Autrement dit, le comportement à venir ne dépend que du temps présent et non du temps passé. Plusieurs expressions mathématiques traduisent cette propriété, en voici une courante grâce aux probabilités conditionnelles[46] :
.
La probabilité
est appelée la probabilité de transition de l'état
à l'état
. Lorsque le nombre d'états possibles est fini. Toutes ces probabilités sont résumées dans une matrice de transition. Elle représente à elle seule la chaîne de Markov[46]. La chaîne de Markov dont les états possibles sont les valeurs entières et telle que les probabilités d'aller vers les plus proches voisins sont identiques est appelée la chaîne de Markov simple sur
[47].
Les récurrence et transience d'une chaîne de Markov sont également étudiées. Si une marche aléatoire revient indéfiniment au point de départ elle est dite récurrente, sinon elle est transiente. Les temps d'arrêt représentent le temps en lequel la marche possède pour la première fois une certaine propriété[48].
Ces notions se généralisent de plusieurs manières[49] : les pas peuvent être des vecteurs aléatoires multidimensionnels ; les états possibles peuvent être les points d'un graphe plus général, ceci introduit, entre autres, la théorie des graphes aléatoires et la théorie de la percolation qui font partie de la théorie des systèmes dynamiques ; le n-ième pas peut être la somme d'un nombre aléatoire de variables, c'est le cas des processus de branchement.
L'étude du comportement de la marche aléatoire lorsque le temps devient grand amène à considérer des théorème limites sur les processus tels que le théorème de Donsker ou le théorème de Glivenko-Cantelli très utilisés en statistique. Apparaissent alors des processus aléatoires dont le temps n'est plus discret mais continu.
Processus stochastique et processus de Markov [modifier]
L'introduction des processus aléatoires à temps continu a été possible notamment grâce à l'axiomatique de Kolmogorov. Les processus stochastiques sont des familles de variables aléatoires indexées par un indice réel :
. De même que dans le cas du temps discret, les notions de filtration et de processus adapté, permettent de définir mathématiquement le processus. Les théorèmes d'extension de Kolmogorov et d'extension de Carathéodory permettent de donner l'existence via les lois finies dimensionnelles, c'est-à-dire que le processus est défini par la donnée d'un nombre fini de ses accroissements[50] :
- la loi de
peut être donnée par une matrice de variance-covariance.
Des probabilités de transitions sont données par des fonctions du type :
qui donnent la probabilité que le processus soit dans un des états de l'ensemble A au temps
sachant qu'au temps
le processus était en
, elle doit vérifiée l'équation de Chapman-Kolmogorov[a 5],[51] :
, pour tout
.
Un exemple important de processus stochastique est le mouvement brownien, il apparait comme limite (en loi) d'une suite de marches aléatoires via le théorème de Donsker[52], il est également un objet central puisque ses lois finies dimensionnelles sont des lois normales, c'est-à-dire que ses accroissements sont gaussiens. La loi du processus est appelée mesure de Wiener[53]. Le mouvement brownien a été beaucoup étudié et nombreux objets mathématiques lui sont liés : bruit blanc, mouvement brownien fractionnaire, processus de Lévy, pont brownien, arbre brownien, processus stationnaire, etc. Le processus de Poisson est un processus de Markov dont les accroissements sont de loi de Poisson[54], ce processus de comptage est un processus de sauts[55].
Différentes méthodes de définition existent : le processus de Feller est un processus de Markov dont les probabilités de transition possède une propriété dite de Feller[56], le processus d'Ornstein-Uhlenbeck est défini à partir d'une équation différentielle stochastique[57] (voir la section ci-dessous), les processus ponctuels sont définis sur des espaces plus généraux, l'espace des excursions par exemple[58]. Une autre manière est l'utilisation de générateurs infinitésimaux, c'est une fonctionnelle sur les fonctions continues qui décrit comment le processus se déplace de points en points. Le générateur infinitésimal d'un processus de Markov X est l'opérateur A tel que[59] :
Les processus stochastiques sont utilisés dans de nombreux domaines[a 4] : historiquement le mouvement brownien a été utilisé pour modéliser des trajectoires de particules ou pour calculer le nombre d'Avogadro, il est également utilisé pour modéliser des phénomènes tels que les marchés financiers dont les premiers travaux sont dus à Louis Bachelier ou les travaux en physique par les travaux de Sydney Chapman[a 5].
Martingales [modifier]
Parmi les processus stochastiques à temps discret et à temps continu, certains possèdent une propriété liée à la filtration
sur laquelle ils sont définis. Un processus
est appelé une martingale si[60] :
- pour tout
.
Cette définition se généralise pour un processus stochastique en temps continu. Le processus est une sur-martingale si
et une sous-martingale si
. Intuitivement la valeur moyenne du processus à un temps futur n+1 connaissant le passé est égal à la valeur présente du processus. C'est une représentation du bénéfice dans un jeu équitable, c'est de cette correspondance que provient le nom martingale. Une sous-martingale correspond à un jeu favorable et une sur-martingale à un jeu défavorable.
Les martingales ont donc une moyenne constante en tout temps ainsi qu'en certains temps aléatoires : les temps d'arrêt, c'est ce qu'annonce le théorème d'arrêt de Doob[47].
Les bonnes propriétés des martingales permettent d'obtenir des inégalités[61] ainsi que des résultats de convergence[62].
Formule d'Itô et équations différentielles stochastiques [modifier]
Une intégrale stochastique est soit l'intégration d'un processus aléatoire par rapport à une mesure (non aléatoire)[a 5], soit l'intégration d'une fonction (localement bornée) par rapport à un processus stochastique (semi-martingale continue)[63]. Dans le cas où la fonction est étagée, l'intégrale se définit simplement par une formule du type :
.
De manière plus générale, l'intégrale se définit à partir d'un objet appelé crochet de martingale[64]. L'intégrale
s'écrit alors de manière plus simple avec la notation :
.
La formule d'Itô dans sa formule générale la plus courante s'écrit sous la forme[a 5] : pour une fonction
de classe C1 en
et de classe C2 en
:
où
est un mouvement brownien et X est un processus stochastique solution de l'équation différentielle stochastique :
.
Pour faire une analogie avec la physique,
est la vitesse moyenne au point X(t) et
est lié au coefficient de diffusion (voir à ce propos l'exemple donné dans lemme d'Itô). Le lemme d'Itô et l'intégrale d'Itô permettent alors de passer de ces équations stochastiques à des équations aux dérivées partielles classiques ou à des équations intégrales. Par exemple en utilisant le lemme d'Itô on obtient pour la probabilité de se trouver à l'instant t au point x:
Ce lemme est particulièrement important car il permet de faire le lien entre l'étude d'équations stochastiques et les équations aux dérivées partielles qui relèvent de l'analyse. Ce lemme permet entre autres d'obtenir les équation de Fokker-Planck en physique et de traiter le mouvement brownien par des équations aux dérivées partielles classiques ou de modéliser les cours de la bourse en Mathématiques financières.
Relations avec d'autres domaines [modifier]
Statistique [modifier]
La statistique et la théorie des probabilités forment les sciences de l'aléatoire. Ces deux sciences utilisent les mêmes outils aléatoires (loi de probabilité, espérance, écart-type, etc), les frontières entre ces deux domaines sont assez floues[a 6].
Physique [modifier]
Avec la mécanique newtonienne, la théorie du champ électromagnétique ou la thermodynamique, la physique classique est la théorie utilisée jusqu'à la fin du XIXe siècle. En 1929, Erwin Schrödinger étudie l'équation qui détermine l'évolution d'une onde au cours du temps : l'équation de Schrödinger. Max Born utilise cette équation pour décrire une collision entre des particules telles que des électrons ou des atomes. Les observations de ses expériences l'amène à supposer que la fonction d'onde est la probabilité que la particule soit détectée en un point de l'espace. C'est le début d'une nouvelle approche de la physique quantique[65].
Biologie [modifier]
Économie [modifier]
Jeux et paris [modifier]
Enseignement [modifier]
Bien que des recherches et des réflexions sur les probabilités existent depuis longtemps (voir Histoire des probabilités), le premier cours systématique de calcul des probabilités dispensé en France l'a été en 1786 par Sylvestre-François Lacroix alors âgé de 21 ans. Il enseigne alors pendant une année au Lycée sous la demande et la supervision de Nicolas de Condorcet. Ce dernier s'occupe de traduire les œuvres de Leonhard Euler et ajoute un volume consacré aux calcul des probabilités intitulé : Elemens du calcul des probabilités et son application aux jeux de hasard, à la loterie, et au jugemens des hommes publié à titre posthume en 1805[66]. Les probabilités y sont énoncées de manière non formelle et en utilisant la langue naturelle[67].
En 1795[a 7], Pierre-Simon de Laplace enseigne à l'école normale, Joseph Fourier y assiste[68]. Plus tard en 1797, Fourier enseigne les probabilités aux deuxièmes et troisièmes années de l'école polytechnique, Siméon Denis Poisson y est étudiant[a 7]. Le programme du cours de Fourier est complet et méthodique, il traite de l'aspect mathématique et des applications (voir ci-dessous).
| Règles | Mesure de la probabilité
Des événemens composés, calcul de leur probabilité Des chances multiples, calcul de leur probabilité |
||||||||||||||||||||||||||||||||||
| Remarques | Sur la probabilité des témoignages
Sur les exclusions par le sort et l’ordre des tirages Sur les loteries, le calcul des diverses chances et les fausses espérances des joueurs Sur les jeux de dés et l’influence des inégalités inconnues dans la constitution de l’évaluation commune de la somme espérée Remarques sur l’inexactitude de cette règle |
||||||||||||||||||||||||||||||||||
| Applications aux jeux de hazard | De l’analyse exacte des jeux de hazard
Du jeu qui finit avec l’argent des joueurs Du jeu du franc carreau De quelques autres jeux de hazard De l’avantage que présente la chance des nombres impairs De la probabilité d’amener un événement donné d’un certain nombre de faits au moins en un nombre de coups proposé Remarque sur l’influence de l’avantage du jeu |
||||||||||||||||||||||||||||||||||
| Applications diverses | De la valeur morale de l’argent et de la juste évaluation des sommes espérées
Du désavantage qui résulte de tous les jeux de hazard De l’avantage mutuel de certaines transactions et en particulier des assurances De l’avantage qu’il y a de diviser les sommes hazardées Du bien que procure un don et de l’utilité de diviser les dons Du problème de Petersbourg Remarques sur l’égalité possible de toutes les chances, les jugemens divers et les illusions des joueurs |
||||||||||||||||||||||||||||||||||
| Des décisions des assemblées | Des élections ; des différentes modes d’élection. Du scrutin individuel et du scrutin de liste.
Remarques sur les imperfections de la plupart des modes De la probabilité des décisions en général, application à la composition des tribunaux Du choix d’un nombre par une assemblée Du choix entre plusieurs questions |
||||||||||||||||||||||||||||||||||
| Méthode inverse des probabilités. Règles | De la probabilité des causes prise des événemens, mesure de cette probabilité
De la probabilité des événemens futurs dont les causes sont ignorées De la probabilité des événemens prise des événemens observés Remarques analytiques sur le calcul des fonctions de très grands nombres Des cas où les événemens observés indiquent les causes avec beaucoup de vraisemblance |
||||||||||||||||||||||||||||||||||
| Des hypothèses physiques | De la vraisemblance des hypothèses physiques
Application au principe de la gravitation universelle ..., à l’explication du flux et du reflux ..., à la pesanteur de l’air ..., et aux causes qui ont pu déterminer le mouvement commun des planètes |
||||||||||||||||||||||||||||||||||
| Application du calcul à l’histoire naturelle de l’homme | Application des règles précédentes à l’histoire naturelle de l’homme
Des tables de mortalité ... des naissances ... des mariages etc. De la population, du rapport du nombre des naissances annuelles à la population De la durée de la vie moyenne et de ses valeurs successives De la probabilité d’atteindre un âge donné Du rapport du nombre de mariages au nombre d’enfants Du calcul de la population de la France De l’inégalité des naissances des garçons et des filles De l’extrême vraisemblance des causes de cette inégalité De l’inégalité de ces causes dans plusieurs climats d’Europe |
||||||||||||||||||||||||||||||||||
| Des rentes viagères, assurances, tontines etc. | Des rentes viagères, règles pour les calculer
Des rentes sur deux têtes, sur trois têtes, etc. Des tontines simples, des tontines composées Des assurances et de leur calcul dans les différens cas, des caisses d’épargne, mont de piété, etc. Des droits éventuels .... contrats aléatoires ... etc. |
||||||||||||||||||||||||||||||||||
| De l’inoculation | Théorie mathématique de l’inoculation, et des avantages généraux de cette pratique | ||||||||||||||||||||||||||||||||||
| Calcul des observations | Du calcul des résultats moyens de plusieurs observations
De la correction des instrumens |
||||||||||||||||||||||||||||||||||
| Réflexions sur le calcul des probabilités | Vues générales sur les applications du calcul des probabilités, des erreurs auxquelles elles ont exposé
De l’histoire de cette science, tableau des auteurs qui en ont traité (voyez page suivante) Conclusion |
||||||||||||||||||||||||||||||||||
| Notice des auteurs qui ont traité du calcul des probabilités |
|
Une chaire de probabilité à la faculté des sciences de Paris est ouverte en 1834 sous la demande de Poisson. Cette place sera occupée par Guillaume Libri, mais ce dernier se fait souvent remplacé notamment par Poisson[69].
Notes et références [modifier]
- Notes et traductions
- initialement en anglais : probability theory is a branch of mathematics concerned with the analysis of random phenomena..
- Ouvrages
- Laplace 1814, p. ii
- Laplace 1814, p. iii
- Quetelet 1853, p. 7
- Quetelet 1853, p. 78
- Jacod et Protter 2003, p. 1
- Cournot 1843, p. iv
- Cournot 1843, p. i
- Laplace 1814, p. i
- Cournot 1843, p. v
- Le Gall 2006, p. 91
- Sinaï 1992, p. 6
- Le Gall 2006, p. 93
- Sinaï 1992, p. 9
- Le Gall 2006, p. 94
- Sinaï 1992, p. 1
- Le Gall 2006, p. 92
- Cournot 1843, p. 21
- Le Gall 2006, p. 114
- Le Gall 2006, p. 98
- Sinaï 1992, p. 7
- Bertoin 2000, p. 7
- Jacod et Protter 2003, p. 15
- Sinaï 1992, p. 44
- Sinaï 1992, p. 45
- Jacod et Protter 2003, p. 16
- Sinaï 1992, p. 44
- Sinaï 1992, p. 10
- Le Gall 2006, p. 95
- Bertoin 2000, p. 66
- Bertoin 2000, p. 16
- Bertoin 2000, p. 34
- Bertoin 2000, p. 35
- Le Gall 2006, p. 132
- Le Gall 2006, p. 136
- Bertoin 2000, p. 33
- Jacod et Protter 2003, p. 72
- Le Gall 2006, p. 127
- Le Gall 2006, p. 120
- Le Gall 2006, p. 129
- Le Gall 2006, p. 138
- Bertoin 2000, p. 69
- Bertoin 2000, p. 44
- Revuz et Yor 2004, p. 15
- Le Gall 2006, p. 165
- Le Gall 2006, p. 163
- Le Gall 2006, p. 191
- Le Gall 2006, p. 169
- Le Gall 2006, p. 167
- Le Gall 2006, p. 193
- Le Gall 2006, p. 220
- Revuz et Yor 2004, p. 80
- Le Gall 2006, p. 219
- Le Gall 2006, p. 226
- Revuz et Yor 2004, p. 58
- Revuz et Yor 2004, p. 115
- Revuz et Yor 2004, p. 90
- Revuz et Yor 2004, p. 38
- Revuz et Yor 2004, p. 481
- Revuz et Yor 2004, p. 281
- Le Gall 2006, p. 164
- Revuz et Yor 2004, p. 54
- Le Gall 2006, p. 171
- Revuz et Yor 2004, p. 141
- Revuz et Yor 2004, p. 138
- Omnès 2000, p. 44
- Courtebras 2006, p. 25
- Courtebras 2006, p. 31
- Courtebras 2006, p. 46
- Courtebras 2006, p. 65
- Articles et autres sources
- Richard von Mises, « Théorie des Probabilités. Fondement et applications », annales de l'IHP, vol. 3, no 2, 1932, p. 137-190 [texte intégral]
- Probability theory, sur Encyclopædia Britannica, 2012
- Alan Hájek, « Interpretations of Probability », sur Stanford Encyclopedia of Philosophy, 2012
- Laurent Schwartz, Un mathématicien aux prises avec le siècle, Odile Jacob, 1997, 531 p. (ISBN 2-7381-0462-2) [lire en ligne], p. 172
- Loïc Chaumont, Laurent Mazliak et Marc Yor, A.N. Kolmogorov : Quelques aspects de l'œuvre probabiliste, Belin, 2003 [lire en ligne]
- Pierre Dagnelie, « Diversité et unité de la statistique », journal de la société statistique de Paris, vol. 123, no 2, 1982, p. 86-92 [texte intégral (page consultée le 21/03/12)]
- Pierre Crepel, « De Condorcet à Arago : l’enseignement des probabilités en France de 1786 à 1830 », Bulletin de la SABIX, vol. 4, 1989, p. 29-55 [texte intégral]
Voir aussi [modifier]
Bibliographie [modifier]
- Ouvrages de probabilités
- Jean Bertoin, Probabilités : cours de licence de mathématiques appliquées, 2000, 79 p. [lire en ligne]
- Joseph Bertrand, Calcul Des Probabilités (copie d'un ouvrage de 1923), American Mathematical Soc., 1972, 3e éd., 332 p. [lire en ligne]

- Nicolas Bouleau, Probabilités de l'ingénieur, Hermann, 1986, 387 p.
- Antoine-Augustin Cournot, Exposition de la théorie des chances et des probabilités, Paris, Hachette, 1843, 448 p. [lire en ligne]

- Bernard Courtebras, À l'école des probabilités, Press univ. Franche-Comté, 2006, 282 p. [lire en ligne]

- (en) Jean Jacod et Philip E. Protter, Probability Essentials, Springer, 2003, 254 p. [lire en ligne]
- Pierre-Simon de Laplace, Théorie analytique des probabilités, Paris, Courcier, 1814, 2e éd., 506 p. [lire en ligne]

- Jean-François Le Gall, Intégration, Probabilités et Processus aléatoires : cours de l'ENS, 2006, 248 p. [lire en ligne]

- Adolphe Quetelet, Théorie des probabilités, Bruxelles, A. Jamar, 1853, 104 p. [lire en ligne]

- Daniel Revuz, Probabilités, Hermann, 1997, 301 p.
- (en) Daniel Revuz et Marc Yor, Continuous martingales and Brownian motion, vol. 293, Springer, 2004, 3e éd., 606 p. [lire en ligne]

- (en) Iakov Sinaï, Probability theory : An introductory course, Springer, 1992, 138 p. (ISBN 3-540-53348-6) [lire en ligne]

- Autres ouvrages
- Roland Omnès, Comprendre la mécanique quantique, EDP Sciences, 2000, 272 p. [lire en ligne]
Articles connexes [modifier]
- Probabilité
- Axiomes des probabilités
- Loi de probabilité
- Interconnexions entre la théorie des probabilités et les statistiques
est un sous-ensemble de
,
,
disjoints deux à deux, c'est-à-dire tels que
pour tous
, alors
.
,
.
.
pour tout
.

, donc
.
, donc
.
s'obtient également en décomposant en singletons :
.
pour tout
tel que
soit l'
par
.
pour tout intervalle
.
.
.
.

.
.

, pour tout
et tout
,
, pour tout
et tout
.
.
.
.
.
et
.
.
et 
![\mathbb E[X]=\int_{\Omega}X(\omega)\mathbb P_X(\mathrm{d}\omega)](http://upload.wikimedia.org/math/d/e/a/deab26b5547e5647286f9a5c2bbcb4f4.png)
.
,
.
converge étroitement vers une loi
,
. Cette convergence implique la convergence en loi.
. Cette convergence implique les convergences en probabilité et en loi.
vers une variable aléatoire X si
. Cette convergence implique la convergence en probabilité.
d'évènements, si
converge alors
. Réciproquement, si les évènements sont indépendants et si
.
où
, alors pour tout évènements
,
0 ou 1. Intuitivement, un évènement qui ne dépend que d'un comportement limite est de probabilité 0 ou 1.
converge dans
vers la moyenne de la loi commune
. Les hypothèses de ce théorème peuvent être diminuées pour obtenir cette même convergence dans
converge en loi vers une variable aléatoire de
. Ce théorème possède plusieurs versions : dans le cas où les variables aléatoires sont de
chacune contient 10 000 pas.
et
pour
.
.
peut être donnée par une
, pour tout
.![Af(x)=\lim_{t\rightarrow 0} \frac{1}{t}\left(\mathbb E[f(X_t)|X_0=x]-f(x)\right).](http://upload.wikimedia.org/math/c/9/0/c9093bd64e977406753a6224cf98299e.png)
.
.
.