Inférence bayésienne

Un article de Wikipédia, l'encyclopédie libre.
Illustration comparant les approches fréquentiste et bayésienne (Christophe Michel, 2018).

L’inférence bayésienne est une méthode d'inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l'observation d'événements connus. Elle s'appuie principalement sur le théorème de Bayes.

Le raisonnement bayésien construit, à partir d'observations, une probabilité de la cause d'un type d'événements. On attribue à toute proposition de cause une valeur de sa probabilité, prise dans l'intervalle ouvert allant de 0 (contradiction, faux à coup sûr) à 1 (tautologie, vraie à coup sûr)[1]. Quand un événement possède plus de deux causes possibles, on considère une distribution de probabilité pour ces causes. Cette distribution est révisée à chaque nouvelle observation et s'affine de plus en plus. Ainsi, un diagnostic médical indique-t-il qu'une maladie plus qu'une autre est probablement à l'origine des symptômes d'un patient, et des examens renforcent ou infirment cette hypothèse. On révise de même, au vu des résultats de chaque sondage d'une campagne de prospection, la probabilité qu'il existe un gisement de pétrole à un certain endroit.

Le théorème de Cox-Jaynes formalise la notion intuitive de plausibilité sous une forme numérique. Il démontre que, si les plausibilités satisfont à l'ensemble d'hypothèses qu'il propose, la seule façon cohérente de les manipuler est d'utiliser un système isomorphe à la théorie des probabilités, induisant alors une interprétation « logique » des probabilités indépendante de celle de fréquence et une base rationnelle au mécanisme d'induction logique.

L'inférence bayésienne produit une probabilité qui s'interprète comme le degré de confiance à accorder à une cause hypothétique. On l'utilise pour l'apprentissage automatique en intelligence artificielle, notamment depuis 1996 pour la classification automatique des emails (détection des spam) par analyse des mots-clés du message. Les classificateurs bayésiens ont l'avantage de pouvoir être partiellement ré-entraînés pendant leur fonctionnement, en confirmant ou en infirmant les prédictions du modèle (notamment les faux-positifs et les faux-négatifs), ce qui permet à l'intelligence artificielle de raffiner son modèle interne de probabilités et améliore la précision du classificateur au cours du temps, sans devoir le ré-entraîner totalement.

Cependant, en comparaison d'autres méthodes d'apprentissage machine supervisé de complexité algorithmique similaire (arbres de décision, machine à vecteur support, discrimination markovienne, filtre à logique floue[2]), les classificateurs bayésiens souffrent d'une précision inférieure et difficilement améliorable[2], notamment sur des problèmes à 300 dimensions et plus (ce qui limite par exemple le filtre anti-spam à un vocabulaire de 300 mots)[3], et leur précision finale est très sensible au choix a priori des distributions de probabilité des variables. Pour cette raison, l'inférence bayésienne est utilisée pour mesurer l'incertitude d'un modèle statistique (donc sa qualité de prédiction)[4] ou pour résoudre des problèmes d'optimisation numérique impliquant des fonctions coûteuses à calculer (optimisation bayésienne), pour lesquels on souhaite limiter le nombre de calculs et donc choisir judicieusement les points où estimer ces fonctions coûteuses.

Manipulation des probabilités : notation et règles logiques[modifier | modifier le code]

L'inférence bayésienne effectue des calculs sur les énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est particulièrement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standards[Lesquelles ?] par l'usage systématique de règles formelles raffinant les probabilités par l'observation.

Notation courante[modifier | modifier le code]

La notation bayésienne reprend la notation classique des événements en probabilité qui elle-même s'inspire de la notation logique.

Table récapitulative non-exhaustive pour et
Notation Sens
évènement qui s'est réalisé
qui ne s'est pas réalisé
évènement non qui s'est réalisé[pas clair]
évènement non qui ne s'est pas réalisé[pas clair]
événements et qui se sont réalisés
événement ou qui s'est réalisé
probabilité que ait lieu
probabilité que ait lieu
probabilité conditionnelle que ait lieu étant donné que a eu lieu
Note : d'autres notations existent, et il est aussi possible de les combiner[5].

Règles de la logique bayésienne[modifier | modifier le code]

Deux règles permettent de combiner les probabilités, la règle d'addition et celle de multiplication. Le théorème de Bayes, ou de probabilité des causes, s'en dérive aussitôt en mettant à profit la symétrie de la règle de multiplication.

Règle d'addition
Règle de multiplication
Théorème de Bayes

En conséquence, si on connaît dans le détail les causes possibles d'une conséquence observée et leurs probabilités, l'observation des effets permet de remonter aux causes.

On remarque que l'inversion de la probabilité introduit le terme p(A), la probabilité a priori de l'événement A, indépendamment de l'événement B. Cette estimation a priori est ignorée par les autres méthodes probabilistes.

Notation d'évidence[modifier | modifier le code]

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, seule l'observation d'éléments considérés eux-mêmes comme très improbables est susceptible de la modifier.

On définit l'évidence par :

Ev est une abréviation pour weight of evidence, parfois traduit en français par « évidence » ; la formulation la plus conforme à l'expression anglaise d'origine serait le mot à mot « poids de témoignage » ou « poids de la preuve », mais par une coïncidence amusante « évidence » se montre très approprié en français pour cet usage précis.

L'utilisation du logarithme fait varier la valeur de l'évidence sur tout le domaine des nombres réels quand la probabilité va de 0 à 1, avec une meilleure lisibilité des très petites (10−5, 10–10…) et des très grandes (0,999999, 0,999999999) probabilités, faciles à confondre intuitivement.

L'intérêt de cette notation, outre qu'elle évite d'avoir trop de décimales au voisinage de 0 et de 1, est qu'elle permet de présenter l'apport d'une observation sous une forme indépendante des observateurs, donc objective : il faut le même poids de témoignage pour faire passer un événement d'une plausibilité de -4 (probabilité 10−4 avec logarithme en base 10) à -3 (probabilité 10−3) que pour le faire passer de -1 (probabilité 0,09) à 0 (probabilité 0,5 soit une chance sur deux), ce qui n'était pas évident en gardant la représentation probabiliste pure.

Choisissant une base 100,1 pour le logarithme, Tribus 1972[source insuffisante] exprime par analogie l'évidence en décibels (dB) : tandis que le décibel se définit comme . Une évidence de -40 correspond à une probabilité de 10−4etc. En 2011, Stanislas Dehaene préconise le terme décibans[6]. Le nom ban a été créé à partir du nom de la ville de Banbury, où on fabriquait durant la Seconde Guerre mondiale des bandes de carton utilisées à Bletchley Park pour déchiffrer les messages produits par la machine Enigma[7]. La technique, élaborée par Alan Turing, était appelée banburismus (en)[8][source insuffisante].

D'autres unités ont été utilisées :

  • le dit (pour decimal digit)), avec des logarithmes à base 10 sans multiplicateur, aussi appelé hartley (symbole Hart), du nom de Ralph Hartley qui le proposa en 1928 ;
  • le NATS utilisant les logarithmes népériens, dits aussi naturels.

Comparaison avec la statistique classique[modifier | modifier le code]

L'usage de probabilités a priori a entraîné quelques reproches récurrents aux méthodes bayésiennes lors de leur introduction. On devait alors rappeler systématiquement les quatre points suivants[9][source insuffisante] :

les probabilités a priori sont souvent dans d'autres méthodes utilisées inconsciemment (critère de Wald, critère du minimax…) ;
  • comme pour tout autre modèle, les effets de différents choix a priori peuvent être considérés de front.

Différence d'esprit[modifier | modifier le code]

Les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour des probabilités personnelles, tandis que les méthodes statistiques classiques utilisent des méthodes personnelles pour traiter des fréquences impersonnelles[11][source insuffisante]. Dans la théorie bayésienne, les « probabilités » ne sont pas « interprétées comme les fréquences relatives d’événements (point de vue « fréquentiste »), mais comme des mesures du degré de connaissance subjective ». De ce point de vue, une « probabilité » est plutôt une « plausibilité »[12].

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement en donnant des poids de plus en plus faibles aux a priori au fur et à mesure des observations), tandis que les statisticiens classiques se fixent a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite.

La possibilité de diminuer automatiquement le poids des a priori au fur et à mesure de l’acquisition des données a permis aux modèles bayésiens d'être largement utilisés en exploration de données. En effet, contrairement aux méthodes classiques, elle ne nécessite que peu d'intervention humaine pour redéfinir à grande vitesse de nombreuses classes hypothèses en éliminant les moins validées par les données du moment.

Quand utiliser l'une ou l'autre ?[modifier | modifier le code]

Dans le cas où l'on dispose d'observations (aussi appelées enregistrements, mesures, données ou data), que l'on peut représenter par des variables aléatoires pour lesquelles on cherche un modèle décrivant leur probabilité, on peut choisir une distribution de probabilité a priori, dans laquelle on fixe arbitrairement les paramètres (par exemple : moyenne et écart type, pour une distribution gaussienne), et qu'on utilise pour estimer une probabilité a posteriori individualisée : c'est l'approche bayésienne[13].

L'approche fréquentielle consisterait à trouver les paramètres de la distribution de probabilité par la méthode du maximum de vraisemblance, la méthode des moments, ou des méthodes d'optimisation numérique de sorte à minimiser l'erreur quadratique entre les fréquences observées et les fréquences prédites par la distribution de probabilité[14].

L'approche fréquentielle requiert un échantillon d'observations plus large, qui satisfasse aux conditions d'application de la loi des grands nombres. Pour l'approche bayésienne, le modèle a priori doit être suffisamment précis et numériquement stable. Ces approches diffèrent essentiellement par al provenance des informations sur lesquelles repose le modèle, mais des considérations techniques sont à prendre en compte (voir plus bas).

Les deux approches se complètent, la statistique fréquentielle étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte. Lorsqu'il est question de s'informer en effectuant des opérations coûteuses (ex : un forage pétrolier), les méthodes bayésiennes permettent de réduire le nombre d'observations à réaliser en indiquant où il est le plus judicieux de les réaliser afin de pouvoir conclure avec une incertitude (ou un seuil de confiance) décidée à l'avance par l'expérimentateur (voir optimisation bayésienne). À partir de connaissances générales (a priori), et d'observations particulières, on peut donc non seulement formuler un modèle spécifique à une situation donnée (ex : déterminer la présence d'un gisement de pétrole à partir de forages individuels dans une région donnée, en connaissant à l'avance la nature du sol et sa probabilité de contenir du pétrole), mais également optimiser la prise d'observations subséquentes (ex : où forer pour vérifier si pétrole il y a) de façon à minimiser les coûts. Les méthodes bayésiennes sont donc un outil d'aide à la prise de décision rationnelle, trouvant leur origine dans l'étude des jeux de hasard[15], plutôt qu'un outil d'étude et d'analyse général.

Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution par rapport à des observations) est asymptotiquement convergent avec le χ² des statistiques classiques à mesure que le nombre d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi parfaitement justifié a posteriori par le raisonnement bayésien[9][source insuffisante].

Limites[modifier | modifier le code]

Diaconis et Freedman[13] concluent que l'approche bayésienne ne présente pas de danger pour des problèmes faisant intervenir des distributions statistiques lisses (continues et de dérivée continue) et « pointues » (fréquences fortement centrées autour d'un pic, faiblement dispersées), avec une petit nombre de dimensions, un grand nombre d'observations (au regard du nombre de dimensions) et un petit nombre d'issues (lancer de pièce, mort du patient), car les observations vont primer sur le modèle a priori, ce qui laisse au statisticien la possibilité de choisir sa distribution a priori en fonction des propriétés mathématiques recherchées (notamment : comportement asymptotique et inversibilité), plutôt qu'en se préoccupant de la précision absolue.

En revanche, dans les problèmes faisant intervenir un grand nombre de dimensions, pour les expériences ayant un nombre infini d'issues (comme des valeurs de nombres entiers, cas à l'origine de la distribution de Dirichlet typiquement utilisée en statistiques bayésiennes), d'autant plus si la distribution a priori a une longue traîne (forte dispersion des fréquences) ou une traîne asymétrique[16], les techniques bayésiennes non-paramétriques font primer le modèle a priori sur les observations, de sorte que le processus bayésien amplifie l'erreur du modèle a priori et donne un modèle a posteriori incohérent avec les observations (parfois même avec des oscillations)[13],[16]. En dehors de toute considération pour la validité théorique de la méthode bayésienne, ce sont donc des considérations purement calculatoires qui la rendent inapplicable car instable dans ce contexte.

Ceci est confirmé empiriquement par les recherches sur le filtrage bayésien des emails de spam, qui montrent une précision maximale pour 100 dimensions (c'est-à-dire un vocabulaire de 100 mots) et une baisse significative de la précision à partir de 300 dimensions[3], tout en suggérant que le filtrage bayésien demande 2 à 3 fois plus d'observations que les autres méthodes pour atteindre sa précision maximale (par ailleurs inférieure de 2 à 8 % aux méthodes les plus précises)[2]. Le vocabulaire limité autorisé par cette méthode rend la précision du modèle fortement dépendante du corpus d'emails utilisé pour l'entraînement, puisque les mots-clés retenus sont seulement les plus fréquents.

Phénomène de Bernstein-von Mises[modifier | modifier le code]

Laplace (1810), Bernstein (1917), von Mises (1931) et Le Cam (1953) ont successivement noté que les distributions a posteriori issues de processus bayésiens tendaient asymptotiquement vers une distribution normale (gaussienne) sous certaines conditions (hors du champ encyclopédique, voir Le Cam & Yang 1990)[16].

Usage en apprentissage profond[modifier | modifier le code]

Un important article souvent cité[17][source insuffisante] a introduit la notion de deep learning efficace à partir de réseaux bayésiens.

Historique[modifier | modifier le code]

Cette démarche fut induite pragmatiquement par application du théorème de Bayes bien connu en dehors d'un strict modèle probabiliste antérieurement validé[Quoi ?]. Après la publication posthume[réf. nécessaire] des travaux de Bayes, Abel et Laplace adhérèrent immédiatement au raisonnement bayésien[réf. nécessaire] (Laplace en tire même la loi de succession qui porte son nom).

Le théorème de Cox le formalisa sur des bases axiomatiques indépendantes de la théorie classique des probabilités et les travaux de Good, Jeffreys, Tribus et Jaynes la vulgarisèrent.

Controverses[modifier | modifier le code]

Les critiques de l'inférence bayésienne doivent se comprendre dans leur contexte : les méthodes bayésiennes sont au cœur des mathématiques de l'aide à la prise de décision rationnelle[18]. La définition de ce qui est rationnel dans un contexte incertain est posée de manière axiomatique et formulée par des algèbres utilisant les probabilités conditionnelles[19], en se plaçant dans une approche utilitariste, sans chercher à modéliser le comportement humain mais plutôt en essayant d'améliorer la réaction humaine en se basant sur des axiomes comportementaux idéalisés[18]. Ces axiomes ont donc une visée normative, et leur principale limite se trouve dans leur capacité à formuler des critères éthiques[20]. Dans ce contexte, les considérations épistémologiques sur la validité de la distribution a priori, et les considérations techniques sur la stabilité numérique[13] participent au débat éthique sur la prise de décision par des algorithmes et leur mise en action dans la réalité.

Bien que les découvertes de Bayes (et Laplace) soient antérieures, les méthodes qui se sont historiquement imposées dans la pratique statistique sont celles de l'école portée par les travaux de Ronald Aylmer Fisher ou Richard von Mises. Cette approche est parfois appelée statistique fréquentiste mais le terme reste encore peu usité en français[a] : la domination de cette école a été telle qu'en l'état actuel le terme « statistiques » renvoie le plus souvent implicitement à celle-ci[21].

L'approche fréquentiste se prêtait en effet mieux aux problèmes alors rencontrés (grands volumes de données très irrégulières, par exemple en agriculture) et aux outils disponibles (essentiellement comptables — quatre opérations de base — et manuels ou mécanographiques, donc limités et lents). L'usage de l'approche bayésienne était limité à un champ d'applications restreint parce que demandant des calculs plus complexes, et pour cette raison onéreux jusqu'au milieu des années 1970. L'effondrement du coût des calculs entraîné par le développement de l'informatique a permis un usage plus courant des méthodes bayésiennes, notamment dans le cadre de l'intelligence artificielle : perception automatique, reconnaissance visuelle ou de la parole, deep learning[réf. nécessaire].

Ce nouvel usage a contribué à clarifier le débat théorique sur les pertinences comparées des deux approches[22].

La principale critique philosophique faite à l'inférence bayésienne est le recours à une distribution statistique définie a priori et subjectivement, qui empile les erreurs de mesure de l'échantillon de données par dessus les erreurs liées au choix des hypothèses et donc de la distribution[23]. La distribution a priori doit théoriquement être choisie indépendamment des observations, par exemple à partir d'études séparées utilisant les statistiques descriptives (non bayésiennes). En pratique, ces études n'existent pas toujours et le choix final se fait souvent en fonction de l'apparence des observations, ce qui revient plus ou moins à un problème de régression[18]. Le modèle ainsi produit peut manquer de généralité et souffrir de sur-apprentissage, en plus d'osciller et de diverger dans certains contextes (voir Limites).

Les bayésiens « subjectivistes » répondent à cette critique par « toute probabilité, traduisant un état de connaissance, est subjective par construction » (Tribus) et embrassent la subjectivité de l'exercice, parfois même en taxant les fréquentistes de subjectivité non-assumée puisqu'ils choisissent eux-mêmes des fonctions objectif subjectivement[18]. Il n'en demeure pas moins que la théorie a priori choisie subjectivement n'est pas réfutable au sens de Karl Popper[24], ce qui pose un problème épistémologique quant à la validité du modèle résultant, et cantonne les estimateurs bayésiens au rang de méthodes de régression ou d'optimisation numérique par apprentissage machine (la complexité et le nombre des calculs forçant à l'utilisation d'un ordinateur) impropres à la création de modèles scientifiques généraux, dans la mesure où la méthode bayésienne vise précisément à permettre au statisticien de travailler malgré un petit nombre d'observations[18], où la loi des grands nombres est inapplicable. Popper a d'ailleurs vivement critiqué l'inductivisme en général, et l'inductivisme bayésien[25] en particulier dans La logique de la découverte scientifique.

Les erreurs introduites par une distribution a priori mal choisie pèsent d'autant plus lourd sur le modèle a posteriori que le modèle probabiliste recourt à un grand nombre de dimensions ou à des distributions a priori ayant une longue traîne, où l'effet lissant des observations a moins d'effet[16],[13]. Dans le cas de modèles probabilistes à grand nombre de dimensions, les critères formels de convergence de la distribution a posteriori vers les observations sont complexes et souvent ignorés. Lorsque ces critères ne sont pas respectés, la distribution a posteriori peut osciller et produire un modèle hautement incohérent avec les observations[13],[16]. Ceci est particulièrement problématique lorsque le processus bayésien est utilisé en informatique, par un logiciel utilisant l'apprentissage machine sur des observations recueillies par exemple sur l'ordinateur de l'utilisateur, sans contrôle ni validation du modèle résultant par un statisticien qualifié.

Lorsqu'implémenté dans des intelligences artificielles (classificateurs), tel qu'illustré par les filtres de détection de spam, le processus bayésien est précis pour 100 à 300 dimensions[3],[2] et assez peu robuste : il est aisément mis en échec par une grande fréquence de mots inconnus, mais ne peut fonctionner avec précision que pour un vocabulaire réduit (1 mot par dimension, donc 100 à 300 mots). En apprentissage machine supervisé, des méthodes non probabilistes telles que les arbres de décision ou les machines à vecteur support donnent des résultats au moins aussi précis, plus robustes, capables de fonctionner avec de très grands nombres de dimensions, et sans nécessiter le recours subjectif à une distribution de probabilité a priori.

Les bayésiens sont parfois accusés de sectarisme[24], en raison notamment :

  • du culte de la personnalité autour de Thomas Bayes, impliquant l'abus de représentation graphique (probablement apocryphe) de l'homme dans les conférences et publications (dans un milieu scientifique où l'on se contente habituellement des équations), et l'entretien de la tombe de Bayes à Londres ;
  • d'un communautarisme de fait ou organisé, via des sociétés savantes et des journaux scientifiques dédiés, alors qu'il n'existe pas d'équivalents pour les statistiques fréquentielles ;
  • d'une prétention universaliste, cherchant à intégrer la pensée bayésienne dans des disciplines scientifiques éloignées du concept de probabilité conditionnelle, à la base du théorème de Bayes.

Notation d'évidence[modifier | modifier le code]

Cette notation est souvent attribuée à I. J. Good[réf. nécessaire]. Ce dernier en attribuait cependant la paternité à Alan Turing et, indépendamment, à d'autres chercheurs dont Harold Jeffreys[réf. nécessaire].

C'est peu après les publications[réf. nécessaire] de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels[réf. nécessaire].

Exemples d'inférence bayésienne[modifier | modifier le code]

Cette pièce est-elle biaisée ?[modifier | modifier le code]

On lance quatre fois une pièce. Elle tombe quatre fois du même côté. Est-elle biaisée[26] ? La position des statistiques classiques est de dire qu'on ne peut pas tirer de conclusion significative de trois tirages (en effet, un côté étant déterminé par le premier lancer, on a bien une probabilité 1/8 d'avoir les trois tirages suivants du côté identique avec une pièce parfaitement honnête, ce qui ne fournit pas les 95 % de certitude demandés traditionnellement).

L'approche bayésienne mesurera simplement que cette probabilité de 1/8 déplace linéairement de 10 log10(1/8 / 7/8) = −8,45 dB l'évidence d'honnêteté de la pièce.

  • Si on lui accorde 40 dB (pièce sûre), cette évidence passe à 31,55 dB. En d'autres termes, la probabilité subjective[b] de sa normalité reste élevée (30 dB correspondent à une probabilité de 10-3 environ que la pièce soit biaisée).
  • Si en revanche la pièce est douteuse et qu'on estime 0 dB son évidence d'honnêteté (autant de chances d'être bonne que biaisée), cette évidence passe à −8,45 dB, ce qui correspond maintenant à une probabilité subjective de 87,5 % que la pièce soit biaisée, et il serait avisé de mettre fin au jeu.

Le recours à l'hypothèse subjective sur la nature de la pièce (sûre ou douteuse ?), influant directement sur la conclusion (probablement biaisée, ou non), illustre la principale critique faite à l'inférence bayésienne, car inverser l'hypothèse a priori inverse directement la conclusion… qui revient dans les deux cas à notre hypothèse : la pièce est biaisée si on la considère douteuse, non biaisée si on la considère sûre. Le problème est d'avantage philosophique que mathématique : n'est-on pas simplement en train de dissimuler notre préjugé sous des calculs qui n'ont plus que l'apparence de l'objectivité parce qu'ils quantifient la conclusion ? La position des statistiques classiques prend alors tout son sens : l'expérience ne permet pas de conclure.[réf. nécessaire]

Sex ratio (Laplace, 1786)[modifier | modifier le code]

Laplace constate, dans les statistiques de 1785, 251 527 naissances masculines et 241 945 naissances féminines. Il cherche à déterminer si cette différence est ou non significative d'une probabilité p plus grande d'avoir un garçon[27]. Sans avis a priori, il prend donc pour distribution de départ de p la loi uniforme sur [0, 1]. Il obtient :

Cette évidence inférieure à −40 dB rend extrêmement improbable qu'il y ait équiprobabilité entre la naissance d'une fille et celle d'un garçon. Laplace n'emploie toutefois pas cette terminologie, qui n'existe pas encore à son époque.

Par précaution, Laplace effectue ensuite le même calcul sur d'autres statistiques concernant Londres et à Paris, qui confirment ce résultat.

Il naît donc davantage de garçons que de filles, constat contre-intuitif qu'expliquera — et pour toute la classe des mammifères — la théorie synthétique de l'évolution au XXe siècle.

(Les statistiques classiques parviennent sans surprise au même résultat, vu la taille de l'échantillon, par le test du χ², qui ne sera imaginé par Pearson qu'en 1900)

Test médical[modifier | modifier le code]

Un médecin effectue le dépistage d'une maladie à l'aide d'un test fourni par un laboratoire.

Le test donne un résultat booléen : soit positif, soit négatif. Les études sur des groupes tests ont montré que, lorsque le patient est porteur de la maladie, le test est positif dans 90 % des cas. Pour un patient non atteint de la maladie, le test est positif dans un cas sur 100 (faux positif).

Le médecin reçoit un résultat positif pour le test d'un patient. Il souhaiterait savoir quelle est la probabilité que le patient soit réellement atteint de la maladie.

On note :

  • M l'événement « le patient est atteint de la maladie » (M son complémentaire « le patient n'est pas atteint de la maladie »)
  • T l'événement « le test est positif »

La grandeur recherchée est p(M|T), la probabilité que le patient soit malade sachant que le test est positif.

Les hypothèses se traduisent ainsi :

Le théorème de Bayes donne le résultat suivant :

La valeur p(T) s'évalue par :

En combinant les deux égalités, il vient :

L'application numérique avec les valeurs proposées donne :

On peut remarquer que le résultat du calcul dépend de p(M) soit la probabilité globale que le patient soit malade, autrement dit, de la proportion de malades dans la population à laquelle appartient le patient.

On suppose que la maladie recherchée soit rare et touche 1/100 000 personnes dans la population. Alors :

Ainsi, bien que le test soit positif pour 90 % des personnes atteintes et produise seulement 1 % de faux positif, le résultat est extrêmement peu concluant. Ce résultat qui peut sembler paradoxal parait plus évident si quand on effectue une analyse de population sur 1 million de personnes :

  • 10 personnes seront touchées par la maladie, 999 990 seront saines ;
    • sur les 10 personnes touchées 9 reviendront avec un test positif et 1 avec un test négatif (faux négatif) ;
    • sur les 999 990 saines, 1 % soit environ 10 000 seront des faux positifs.

Finalement sur 1 million de tests, il y aurait 10 009 tests positifs dont seulement 9 vrais positifs.

La probabilité qu'un patient ayant un résultat positif soit malade reste donc faible car la maladie est dans l'absolu extrêmement rare. D'un tel résultat, on pourrait conclure que le test est complètement inutile, pourtant il faut noter que la probabilité de trouver un patient malade par ce test reste 90 fois supérieure à une recherche par tirage aléatoire (p(M)= 0,00001).

On suppose maintenant que la maladie ciblée soit moins rare et touche 1/1 000 personnes dans la population. Alors p(M) = 0,001 et p(M|T) = 0,0826.

Le résultat reste peu concluant. Sur 1 million de personnes :

  • 1 000 personnes seront touchées par la maladie, 999 000 seront saines ;
    • sur les 1 000 personnes touchées 900 reviendront avec un test positif et 100 avec un test négatif (faux négatif);
    • sur les 999 000 saines, 1 % soit 9 990 seront des faux positifs.

Finalement sur 1 million de tests, il y aura 10 890 tests positifs dont seulement 900 vrais positifs.

La probabilité qu'un patient ayant un résultat positif soit malade s'établit donc à 900 ÷ 10 890, soit 8,3 %, ce qui reste faible, mais est tout de même 83 fois plus que dans la population générale.

Si la maladie est épidémique, avec une personne sur dix touchée, on trouvera le test concluant, puisque la probabilité pour qu'une personne revenant avec un test positif soit malade sera de 91 %.

Valeur du test et notation d'évidence[modifier | modifier le code]

On reprend les trois cas d'application du test.

Probabilité avant test Probabilité après test
1/100 000 0,00001 −5 0,000899 0,000900 −3,05 1,95
1/1 000 0,001 −3 0,0826 0,0900 −1,05 1,95
1/10 0,111 −0,954 0,909 10 1 1,95

On voit que le test déplace toujours l'évidence de la même valeur, valeur unique qui se trouve ainsi caractériser numériquement de façon objective le résultat du test indépendamment des attentes. On peut montrer facilement que cette valeur est égale à

D'où vient ce biscuit ?[modifier | modifier le code]

On se donne deux boîtes de biscuits : une boîte A comporte 30 biscuits au chocolat et 10 ordinaires, l'autre, B, en comporte 20 de chaque sorte.

On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

Le théorème de Bayes donne la réponse exacte :

Notons HA la proposition « le gâteau vient de la boîte A » et HB la proposition « le gâteau vient de la boîte B ».

Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, on a p(HA) = p(HB), et la somme fait 1, puisque qu'une boîte a été choisie, soit une probabilité de 0,5 pour chaque proposition.

Notons D l'événement désigné par la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, il apparait que :

  • p(D | HA) = 30/40 = 0,75 (évidence 3, soit 4,77 dB ou 1,44 bit)
  • p(D | HB) = 20/40 = 0,5 (évidence 1, soit 0 dB ou 0 bit)

Note: « p(A | B) » se dit « la probabilité de A sachant B ».

La formule de Bayes donne donc :

La probabilité p(HA|D) représente la probabilité d'avoir choisi la boîte A sachant que le gâteau est au chocolat.

Avant de regarder le gâteau, la probabilité d'avoir choisi la boîte A était p(HA), soit 0,5. Après l'avoir regardé, on réévalue cette probabilité à p(HA|D), qui est 0,6 (évidence 1,5 soit 1,76 dB ou 0,58 bit). L'observation a donc apporté 1,76 dB (0,58 bit).

Et puisque p(HA|D) + p(HB|D) = 1 (pas d'autre possibilité que d'avoir choisi la boîte A ou la boîte B sachant que le gâteau est au chocolat), la probabilité d'avoir choisi la boîte B sachant que le gâteau est au chocolat est donc de 1 − 0,6 = 0,4.

Si on impose une probabilité a priori quelconque de suspecter une boîte particulière plutôt que l'autre, le même calcul effectué avec cette probabilité a priori fournit également 0,58 bit. C'est là une manifestation de la règle de cohérence qui constituait l'un des desiderata de Cox.

Où en sont les immatriculations du moment ?[modifier | modifier le code]

Supposons qu'un pays numérote les plaques minéralogiques de ses véhicules de 1 en 1 à partir de 1. On observe n plaques différentes. Pour n supérieur à 3, on démontre par la méthode de Bayes que le meilleur estimateur du numéro en cours ne dépend que du nombre d'observations et de la plus haute immatriculation trouvée Smax[c].

L'estimation est d'autant plus exacte que le nombre d'observations est grand. La variance de l'estimation elle-même est inversement proportionnelle au carré de n.

Annexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • Isabelle Drouet (dir.), Le bayésianisme aujourd’hui : Fondements et pratiques, Paris, Éditions Matériologiques, , 504 p. (ISBN 978-2-37361-078-9, présentation en ligne)
  • Collectif Biobayes, Initiation à la statistique bayésienne : Bases théoriques et applications en alimentation, environnement, épidémiologie et génétique, Paris, Ellipses, (ISBN 9782340005013)
  • Jean-Jacques Boreux, Éric Parent et Jacques Bernier, Pratique du calcul bayésien, Paris, Springer-Verlag,
  • Christian P. Robert (trad. de l'anglais par l'auteur), Le Choix bayésien, principe et pratique [« The Bayesian Choice, 2.nd ed. »], Paris, Springer, , 2e éd. (1re éd. 1992) (ISBN 978-2-287-25173-3, présentation en ligne) (éd. 1992 sous le titre L'Analyse Statistique Bayésienne, Paris:Economica).
  • Jean-Jacques Droesbeke, Jeanne Fine et Gilbert Saporta, Méthodes bayésiennes en statistique, Technip, (ISBN 9782710808138)

Les ouvrages relatifs à l'utilisation sont plus rares que les ouvrages d'enseignement généraux. Les méthodes bayésiennes, plus coûteuses, ne justifient ce surcoût que si les enjeux et risques financiers sont importants (prospection pétrolière, recherche de médicaments…). Ce sont dans ces deux cas des sociétés privées (pétroliers, laboratoires pharmaceutiques…) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations financées avec les fonds de leurs actionnaires (voir propriété intellectuelle). Certains problèmes ludiques comme les tentatives de prédictions dans certaines séries (Travail de Richard Vale sur Game of Thrones [1] [PDF] en sont également une utilisation possible.

Des analyses bayésiennes de problèmes concrets apparaissent dans la plupart des numéros des grands journaux de statistiques, comme Journal of the Royal Statistical Society, Journal of the American Statistical Association, Biometrika, Technometrics (en) ou Statistics in Medicine, telles que ci-dessous.

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Vidéo pédagogique[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. Le , 447 liens sur Google pour la recherche « statistique fréquentiste ». Il plus courant en anglais, le , 19 300 liens sur Google pour la recherche « frequentist statistics »
  2. Tribus rappelle que toute probabilité, parce qu'elle traduit un simple état de connaissance, est — par construction — subjective
  3. Tribus 1969, p. 248, prend l'exemple de l'estimation de la production de pompes d'un concurrent par le relevé de leurs numéros de série. Le calcul se trouve à la page suivante
  1. Isabelle Drouet, « Le bayésianisme : éléments de définition et mutation récentes », dans Le bayésianisme aujourd’hui, , p. 3-25, p. 4-5.
  2. a b c et d (en) BENALA, Tirimula Rao, VIDYADHARI, J. et SNEHA, P., « Comparative Study of Spam Filters: Bayesian to Fuzzy Similarity Approach. », Proceedings of Southern Regional Conference on Advances in Information and Communication Technology., no 2010,‎ (lire en ligne [PDF])
  3. a b et c (en) Ion Androutsopoulos et Georgios Paliouras, « Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach », sur arXiv.org, (consulté le )
  4. Michael E. Alfaro et John P. Huelsenbeck, « Comparative Performance of Bayesian and AIC-Based Measures of Phylogenetic Model Uncertainty », Systematic Biology, vol. 55, no 1,‎ , p. 89–96 (ISSN 1076-836X et 1063-5157, DOI 10.1080/10635150500433565, lire en ligne, consulté le )
  5. Par exemple , , etc.
  6. Stanislas Dehaene, « Introduction au raisonnement Bayésien et à ses applications », sur Collège de France, .
  7. Jérôme Segal, Le zéro et le un : Histoire de la notion d'information au XXe siècle, vol. 1, Éditions Matériologiques, , 532 p. (ISBN 978-2-919694-05-1, présentation en ligne).
  8. Science4All, « Le curseur de Turing | Bayes 14 », , sur YouTube.
  9. a et b Tribus 1972.
  10. Jean-Philippe Fauconnier, « Classifieur d'entropie maximale (MaxEnt) », , IRIT, Toulouse.
  11. Tribus 1969.
  12. Dehaene 2012.
  13. a b c d e et f Persi Diaconis et David Freedman, « On the Consistency of Bayes Estimates », The Annals of Statistics, vol. 14, no 1,‎ (ISSN 0090-5364, DOI 10.1214/aos/1176349830, lire en ligne, consulté le )
  14. William W. Hines, Douglas C. Montgomery, David M. Goldsman et Connie M. Borror (trad. Luc Adjengue, Emmanuelle Reny-Nolin, Jean-Pierre Carmichael), Probabilités et statistique pour ingénieurs, Montréal, Chenelière Éducation, , 2e éd. (1re éd. 2005), 509 p. (ISBN 978-2-7650-3107-9), chap. 10, p. 228-239.
  15. Bruno de Finetti, « La prévision : ses lois logiques, ses sources subjectives », Annales de l'institut Henri Poincaré, vol. 7, no 1,‎ , p. 1–68 (ISSN 0365-320X, lire en ligne, consulté le )
  16. a b c d et e (en) Lucien Le Cam et Grace Lo Yang, « Asymptotics in Statistics », Springer Series in Statistics,‎ (ISSN 0172-7397, DOI 10.1007/978-1-4684-0377-0, lire en ligne, consulté le )
  17. (en)A fast-learning algorithm for deep belief nets [PDF], de Geoffrey E. Hinton, Simon Osindero (Université de Toronto) et Yee-Whye Teh (Université de Singapour).
  18. a b c d et e James O. Berger, Statistical Decision Theory and Bayesian Analysis, Springer New York, coll. « Springer Series in Statistics », (ISBN 978-1-4419-3074-3 et 978-1-4757-4286-2, DOI 10.1007/978-1-4757-4286-2, lire en ligne)
  19. (en) Peter C. Fishburn, « Subjective expected utility: A review of normative theories », Theory and Decision, vol. 13, no 2,‎ , p. 139–199 (ISSN 1573-7187, DOI 10.1007/BF00134215, lire en ligne, consulté le )
  20. Richard C. Jeffrey, « Ethics and the Logic of Decision », The Journal of Philosophy, vol. 62, no 19,‎ , p. 528 (DOI 10.2307/2023748, lire en ligne, consulté le )
  21. Pablo Carranza, Alain Kuzniak, équipe DIDIREM. Université Paris 7 bayesienne « cachée » et approche fréquentiste « ambiguë » dans les livres de cours français de Première S et ES [PDF].
  22. La recherche, Questions à Nicolas Vayatis : « Bayésiens contre Fréquentistes, un faux débat » mathématiques - 01/07/2008 par Propos recueillis par Mathieu Nowak.
  23. (en) E. L. Lehmann, Theory of Point Estimation, Springer New York, (ISBN 978-1-4757-2771-5 et 978-1-4757-2769-2, DOI 10.1007/978-1-4757-2769-2, lire en ligne)
  24. a et b (en) Bayes-250 et Edinburgh « Xi'an's Og Says: September 6, « Misconceptions on Bayesianism », sur Xi'an's Og, (consulté le )
  25. (en) Youngjo Lee et Yudi Pawitan, « Popper’s Falsification and Corroboration from the Statistical Perspectives », dans Karl Popper's Science and Philosophy, Springer International Publishing, , 121–147 p. (ISBN 978-3-030-67036-8, DOI 10.1007/978-3-030-67036-8_7, lire en ligne)
  26. Exemple cité par Tribus 1972.
  27. Robert 2006.