Inférence bayésienne

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

L'inférence bayésienne est une méthode d'inférence permettant de déduire la probabilité d'un événement à partir de celles d'autres événements déjà évaluées. Elle s'appuie principalement sur le théorème de Bayes.

Dans la logique d'Aristote développée dans l'algèbre de Boole et le calcul des propositions, une proposition ne peut être que vraie ou fausse, et les règles d'inférence ne font intervenir que ces deux valeurs.

Le raisonnement bayésien s'intéresse aux cas où une proposition pourrait être vraie ou fausse, non pas en raison de son rapport logique à des axiomes tenus pour assurément vrais, mais selon des observations où subsiste une incertitude. On attribue à toute proposition une valeur entre 0 (faux à coup sûr) et 1 (vrai à coup sûr). S'il s'agit d'un événement pouvant avoir plus de deux issues possibles, on considère la distribution de probabilité de ces issues. L'inférence bayésienne révise la probabilité des propositions au fur et à mesure des observations, incluant, dans l'analyse de Thomas Bayes qui lui donne son nom, la première opinion (a priori) sur la probabilité des prémisses.

Le raisonnement bayésien interprète la probabilité comme la traduction numérique d'un état de connaissance, du degré de confiance accordé à une hypothèse (voir le théorème de Cox-Jaynes). Jaynes utilisait à ce sujet avec ses étudiants la métaphore d'un robot à logique inductive. Pour les autres disciplines des statistiques et des probabilités, il s'agit du passage à la limite de la fréquence d'un événement.

Manipulation des probabilités : notation et règles logiques[modifier | modifier le code]

L'inférence bayésienne effectue des calculs sur les énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est particulièrement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standards par l'usage systématique de règles formelles raffinant les probabilités par l'observation. Avant de passer à la description de ces règles, familiarisons-nous avec la notation employée.

Notation courante[modifier | modifier le code]

La notation probabiliste reprend pour base la notation classique des événements en probabilité qui elle-même s'inspire de la notation logique.

Soit deux événements A et B quelconques.

\scriptstyle \bar A désigne l'événement « non survenue de A »
\scriptstyle  A \cap B désigne l'événement « survenue de A et de B »
\scriptstyle  A \cup B désigne l'événement « survenue de A ou de B »
La théorie bayésienne introduit les notations suivantes, exprimant la probabilité au sens bayésien et la notion de probabilité conditionnelle.
\scriptstyle p(A) désigne la probabilité de survenue de l'événement A.
\scriptstyle p(A|B) désigne la probabilité de survenue de l'événement A sachant que l'événement B est survenu.

Règles de la logique des probabilités[modifier | modifier le code]

Il existe seulement deux règles pour combiner les probabilités, à partir desquelles est bâti tout l'édifice bayésien. Ces règles sont les règles d'addition et de multiplication.

La règle d'addition
P(\mathrm{A} \cup \mathrm{B}|\mathrm{C}) = P(\mathrm{A}|\mathrm{C}) + P(\mathrm{B}|\mathrm{C}) - P(\mathrm{A} \cap \mathrm{B}|\mathrm{C})
La règle de multiplication
P(\mathrm{A} \cap \mathrm{B}) = P(\mathrm{A}|\mathrm{B}).P(\mathrm{B}) = P(\mathrm{B}|\mathrm{A}).P(\mathrm{A})

Le théorème de Bayes, ou de probabilité des causes, s'en dérive aussitôt en mettant à profit la symétrie de la règle de multiplication

P(\mathrm{A}|\mathrm{B}) = \frac{P(\mathrm{B}|\mathrm{A}).P(\mathrm{A})}{P(\mathrm{B})}.

En conséquence, si on connaît dans le détail les causes possibles d'une conséquence observée et leurs probabilités, l'observation des effets permet de remonter aux causes.

Remarquez que l'inversion de la probabilité introduit le terme P(\mathrm{A}), la probabilité a priori de l'événement A, indépendamment de l'événement B. Cette estimation a priori est ignorée par les autres méthodes probabilistes.

Notation d'évidence[modifier | modifier le code]

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, seule l'observation d'éléments considérés eux-mêmes comme très improbables est susceptible de la modifier.

On définit l'évidence par :

\mathrm{Ev}(p) = \log\frac{p}{(1-p)} =\log{p}-\log(1-p)

Ev est une abréviation pour weight of evidence, parfois traduit en français par le mot « évidence » ; la formulation la plus conforme à l'expression anglaise d'origine serait le mot à mot « poids de témoignage », mais par une coïncidence amusante « évidence » se montre très approprié en français pour cet usage précis.

L'utilisation du logarithme fait varier la valeur de l'évidence sur tout le domaine des nombres réels quand la probabilité va de 0 à 1, avec une meilleure lisibilité des très petites (10^-5, 10^-10…) et des très grandes (0,999999, 0,999999999) probabilités, faciles à confondre intuitivement (voir équation de Drake).

L'intérêt de cette notation, outre qu'elle évite d'avoir trop de décimales au voisinage de 0 et de 1, est qu'elle permet de présenter l'apport d'une observation sous une forme indépendante des observateurs, donc objective : il faut le même poids de témoignage pour faire passer un événement d'une plausibilité de -4 (probabilité 10-4 avec logarithme en base 10) à -3 (probabilité 10-3) que pour le faire passer de -1 (probabilité 0,09) à 0 (probabilité 0,5 soit une chance sur deux), ce qui n'était pas évident en gardant la représentation probabiliste pure.

Si l'on choisit une base \scriptstyle 10^{0.1} pour le logarithme, selon Tribus 1972[réf. insuffisante] l'évidence peut s'exprimer en décibels (dB) : \scriptstyle \mathrm{Ev}(p) = 10\,\log_{10} \frac{p}{(1-p)}. Une évidence de -40 dB correspond à une probabilité de 10-4, etc. En 2011, Stanislas Dehaene préconise le terme décibans[1], dont l'abréviation dB est identique. Le nom ban fut créé à partir du nom de la ville de Banbury, où on fabriqua durant la seconde Guerre mondiale des bandes de carton utilisée à Bletchley Park pour décrypter les messages produits par la machine Enigma. La technique, élaborée par Alan Turing, était appelée banburismus (en).[réf. nécessaire]

D'autres unités ont été utilisées :

  • le dit (pour decimal digit)), avec des logarithmes à base 10 sans multiplicateur, aussi appelé hartley (symbole Hart), du nom de Ralph Hartley qui le proposa en 1928.
  • le NATS utilisant les logarithmes népériens, dits aussi naturels.

Si on prend le logarithme en base 2, l'évidence s'exprime en bits : \scriptstyle \mathrm{Ev}(p) = \log_{2} \frac{p}{(1-p)}. On a EvdB ≃ 3,0103 Evbit.

Table d'équivalence
Probabilité Évidence (dB) Évidence (bits)
0,0001 -40,0 -13,3
0,0010 -30,0 -10,0
0,0100 -20,0 -6,6
0,1000 -9,5 -3,2
0,2000 -6,0 -2,0
0,3000 -3,7 -1,2
0,4000 -1,8 -0,6
0,5000 0,0 0,0
0,6000 1,8 0,6
0,7000 3,7 1,2
0,8000 6,0 2,0
0,9000 9,5 3,2
0,9900 20,0 6,6
0,9990 30,0 10,0
0,9999 40,0 13,3

Comparaison avec la statistique classique[modifier | modifier le code]

L'usage de probabilités a priori a entraîné quelques reproches récurrents aux méthodes bayésiennes lors de leur introduction. On devait alors rappeler systématiquement les quatre points suivants[2][réf. insuffisante] :

  1. l'effet de la distribution a priori s'estompe à mesure que les observations sont prises en compte ;
  2. il existe des lois impersonnelles, comme la maximisation d'entropie ou l'invariance de groupe indiquant l'unique distribution possible sans ajouter d'information propre à l'expérimentateur ;
  3. les probabilités a priori sont souvent dans d'autres méthodes utilisées inconsciemment (critère de Wald, critère du minimax…)[3] ;
  4. comme pour tout autre modèle, les effets de différents choix a priori peuvent être considérés de front.

Différence d'esprit[modifier | modifier le code]

Selon Myron Tribus,

  • les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour des probabilités personnelles, dites aussi subjectives (une probabilité est en fait toujours subjective, lorsqu'on analyse ses fondements) ;
  • les méthodes statistiques classiques, dites aussi fréquentistes utilisent des méthodes personnelles pour traiter des fréquences impersonnelles.

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement en donnant des poids de plus en plus faibles aux a priori au fur et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite.

La possibilité de diminuer automatiquement le poids des a priori au fur et à mesure de l’acquisition des données a permis aux modèles bayésiens d'être largement utilisés en data mining. En effet, contrairement aux méthodes classiques, il ne nécessitent que peu d'intervention humaine pour redéfinir à grande vitesse de nombreuses classes hypothèses en éliminant les moins validées par les données du moment.

Quand utiliser l'une ou l'autre ?[modifier | modifier le code]

Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte[4], la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler[5]. En cas de profusion de données, les résultats sont asymptotiquement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. La diminution énorme des coûts de calcul consécutive à la loi de Moore a joué dans la popularité grandissante des méthodes bayésiennes de 1970 à 2010[réf. nécessaire]. En revanche, la méthode bayésienne permet de traiter des cas où la statistique ne disposerait pas suffisamment de données pour qu'on puisse en appliquer les théorèmes limites.

Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution par rapport à des observations) est asymptotiquement convergent avec le χ² des statistiques classiques à mesure que le nombre d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi parfaitement justifié a posteriori par le raisonnement bayésien[2][réf. insuffisante].

Prise de décision bayésienne et neurosciences[modifier | modifier le code]

Un cycle de cours de Stanislas Dehaene au Collège de France intitulé Psychologie cognitive expérimentale mentionne l'inférence bayésienne dans les titres de quatre de ses sept exposés. Une des conférences se nomme du reste L'implémentation neuronale des mécanismes bayésiens[1]. C'est une revanche posthume pour Jaynes dont une communication de 1957 sur le probable fonctionnement bayésien du cerveau avait été rejetée comme « non en rapport avec le sujet des neurosciences »[6]. Les références données font état de travaux similaires dans plusieurs pays.

Voir également les articles Logit et Régression logistique.

Historique[modifier | modifier le code]

Cette démarche fut induite pragmatiquement par application du théorème de Bayes.

Après la publication posthume des travaux de Bayes, Abel et Laplace adhérèrent immédiatement au raisonnement bayesien (le second en tire même la loi de succession qui porte son nom). Le Théorème de Cox le formalisa sur des bases axiomatiques indépendantes de la théorie classique des probabilités et les travaux de Good, Jeffreys, Tribus et Jaynes la vulgarisèrent.

Controverses[modifier | modifier le code]

Bien que les découvertes de Bayes (et Laplace) soient antérieures, les méthodes qui se sont historiquement imposées dans la pratique statistique sont celles de l'école portée par les travaux de Ronald Aylmer Fisher ou Richard von Mises. Cette approche est parfois appelée statistique fréquentiste mais le terme reste encore peu usité en français[7] : la domination de cette école a été telle qu'en l'état actuel le terme "statistiques" renvoie le plus souvent implicitement à celle-ci[8].

Cette prééminence a longtemps été liée au fait que l'approche fréquentiste se prêtait mieux aux problèmes rencontrés et aux outils disponibles, l'usage de l'approche bayésienne étant limitée à un champ d'applications restreint. Cet état de fait a cependant été remis en question par le développement de l'informatique qui a trouvé et permis un usage plus courant des théories bayésiennes, notamment pour les intelligences artificielles.

Ce nouvel usage a contribué à raviver le débat théorique sur les pertinences comparées des deux approches[9].

Notation d'évidence[modifier | modifier le code]

Cette notation est souvent attribuée à I. J. Good. Ce dernier en attribuait cependant la paternité à Alan Turing et, indépendamment, à d'autres chercheurs dont Harold Jeffreys.

C'est peu après les publications de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

Exemples d'inférence bayésienne[modifier | modifier le code]

Test médical[modifier | modifier le code]

Énoncé[modifier | modifier le code]

Un médecin effectue le dépistage d'une maladie à l'aide d'un test fourni par un laboratoire.

Le test donne un résultat booléen : soit positif, soit négatif. Les études sur des groupes tests ont montré que, lorsque le patient est porteur de la maladie, le test est positif dans 90% des cas. Pour un patient non atteint de la maladie, le test est positif dans un cas sur 100 (faux positif).

Le médecin reçoit un résultat positif pour le test d'un patient. Il souhaiterait savoir quel est la probabilité que le patient soit réellement atteint de la maladie.

Résolution[modifier | modifier le code]

Nous retenons la notation suivante, soient:

  • M l'événement "le patient est atteint de la maladie" ( \bar M son complémentaire "le patient n'est pas atteint de la maladie")
  • T l'événement "le test est positif"

La grandeur recherchée est: P(M|T) probabilité que le patient soit malade sachant que le test est positif.

Les hypothèses se traduisent ainsi:

  • P(T|M)=0,9
  • P(T|\bar M)=0,01

Le théorème de Bayes donne le résultat suivant: P(M|T)=\frac{P(T|M).P(M)}{P(T)} (1)

P(T) s'évalue par: P(T)=P(T|M).P(M)+P(T|\bar M).P(\bar M) = P(T|M).P(M)+P(T|\bar M).(1-P(M)) (2)


(1) et (2) permettent de déduire: P(M|T)=\frac{P(T|M).P(M)}{P(T|M).P(M)+P(T|\bar M).(1-P(M))}


L'application numérique avec les valeurs proposées donne: P(M|T)=\frac{0,9.P(M)}{0,9.P(M)+0.01(1-P(M))}


Soit: P(M|T)=\frac{0,9.P(M)}{0,89.P(M)+0.01}

Interprétation[modifier | modifier le code]

Nous pouvons remarquer que le résultat du calcul dépend de P(M) soit la probabilité globale que le patient soit malade, autrement dit, de la proportion de malades dans la population à laquelle appartient le patient.

Supposons que la maladie recherchée soit rare et touche 1/100 000 personnes dans la population. Alors:

P(M)=0,00001 et P(M|T)=0,000899

Nous constatons que bien que le test soit positif pour 90% des personnes atteintes et produise seulement 1% de faux positif, le résultat est extrêmement peu concluant. Ce résultat qui peut sembler paradoxal parait plus évident si nous effectuons une analyse de population sur 1 million de personnes.

Sur 1 million de personnes en moyenne:

  • 10 personnes seront touchées par la maladie, 999 990 seront saines ;
    • sur les 10 personnes touchées 9 reviendront avec un test positif et 1 avec un test négatif (faux négatif) ;
    • sur les 999 990 saines, 1% soit environ 10 000 seront des faux positifs.

Finalement sur 1 million de tests, nous obtiendrons 10 009 tests positifs dont seulement 9 vrais positifs.

La probabilité qu'un patient ayant un résultat positif soit malade reste donc faible car la maladie est dans l'absolu extrêmement rare. D'un tel résultat nous pourrions conclure que le test est complètement inutile, pourtant il faut noter que la probabilité de trouver un patient malade par ce test reste 90 fois supérieur à une recherche par tirage aléatoire (P(M)=0.00001).

Supposons maintenant que la maladie ciblée soit moins rare et touche 1/1 000 personnes dans la population. Alors: P(M) = 0,001 et P(M|T) = 0,0826

Le résultat reste peu concluant. Sur 1 million de personnes:

  • 1000 personnes seront touchées par la maladie, 999 000 seront saines ;
    • sur les 1000 personnes touchées 900 reviendront avec un test positif et 100 avec un test négatif (faux négatif);
    • sur les 999 000 saines, 1% soit 9 990 seront des faux positifs.

Finalement sur 1 million de tests, nous obtiendrons 10 890 tests positifs dont seulement 900 vrais positifs.

La probabilité qu'un patient ayant un résultat positif soit malade s'établit donc à 900 ÷ 10 890, soit 8,3 %, ce qui reste faible, mais est tout de même 83 fois plus que dans la population générale.

Si la maladie est épidémique, avec une personne sur dix touchée, on trouvera le test concluant, puisque la probabilité pour qu'une personne revenant avec un test positif soit malade sera de 91%.

Valeur du test et notation d'évidence[modifier | modifier le code]

Reprenons les trois cas d'application du test.

Probabilité p et évidence Ev(p) de la maladie
Probabilité avant test \frac{p}{(1-p)} \mathrm{Ev}(p) = \log\frac{p}{(1-p)} Probabilité après test \frac{p'}{(1-p')} \mathrm{Ev}(p') \mathrm{Ev}(p') - \mathrm{Ev}(p)
1/100 000 0,00001 -5 0,000899 0,000900 -3,05 1,95
1/1 000 0,001 -3 0,0826 0,0900 -1,05 1,95
1/10 0,111 -0,954 0,909 10 1 1,95

On voit que le test déplace toujours l'évidence de la même valeur, qui se trouve ainsi caractériser le test. On peut montrer facilement que cette valeur est égale à

\log \frac{\mathrm{P}(T|M)}{\mathrm{P}(T|\bar M)}

D'où vient ce biscuit ?[modifier | modifier le code]

Énoncé[modifier | modifier le code]

Imaginons deux boîtes de biscuits.

  • L'une, A, comporte 30 biscuits au chocolat et 10 ordinaires.
  • L'autre, B, en comporte 20 de chaque sorte.

On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée par le théorème de Bayes :

Résolution[modifier | modifier le code]

Notons HA la proposition « le gâteau vient de la boîte A » et HB la proposition « le gâteau vient de la boîte B ».

Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons p(HA) = p(HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0,5 pour chaque proposition.

Notons D l'événement désigné par la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, nous savons que :

  • p(D | HA) = 30/40 = 0,75 (évidence 4,77 dB, soit 1,44 bit)
  • p(D | HB) = 20/40 = 0,5 (évidence 0 dB, soit 0 bit)

Note: « p(A | B) » se dit « la probabilité de A sachant B ».

La formule de Bayes nous donne donc :


\begin{matrix} p(\mathrm{H_A} | \mathrm{D}) &=& \frac{p(\mathrm{H_A}) \cdot p(\mathrm{D} | \mathrm{H_A})}{p(\mathrm{H_A}) \cdot p(\mathrm{D} | \mathrm{H_A}) + p(\mathrm{H_B}) \cdot p(\mathrm{D} | \mathrm{H_B})} \\  \\  \ & =& \frac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\  \\  \ & =& 0,6 \end{matrix}

La probabilité p(HA|D) représente la probabilité d'avoir choisi la boîte A sachant que le gâteau est au chocolat.

Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était p(HA), soit 0,5. Après l'avoir regardé, nous révisons cette probabilité à p(HA|D), qui est 0,6 (1,76 dB ou 0,53 bit). L'observation nous a donc apporté 1,76 dB (0,53 bit).

Et puisque p(HA|D) + p(HB|D) = 1 (pas d'autre possibilité que d'avoir choisi la boîte A ou la boîte B sachant que le gâteau est au chocolat), la probabilité d'avoir choisi la boîte B sachant que le gâteau est au chocolat est donc de 1 − 0,6 = 0,4.

Si nous imposons une probabilité a priori quelconque de suspecter une boîte particulière plutôt que l'autre, le même calcul effectué avec cette probabilité a priori fournit également 0,53 bit. C'est là une manifestation de la règle de cohérence qui constituait l'un des desiderata de Cox.

Cette pièce est-elle biaisée ?[modifier | modifier le code]

On lance quatre fois une pièce et elle tombe quatre fois du même côté. Est-elle biaisée ?

La position des statistiques classiques est de dire qu'on ne peut pas tirer de conclusion significative de trois tirages (en effet, un côté étant déterminé par le premier lancer, on a bien une probabilité 1/8 d'avoir les trois tirages suivants du côté identique avec une pièce parfaitement honnête, ce qui ne fournit pas les 95 % de certitude demandés traditionnellement).

L'approche bayésienne mesurera simplement que cette probabilité de 1/16 déplace linéairement de 10 log10(1/8 / 7/8) = - 8,45 dB l'évidence d'honnêteté de la pièce. Si nous lui accordions 40 dB (pièce sortie par exemple de notre propre porte-monnaie et lancée par nous), cette évidence passe à 31,55 dB. En d'autres termes, la probabilité subjective de sa normalité reste élevée (30 dB correspondent à une probabilité de 10-3 environ que la pièce soit biaisée).

Si en revanche la pièce est fournie par un individu que nous jugeons louche et que nous estimions à 0 dB son évidence d'honnêteté (autant de chances d'être bonne que biaisée), cette évidence passe à -8,45 dB, ce qui correspond maintenant à une probabilité subjective de 87,5 % que la pièce soit biaisée, et nous serions avisés de mettre fin au jeu.

(exemple cité par Myron Tribus[10])

Où en sont les immatriculations du moment ?[modifier | modifier le code]

Supposons qu'un pays numérote les plaques minéralogiques de ses véhicules de 1 en 1 en partant de 1. Nous observons N plaques différentes portant des numéros S1, ... SN. Pour N supérieur à 3, on démontre par la méthode de Bayes que le meilleur estimateur du numéro en cours K ne dépend que de N et de la plus haute immatriculation trouvée Smax

Plus intéressant encore, la variance de cette estimation devient exponentiellement petite avec la valeur de N[2][réf. insuffisante].

Annexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Les ouvrages relatifs à l'utilisation sont plus rares que les ouvrages d'enseignement généraux. On utilise les méthodes bayésiennes là où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments…). Ce sont dans les deux cas cités des sociétés privées (pétroliers, laboratoires pharmaceutiques…) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations qui ont coûté cher à leurs actionnaires[réf. nécessaire] ou à propos de certains problèmes plus ludique comme des tentatives de prédictions dans certaines séries (Travail de Richard Vale sur Game of Thrones [1] )

Cependant, des analyses bayésiennes de problèmes concrets apparaissent dans la plupart des numéros des grands journaux de statistiques, comme Journal of the Royal Statistical Society, Journal of the American Statistical Association, Biometrika, Technometrics ou Statistics in Medicine, avec quelques exemples ci-dessous :

  • (en) José M. Bernardo et Adrian F.M. Smith, Bayesian Theory, New York, John Wiley,‎ 2000 (1re éd. 1994), (Référence de l'approche formelle de la théorie bayésienne via les fonctions de perte et la théorie de la décision).
  • (en) Andrew Gelman, John B Carlin, Hal S Stern et Donald B Rubin, Bayesian data analysis, Chapman CRC,‎ 2003.
  • (en) Edwin T. Jaynes, « How Does the Brain Do Plausible Reasoning? », dans G. J. Erickson and C. R. Smith (eds.), Science and Engineering -- Maximum-Entropy and Bayesian Methods, Dordrecht, Kluwer,‎ 1988 (lire en ligne). Cet article fut publié pour la première fois en tant que Stanford Microwave Laboratory Report en 1957. Auparavant, Jayne l'avait soumis aux IRE Transactions on Information Theory, qui en rejeta une version longue, disponible avec l'opinion des membres du comité de lecture et la réponse de Jayne ici.
  • Jaynes, E.T. (2003) Probability Theory : The Logic of Science (en anglais).
  • Davic McKay, Information theory, inference, and learning algorithms, Cambridge University Press, 2005.
  • Robert, C.P. (1992) L'Analyse Statistique Bayésienne. Economica, Paris.
  • Robert, C.P.(1994). The Bayesian Choice: A Decision Theoretic Motivation. New York: Springer Verlag (première édition, en français : L'Analyse Statistique Bayésienne, Paris: Economica, 1992; traduit en français en 2006 chez Springer-Verlag, Paris).
  • Francisco J. Samaniego, A Comparison of the Bayesian and Frequentist Approaches to Estimation, 2010, ISBN 978-1-4419-5940-9.
  • (en) Myron Tribus, Rational Descriptions, Decisions and Designs, Pergamon Press,‎ 1969 (lire en ligne).
  • Myron Tribus (trad. Jacques Pezier), Décisions rationnelles dans l'incertain [« Rational descriptions, decisions and designs »], Paris, Masson,‎ 1972, 503 p..
  • Satoshi Watanabe, Knowing and guessing: a quantitative study of inference and information, Wiley, 1969, (ISBN 0471921300 et 9780471921301).

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. a et b Cours au Collège de France: lire en ligne.
  2. a, b et c Tribus 1972
  3. LISA.
  4. Par exemple enquête d'opinions[Quoi ?] [réf. nécessaire]
  5. Estimation de la teneur d'un gisement minier ou pétrolifère, par exemple
  6. Jaynes 1988.
  7. Le 13 juin 2012, 447 liens sur Google pour la recherche "statistique fréquentiste". Il plus courant en anglais, le 13 juin 2012, 19 300 liens sur Google pour la recherche "frequentist statistics"
  8. Pablo Carranza, Alain Kuzniak, Equipe Didirem. Université Paris 7 bayesienne « cachée » et approche fréquentiste « ambiguë » dans les livres de cours français de Première S et ES.
  9. |La recherche, Questions à Nicolas Vayatis : « Bayésiens contre Fréquentistes, un faux débat » mathématiques - 01/07/2008 par Propos recueillis par Mathieu Nowak
  10. Décisions rationnelles dans l'incertain, Ed Masson, 1974, traduction de Jacques Pézier