Théorème de Cox-Jaynes

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher


Le théorème de Cox-Jaynes (1946) codifie et quantifie la démarche d'apprentissage en se fondant sur cinq postulats (desiderata) simples. Cette codification coïncide en fait avec celle de probabilité, historiquement d'origine toute différente. Le théorème doit son nom au physicien Richard Threlkeld Cox (en) qui en a formulé la version originale.

Cox formalise la notion intuitive de plausibilité sous une forme numérique. Il démontre que, si les plausibilités satisfont à un ensemble d'hypothèses, la seule façon cohérente de les manipuler est d'utiliser un système isomorphe à la théorie des probabilités.

Ce système induit donc une interprétation « logique » des probabilités indépendante de celle de fréquence. Elle fournit également une base rationnelle au mécanisme d'induction logique, et donc de l'apprentissage par des machines. Qui plus est, le théorème, sous les conditions imposées par les postulats, implique que toute autre forme de représentation de la connaissance serait en fait biaisée. Il s'agit donc d'un résultat extrêmement fort[1][réf. insuffisante].

Les résultats de Cox n'avaient touché qu'une audience restreinte avant qu'Edwin Thompson Jaynes ne redécouvrît ce théorème et n'en défrichât une série d'implications pour les méthodes bayésiennes[1][réf. insuffisante]. Irving John Good en explora les conséquences dans le domaine de l'intelligence artificielle[1][réf. insuffisante]. Stanislas Dehaene utilise le théorème, sa construction et ses applications dans le cadre de l'étude des propres processus cognitifs[2], suivant en cela une idée déjà énoncée en 1988 par Jaynes[3].

Problèmes de validité de la démarche inductive avant Cox[modifier | modifier le code]

Réserves de Bertrand Russell[modifier | modifier le code]

Dans son essai « La science est-elle superstitieuse ? », Bertrand Russell évoque le « scandale de l'induction[4] » :

  • Au nom de quoi affirmer, même de façon provisoire, que ce qui a été vérifié dans un nombre limité de cas se vérifiera aussi dans les cas qui n'ont pas été testés ?
  • Au nom de quoi supposer, même sur ce qui a été mesuré, que ce qui a été vrai hier le sera toujours demain ?

Paradoxe de Hempel[modifier | modifier le code]

Ce paradoxe visait à montrer une faille dans le mécanisme d'induction, qui imposait que le domaine de validité de celui-ci fût précisé de façon plus rigoureuse : le contexte de ce dont on parle doit être toujours mentionné. Ainsi le comptage des oiseaux à la fois non-blancs et non-corbeaux dans une chambre ne renseigne pas sur la probabilité que tous les corbeaux soient blancs, mais que tous les corbeaux soient blancs dans cette chambre — affirmation parfaitement exacte quand il n'y a aucun corbeau dans la chambre, en vertu de la relation (qui définit l'implication logique, dans une logique purement déductive) :

(p \Rightarrow q) \Leftrightarrow ((p \wedge q) \vee \neg p )

Les « desiderata » (axiomes)[modifier | modifier le code]

Cox cherche à poser les desiderata souhaitables pour un robot qui raisonnerait selon une logique inductive :

1. Les degrés de plausibilité sont représentés par des nombres réels[modifier | modifier le code]

  • Il faut bien, en effet, pouvoir à tout moment dire de deux plausibilités laquelle est plus grande que l'autre, ce qui suggère une représentation quantitative, et la forme numérique semble commode.
  • Une représentation sous forme de nombres entiers poserait un problème de bruit discret, aucune plausibilité ne pouvant se glisser entre deux représentées par des entiers successifs.
  • Des rationnels conviendraient certes, mais si tous les réels ne sont pas des rationnels, tous les rationnels sont en revanche bien des réels.

La convention adoptée, arbitrairement, est que des plausibilités plus grandes seront représentées par des nombres plus grands.

2. Les règles d'inférence ne doivent pas contredire les règles d'inférence communes[modifier | modifier le code]

En d'autres termes, ce qui nous paraît évident ne doit pas être contredit par le modèle (à la différence de ce qui se passe avec le paradoxe de Condorcet en théorie du vote).

Exemple de règle  :
  • si A est préférable à B,
  • et B est préférable à C,
  • toutes choses égales par ailleurs et en l'absence de B, A préférable C.

3. Règle de cohérence[modifier | modifier le code]

Si une conclusion peut être obtenue par plus d'un moyen, alors tous ces moyens doivent bien donner le même résultat.

Cette règle élimine du champ d'examen les "heuristiques multiples" dès lors qu'elles pourraient contenir entre elles des contradictions (comme le font par exemple parfois les critères de Savage et de Wald, se réclamant tous deux du minimax de la théorie des jeux).

4. Règle d'honnêteté[modifier | modifier le code]

Le robot doit toujours prendre en compte la totalité de l'information qui lui est fournie. Il ne doit pas en ignorer délibérément une partie et fonder ses conclusions sur le reste. En d'autres termes, le robot doit être totalement non idéologique, neutre de point de vue.

5. Règle de reproductibilité[modifier | modifier le code]

Le robot représente des états de connaissance équivalents par des plausibilités équivalentes. Si deux problèmes sont identiques à un simple étiquetage de propositions près, le robot doit affecter les mêmes plausibilités aux deux cas.

Deux propositions doivent donc être considérées a priori comme de plausibilité équivalente quand elles ne se distinguent que par leur nom, ce qui n'arrive guère que dans des cas très particuliers, comme pour des pièces ou des dés non pipés.

Les règles quantitatives (lois de composition interne)[modifier | modifier le code]

La règle de somme[modifier | modifier le code]

Sans rentrer dans les équations, l'idée est que lorsque deux plausibilités du même état se composent, la plausibilité composée est nécessairement égale ou supérieure à la plus grande des deux.

La règle de produit[modifier | modifier le code]

Il s'agit ici du cas inverse : quand deux plausibilités doivent toutes deux être vérifiées pour qu'un état puisse exister, cet état ne peut avoir de plausibilité plus grande que la plus petite des deux précédentes.

Les résultats[modifier | modifier le code]

Exemple[modifier | modifier le code]

La notation d'I.J Good (weight of evidence)[modifier | modifier le code]

Good a proposé une notation permettant de manipuler plus aisément les plausibilités. Alan Turing avait fait remarquer en son temps que l'expression des probabilités était beaucoup plus facile à manier en remplaçant une probabilité p variant de 0 à 1 par l'expression ln (p/(1-p)) permettant une meilleure discrimination des très petites valeurs (très proches de 0) comme des très grandes (très proches de 1). En particulier, sous cette forme, un apport d'information par la règle de Bayes se traduit par l'ajout d'une quantité algébrique unique à cette expression (que Turing nommait log-odd), cela quelle que soit la probabilité a priori de départ avant l'observation[réf. nécessaire]. La notation de Good utilise, conformément à cette idée, une échelle logarithmique.

Échelle en décibans ou décibels (dB)[modifier | modifier le code]

Irving John Good utilisa une variante de cette idée pour faciliter le travail avec ces nouvelles quantités. À la différence de Turing :

  • il utilisa un logarithme décimal plutôt que naturel, afin que l'ordre de grandeur de la probabilité associée apparaisse à simple lecture.
  • et adopta un facteur 10 afin d'éviter la complication de manier des quantités décimales, là où une précision de 25 % suffisait.

Il nomma la mesure correspondante, W = 10 log10 (p/(1-p)), weight of evidence parce qu'elle permettait de « peser » le témoignage des faits en fonction des attentes - manifestées par des probabilités « subjectives » antérieures à l'observation - de façon indépendante de ces attentes[1][réf. insuffisante].

Dehaene préfère pour éviter toute connotation parasite parler plutôt de décibans que de décibels[5]

En bits[modifier | modifier le code]

Les évidences sont parfois exprimées aussi en bits, en particulier dans les tests de validité de lois scalantes.

En effet, quand une loi comme la loi de Zipf ou de Mandelbrot s'ajuste mieux aux données qu'une autre loi ne nécessitant pas de tri préalable, il faut tenir compte du fait que trier une séquence de n termes sélectionne une permutation parmi n! possibles. Le tri représente un apport d'information (ou d'ordre) de l'ordre de n log2 n. Cet apport d'information pourrait être seul responsable du meilleur ajustement. On peut s'attendre à voir une répartition décroissante rendre mieux compte de ce qu'on vient de trier soi-même en ordre décroissant.

Si le gain d'évidence apporté par le tri représente moins de bits que celui qu'a coûté le tri, l'information apportée par la considération d'une loi scalante est nulle. L'ordre apporté est simplement celui que nous venons de mettre : le modèle ne doit donc pas dans ce cas être conservé. Dans d'autres, sa validité ressort nettement : voir Loi de Zipf-Mandelbrot[réf. nécessaire].

Conséquences du théorème[modifier | modifier le code]

Unification de l'algèbre de Boole et de la théorie des probabilités[modifier | modifier le code]

On remarque que l'algèbre de Boole est isomorphe à la théorie des probabilités réduite aux seules valeurs 0 et 1.

  • Et logique = produit de probabilités
  • Ou logique = somme moins produit de deux probabilités (p+p'-p.p')
  • Non logique = complément d'une probabilité (p → 1-p)

Cette considération conduisit à l'invention dans les années 1970 des calculateurs stochastiques promus par la société Alsthom (qui s'écrivait avec un h à l'époque) et qui entendaient combiner le faible coût des circuits de commutation avec la puissance de traitement des calculateurs analogiques. Quelques-uns furent réalisés à l'époque.

Abandon du paradigme « fréquentiste »[modifier | modifier le code]

Myron Tribus propose de considérer la probabilité comme la simple traduction numérique d'un état de connaissance et non comme le passage à la limite de la notion de fréquence. À l'appui, il prend l'image classique du dé dont la probabilité de sortie de chaque face est considérée au départ de 1/6e même si le dé est en glace, donc ne peut être lancé plus d'un petit nombre de fois, ce qui interdit tout passage à la limite.

Il imagine alors l'objection d'un interlocuteur : "Si je me représente mentalement mille dés, je peux bel et bien envisager un passage à la limite", à laquelle il répond : "Tout à fait. Et donc si vous vous les représentez simplement mentalement, c'est qu'il s'agit bien d'un état de connaissance[1][réf. insuffisante].

Les divergences entre approches fréquentistes et bayésiennes ont suscité beaucoup de passions dans les années 1970, où elles prenaient alors presque l'aspect d'une "guerre de religion". Leur coexistence "pacifique" est aujourd'hui admise, chacune ayant son domaine d'efficacité maximale et les deux approches convergeant de toute façon lorsqu'on passe aux grands nombres d'observations[6] (il n'y a pas de conflit pour les petits nombres, les méthodes fréquentistes (statistiques) ne concernant pas ce domaine d'application).

Bases rationnelles de l'apprentissage machine[modifier | modifier le code]

Edwin Thompson Jaynes, dans sa reprise et son approfondissement du théorème de Cox, utilise celui-ci pour montrer que tout apprentissage y compris automatique devra nécessairement soit utiliser l'inférence bayésienne (à un homomorphisme près si on le désire, comme un passage par une transformation logarithme simplifiant les calculs pratiques), soit donner quelque part des résultats incohérents et être, en conséquence, inadapté. Ce résultat extrêmement fort, nécessite l'acceptation de cinq desiderata simples, dont celui de la continuité de méthode (ne pas changer brusquement d'algorithme simplement parce qu'une donnée est modifiée de façon infinitésimale)[7][réf. insuffisante].

Voir également l'article Logit.

Limitations importantes du théorème[modifier | modifier le code]

Un paradoxe apparent[réf. insuffisante][modifier | modifier le code]

Chaque discipline possède ses mesures favorites : si la thermique s'occupe principalement de températures, la thermodynamique sera plus attachée à des mesures de quantité de chaleur, voire d'entropie. L'électrostatique s'intéresse plus aux tensions qu'aux intensités, tandis que c'est l'inverse pour les courants faibles, et qu'en électrotechnique c'est davantage en termes de puissance qu'on aura tendance à raisonner. Selon sa discipline d'origine, chaque expérimentateur tendra donc à effectuer ses estimations sur les unités auxquelles il est habitué.

Dans le cas d'un montage électrique, un spécialiste d'électrotechnique fera peut-être une estimation de puissance dissipée (Ri²) tandis qu'un spécialiste des courants faibles préférera estimer l'intensité elle-même (i). Si la convergence à terme des estimations est assurée dans les deux cas, elle ne se fera pas de la même façon, même avec des distributions a priori identiques, car l'espérance mathématique d'un carré n'est pas mathématiquement liée au carré d'une espérance. Il s'agit là de la principale pierre d'achoppement des méthodes bayésiennes[réf. insuffisante].

Le rôle du langage (formatage)[modifier | modifier le code]

Indépendamment des probabilités a priori que nous attribuons aux événements, nos estimations sont également en partie « formatées » par le langage et la « déformation professionnelle » qui s'y attachent. Concrètement, cela rappelle qu'il n'existe pas seulement une, mais deux sources d'arbitraire dans les méthodes bayésiennes : celle, de mesure, qui entache les probabilités a priori choisies[8] et celle, de méthode, qui correspond à notre représentation du problème. En revanche, l'arbitraire se limite à ces deux éléments, et les méthodes bayésiennes sont ensuite totalement impersonnelles.

Notes et références[modifier | modifier le code]

  1. a, b, c, d et e Tribus 1974
  2. cours 2011-2012 ; cours
  3. Jaynes 1988
  4. Bertrand Russell, Essais sceptiques, Paris, Les Belles Lettres,‎ 2011 (1re éd. 1928) (Chapitre 3).
  5. S. Dehaene, Collège de France
  6. (en) Jordi Vallverdú, « The False Dilemma: Bayesian vs. Frequentist », E-Logos,‎ 2003 (lire en ligne)
  7. Jaynes 2003
  8. Le choix d'une distribution d'entropie maximale (« MAXENT ») parmi celles qui satisfont aux contraintes garantit que l'on choisit la moins arbitraire. Loi normale de Gauss, loi exponentielle décroissante, loi de Zipf-Mandelbrot sont respectivement d'entropie maximale quand on fixe moyenne et écart-type, moyenne seule ou rang moyen seul

Bibliographie[modifier | modifier le code]

Cox et Jaynes[modifier | modifier le code]

  • (en) R. T. Cox, "Probability, Frequency, and Reasonable Expectation, Am. Jour. Phys., 14, 1–13, (1946).
  • (en) R. T. Cox, The Algebra of Probable Inference', Johns Hopkins University Press, Baltimore, MD, (1961).
  • (en) Edwin Thompson Jaynes, Probability Theory: The Logic of Science, Cambridge University Press,‎ 2003 (ISBN 978-0521592710). Conformément à la demande de Jaynes, décédé en 1998, son ouvrage est publiquement lisible en PDF sur la Toile :
    • (en) Edwin Thompson Jaynes, Probability Theory: The Logic of Science, Cambridge University Press,‎ 1994 (lire en ligne) (Fragmentary Edition of June 1994) ;
    • (en) Edwin Thompson Jaynes, Probability Theory: The Logic of Science, Cambridge University Press,‎ 1996 (lire en ligne) (Chapters 1 to 3 of published version) ;
    • Cox-Jaynes (PDF)
  • (en) Edwin Thompson Jaynes, « How Does the Brain Do Plausible Reasoning », dans G.J. Erikson and C.R. Smith (eds.), Maximum Entropy and Bayesian Methods in Science and Engineering, vol. 1, Kluwer Academic Publishers,‎ 1988 (lire en ligne)

Autres[modifier | modifier le code]

  • Myron Tribus (trad. Jacques Pézier), Décisions rationnelles dans l'incertain [« Rational descriptions, decisions and designs »], Paris, Masson,‎ 1974.
  • (de) Niels Henrik Abel "Untersuchung der Functionen zweier unabhängig veränderlichen Gröszen x und y, wie f(x, y), welche die Eigenschaft haben, dasz f[z, f(x,y)] eine symmetrische Function von z, x und y ist.", Jour. Reine u. angew. Math. (Crelle's Jour.), 1, 11–15, (1826).
  • (en) Janos Aczél (en), Lectures on Functional Equations and their Applications, Academic Press, New York, (1966).
  • (en) Stefan Arnborg and Gunnar Sjödin, On the foundations of Bayesianism, Preprint: Nada, KTH (1999) ps, pdf
  • (en) Stefan Arnborg and Gunnar Sjödin, A note on the foundations of Bayesianism, Preprint: Nada, KTH] (2000a) ps, pdf
  • (en) Stefan Arnborg and Gunnar Sjödin, "Bayes rules in finite models, " in European Conference on Artificial Intelligence, Berlin, (2000b) — pspdf
  • (en) Pierre Baldi, Søren Brunak, Bioinformatics: the machine learning approach, MIT Press, 2.2 The Cox-Jayes approach, pages 50-57
  • (en) Terrence L. Fine, Theories of Probability; An examination of foundations, Academic Press, New York, (1973).
  • (en) Michael Hardy, "Scaled Boolean algebras", Advances in Applied Mathematics, August 2002, pages 243–292 (or preprint)
  • (en) Joseph Y. Halpern, "A counterexample to theorems of Cox and Fine," Journal of AI research, 10, 67–85 (1999)
  • (en) Joseph Y. Halpern, "Technical Addendum, Cox's theorem Revisited", Journal of AI research, 11, 429–435 (1999)
  • (en) Kevin S. Van Horn, "Constructing a logic of plausible inference: a guide to Cox’s theorem", International Journal of Approximate Reasoning, Volume 34, Issue 1, September 2003, Pages 3–24. (Or through Citeseer page.)

Articles connexes[modifier | modifier le code]