Loi de Benford

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

La loi de Benford, initialement appelée loi des nombres anormaux par Benford[1], fait référence à une fréquence de distribution statistique observée empiriquement sur de nombreuses sources de données « dans la vraie vie » (mais pas toutes).
Quand on étudie un ensemble de données, on pourrait s'attendre à voir les chiffres 1 à 9 apparaître à peu près aussi fréquemment sur le premier chiffre d'un nombre, soit 11,1% (1 sur 9) pour chacun. Or, contrairement à l'intuition, le 1er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Le chiffre 2 est ensuite lui-même plus fréquent que le 3… et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4,6 %. C'est une loi observée aussi bien dans les mathématiques sociales, c'est-à-dire les sciences humaines et sociales, que dans des tables de valeurs numériques comme celles qu'on rencontre en physique, en BTP, ou même dans les numéros de rue de son carnet d'adresses, et qu'il est facile de démontrer.

De façon générale, la loi donne la valeur asymptotique f de la fréquence d'apparition du premier chiffre d'un nombre d d'un résultat de mesure exprimé dans une base b donnée au moyen d'une unité[2] : f = \log_{b} \left(1 + \frac 1 d\right )

Historique[modifier | modifier le code]

Cette distribution a été observée une première fois en 1881 par l'astronome américain Simon Newcomb, dans un article de l'American Journal of Mathematics[3], après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Cet article de Newcomb passe complètement inaperçu pendant cinquante-sept ans. Frank Benford, aux alentours de 1938, remarqua à son tour cette usure inégale, crut être le premier à formuler cette loi qui porte, conformément à la loi de Stigler, indûment son nom aujourd'hui, et arriva aux même résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc).

Applications[modifier | modifier le code]

Détection de la fraude fiscale[modifier | modifier le code]

Dans un article publié en 1972, l'économiste Hal Varian propose l'idée d'utiliser la loi de Benford pour détecter la fraude fiscale[4]. Les premiers chiffres significatifs 5 et 6 prédominent nettement dans les données falsifiées : 40 % pour les 5 et plus de 20 % pour les 6. Pour proposer un modèle de prédiction d'indice boursier, il convient d'inclure un test de cohérence car la loi de Benford ne fait pas de distinction entre les nombres 20 et 200 000 : ces deux nombres ayant 2 comme premier chiffre significatifs[5].

Les chiffres peuvent cependant aussi être influencés par le souci d'éviter des seuils et des plafonds fiscaux, dans le cadre d'une optimisation fiscale, qui n'a rien d'illégal.

Détection de la fraude comptable[modifier | modifier le code]

Dans une étude publiée en 2011, quatre économistes allemands, Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel ont testé la loi de Benford sur les données comptables produites par les Etats membre de l'Union européenne. Ils montrent que la Grèce est le pays européen qui s'éloigne le plus des prédictions de la loi de Benford. La Belgique est le second pays qui dévie le plus par rapport à cette loi[6],[7].

Détection de la fraude électorale[modifier | modifier le code]

La loi de Benford a aussi été utilisée pour mettre en évidence la fraude électorale. Le Canton de Genève, en Suisse, l'a utilisée pour détecter d'éventuelles irrégularité dans les scrutins du canton[8]

Trois politologues ont publié une étude montrant à partir de simulations que la mise en évidence de la fraude à partir d'un test d'adéquation à la loi de Benford était problématique et ne donnait pas de bons résultats sur les données simulées[9].

Détection de fraude scientifique[modifier | modifier le code]

La loi de Benford a aussi été utilisée pour détecter des données contrefaites dans des articles scientifiques[2].

Détection de fraude par la police[modifier | modifier le code]

Lors d'une présentation de suspects aux témoins ou aux victimes, la police omet d'attribuer le chiffre 1 à qui que ce soit. En effet, l'expérience a montré que le 1 donne des idées aux gens et a tendance à influencer le choix des témoins[10].

Système décimal[modifier | modifier le code]

Loi de Benford freq relat.PNG
Loi de Benford freq cumul.PNG

En particulier, pour le système décimal (base 10), on a donc :

f = \log_{10} \left(1 + \frac 1 d\right )

Ce qui aboutit au tableau de résultats suivants :

d 1 2 3 4 5 6 7 8 9
f 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Fréquences relatives d'apparition du 1er chiffre (base 10) (%)
d 1 2 3 4 5 6 7 8 9
f 30,1 47,7 60,2 69,9 77,8 84,5 90,3 95,4 100
Fréquences cumulées d'apparition du 1er chiffre (base 10) (%)


Il existe également une discrète surreprésentation des premiers chiffres en ce qui concerne le second chiffre significatif du nombre[réf. souhaitée]. Cette surreprésentation tend à s'annuler au-delà.

Les exemples illustrant cette loi sont nombreux : ainsi dans la suite des 100 premiers carrés, la fréquence des nombres commençant par 1 est nettement supérieure à la fréquence des carrés commençant par 2, 3, 4, etc. En constituant la liste de 100 nombres, produits de deux ou trois nombres tirés au hasard (dans un grand intervalle), de nouveau la fréquence des nombres commençant par 1 est nettement plus élevée que les autres fréquences.

Les suites numériques qui se comportent exactement comme le stipule la loi de Benford sont, en fait, assez rares. Parmi celles-ci, on peut citer la suite de Fibonacci. Dans la vie réelle, la décroissance des probabilités suivant le premier chiffre est largement constatée, mais la convergence vers les valeurs de la loi de Benford n'est qu'approximative.

Au contraire, cette loi n'est pas vérifiée si la série de données comporte des contraintes quant à l'échelle des valeurs vraisemblables : par exemple, la taille des individus, lorsqu'elle est exprimée dans le système métrique, ne suit, à l'évidence, pas la loi de Benford puisque la quasi-totalité des mesures commence par le chiffre « 1 ».

Explication[modifier | modifier le code]

La loi s'explique facilement dans le cadre bayésien, où la probabilité représente la simple traduction numérique d'un état de connaissance.

Si la distribution de probabilité du premier nombre existe, elle ne doit pas dépendre du type d'unité utilisé, et elle doit donc rester invariante si l'on multiplie tous les éléments de la table par une constante (changement d'unité). Seule la distribution logarithmique répond à cette contrainte.

Cela signifie qu'un nombre aura autant de chances d'être entre 100 et 1 000 (logarithme entre 2 et 3) qu'il a de chances de se trouver entre 10 000 et 100 000 (logarithme entre 4 et 5). Pour de nombreux ensembles de nombres, et tout particulièrement ceux qui n'ont pas d'ordre de grandeur imposé, comme les chiffres d'affaires d'entreprises et les cours de bourse[11][réf. nécessaire], cette supposition est raisonnable.

Donald Knuth donne une démonstration de cette loi dans le tome 2 de son The Art of Computer Programming, nommé Seminumerical Algorithms. Cette démonstration a été redonnée par d'autres sans citer Knuth[12].

En 1994, Boyle montre que si une variable résulte de la multiplication entre elles d'un grand nombre de variables indépendantes, alors elle suit à peu près la loi de Benford (exactement à la limite)[13],[2]. C'est un analogue multiplicatif de ce qu'est le Théorème central limite en additif.

En 2008, Nicolas Gauvrit et Jean-Paul Delahaye redonnent une explication de la loi de Benford[2] en rappelant que le caractère étalé et régulier de la plupart des variables utilisées explique cette loi[14]. Ils suggèrent d'ailleurs qu'un équivalent de cette loi fondé sur d'autres fonctions que le logarithme fonctionnerait tout aussi bien[2].

Ébauche de démonstration[modifier | modifier le code]

Il s'agit essentiellement de la démonstration donnée par Knuth, présentée de façon plus abstraite et peut-être moins accessible[15].

Choisissons un nombre réel strictement positif appartenant à un intervalle I.

Pour son écriture décimale, on cherche la probabilité de son premier chiffre non nul, indépendamment de toute autre caractéristique.

Cela correspond à la recherche d'une mesure m sur l'ensemble I, supposé mesurable, avec :

  1. P(\mathrm{1^{er}~chiffre = 1}) = \frac{m( I\cap\{\ldots\cup[10;20[\cup[1;2[\cup[0.1;0.2[\cup[0.01;0.02[\cup[0.001;0.002[\cup\ldots\})}{m(I)}
  2. P(\mathrm{1^{er}~chiffre = 2}) = \frac{m( I\cap\{\ldots\cup[20;30[\cup[2;3[\cup[0.2;0.3[\cup[0.02;0.03[\cup[0.002;0.003[\cup\ldots\})}{m(I)}
  3. P(\mathrm{1^{er}~chiffre = 3}) = \frac{m( I\cap\{\ldots\cup[30;40[\cup[3;4[\cup[0.3;0.4[\cup[0.03;0.04[\cup[0.003;0.004[\cup\ldots\})}{m(I)}
  4. etc.

On suppose que I est construit comme une union de produits de l'intervalle [1;10[ par des réels ai > 0 ; c'est-à-dire : I = ∪ ai × [1;10[ pour des ai > 0. Donc, on travaille dans le groupe multiplicatif des réels strictement positifs (car c'est ainsi que la topologie de ce groupe est construite).

L'ensemble des réels strictement positifs muni de la multiplication étant un groupe topologique séparable et localement compact, il existe une et une seule mesure (à un coefficient multiplicateur près) qui soit invariante par la loi de groupe : la mesure de Haar du groupe.

Cette mesure est m = dx/x.

Prenons I = [1;10[, on a :

m(I) = \int_1^{10} \frac{\mathrm dx}{x} = \ln(10) - \ln(1) = \ln(10)

Et on a :

P(\mathrm{1^{er}~chiffre} = k) = \frac{m( [k;k+1[)}{m(I)} = \ldots = \frac{\ln(k+1)-\ln(k)}{\ln10} = \frac{\ln(1+\frac{1}{k})}{\ln10}

Comme la mesure m est invariante par le produit, en prenant I = ∪ ai × [1;10[ avec a_i =10^n , on arrive au même résultat.

Notes et références[modifier | modifier le code]

  1. L'univers des nombres, Ian Stewart, éd. Belin, 2000, p. 59
  2. a, b, c, d et e Nicolas Gauvrit et Jean-Paul Delahaye, « Pourquoi la loi de Benford n'est pas mystérieuse », Mathématiques et Sciences Humaines, no 182,‎ été 2008, p. 7-15 (lire en ligne)
  3. Ted Hill, « Le premier chiffre significatif fait sa loi », La Recherche, no 316,‎ janvier 1999, p. 73 (lire en ligne)
  4. (en) Hal Varian, « Benford's Law », The American Statistician, vol. 26, no 3,‎ juin 1972, p. 65-66 (lire en ligne)
  5. Hors série de La Recherche sur les nombres, Ted Hill, Le premier chiffre significatif fait sa loi, page 75.
  6. (en) Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel, « Fact and Fiction in EU-Governmental Economic Data », German Economic Review, vol. 12, no 3,‎ août 2011, p. 243-255 (lire en ligne)
  7. « Un économiste soupçonne la Belgique d’avoir falsifié ses comptes », Le Soir,‎ 25 octobre 2011
  8. Tests de détection de fraudes pour la votation du 3 mars 2013. Chancellerie d'Etat du Canton de Genève, 24 avril 2013.
  9. (en) Joseph Deckert, Mikhail Myagkov et Peter Ordeshook, « Benford's Law and the Detection of Election Fraud », Political Analysis, vol. 19, no 3,‎ 2011, p. 245-268 (lire en ligne)
  10. Le livre des nombres, Tim Glynne-Jones, éd. City éditions, 2010 (ISBN 978-2-35288-407-1), p. 13
  11. Toutefois, des entreprises comme Air liquide ont pour politique de distribuer des actions gratuites pour maintenir leurs cours dans une certaine fourchette, ce qui ne rend pas la valeur candidate à cette loi
  12. Theodore P. Hill, Base invariance implies Benford's Law, Proceedings of the American Mathematical Society 123, 887-895 (1995). Free web link.
  13. Boyle, J. "An Application of Fourier Series to the Most Significant Digit Problem." Amer. Math. Monthly 101, 879-886, 1994.
  14. Les distances commencent le plus souvent par le chiffre 1, Science et Vie, août 2010, page 61.
  15. La loi de Benford

Bibliographie[modifier | modifier le code]

  • Frank Benford, The law of anomalous numbers, Proceedings of the American Philosophical Society, 78 (1938), p. 551
  • Ted Hill, The first digit phenomenon, American Scientist 86 (July-August 1998), p. 358.
  • Hal Varian, Benford's law, American Statistician 26, p.65.
  • JP Delahaye, L'étonnante loi de Benford, Pour la Science, janvier 2007, p90-95

Sur les autres projets Wikimedia :