Donnée aberrante

Un article de Wikipédia, l'encyclopédie libre.
Boîte à moustaches issue des données obtenues grâce à l'expérience de Michelson-Morley. Il y a 4 données aberrantes dans la colonne du milieu et 1 dans la 1re colonne.
Ce graphique permet de visualiser la répartition de doyens selon leur âge de décès et l'âge de décès moyen des doyens de leur époque. Le record de longévité de Jeanne Calment constitue une anomalie statistique qui continue d'intriguer les gérontologues.

En statistique, une donnée aberrante (anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées[1],[2]. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées[3].

Les données aberrantes peuvent apparaître par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure, soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer « mesure correcte » contre « erreur de mesure » : ce phénomène peut être modélisé au travers d'un modèle de mélange.

Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquer une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique. Cependant, dans de grands échantillons, un petit nombre de données aberrantes est attendu (qui n'est dû à aucune condition anormale).

Les données aberrantes, regroupant les valeurs les plus extrêmes, peuvent inclure la valeur maximale ou la valeur minimale, ou les deux: cela dépend si ces valeurs sont extrêmement élevées ou faibles. Cependant, les valeurs maximum et minimum ne sont pas toujours des données aberrantes car elles peuvent ne pas être trop éloignées des autres valeurs.

Une interprétation statistique naïve d'une série de données contenant des données aberrantes peut être trompeuse et induire en erreur. Par exemple, si une personne décide de calculer la température moyenne de 10 objets dans une pièce, et que 9 d'entre eux ont une température située entre 20 et 25 degrés Celsius mais que le dernier est un four en marche à 175 °C, la médiane de la série sera située entre 20 et 25 °C mais la température moyenne sera entre 35,5 et 40 °C. Dans ce cas, la médiane est un meilleur indicateur de la température des objets que la moyenne. Il est incorrect de penser que la moyenne et la médiane sont des indicateurs équivalents. Comme illustré dans cet exemple, le caractère aberrant de certaines données peut révéler leur appartenance à une population différente du reste des valeurs de la série.

Les indicateurs ou estimateurs capables de composer avec les données aberrantes sont dits robustes: la médiane est un indicateur robuste tandis que la moyenne n'en est pas un[4].

Évènement et causes[modifier | modifier le code]

Pour une distribution normale, 68,27% des valeurs sont comprises dans l'intervalle [µ-σ;µ+σ], 95,45% sont comprises dans l'intervalle [µ-2σ;µ+2σ] et 99,73% sont comprises dans l'intervalle [µ-3σ;µ+3σ].

Dans le cas de données normalement distribuées, la règle des trois sigmas indique qu'à peu près 1 observation sur 22 aura un écart avec la moyenne égal ou supérieur à 2 fois l'écart-type et qu'environ 1 observation sur 370 aura un écart avec la moyenne égal ou supérieur à 3 fois l'écart-type[5]. Ainsi, cette loi empirique nous permet de déterminer si le nombre de données aberrantes trouvées est normal ou s'il faut rechercher une autre cause que celle du hasard statistique. Par exemple, dans un échantillon de 1000 valeurs, le fait de trouver 5 données aberrantes qui diffèrent de la moyenne d'un écart supérieur à 3 fois l'écart-type est « normal » - voir la distribution de Poisson - et ne suggère aucune anomalie dans la série de valeurs. Cependant, si la taille de l'échantillon est de 100 valeurs, le fait de trouver seulement 3 données aberrantes suffit à montrer qu'il y a une raison autre que le simple hasard (valeurs issues d'une autre population ou biais du modèle...) car cela représente plus de 11 fois le nombre attendu avec la règle des trois sigmas.

En général, si la nature de la distribution de la population est connue a priori, il est possible de tester si le nombre de données aberrantes diffère significativement de ce qui est attendu: pour un seuil donné (donc les valeurs ont une probabilité p de se situer dans l'intervalle [-seuil;seuil]) d'une distribution donnée, le nombre de données aberrantes suivra une distribution binomiale de paramètre p, qui peut généralement être approximée par une distribution de Poisson de paramètre λ = pn. Ainsi, si l'on prend une distribution normale avec un seuil à 3 écart-types de la moyenne, p est d'environ 0,3%, et donc pour 1000 valeurs, on peut approximer le nombre de valeurs dont l'écart est supérieur au seuil (donc 3σ) par une distribution de Poisson avec λ = 3.

Causes[modifier | modifier le code]

Les données aberrantes peuvent avoir de multiples causes. Un appareil de mesure peut avoir un défaut de fonctionnement passager. Il peut y avoir une erreur dans la transmission ou dans la retranscription des données. Il peut y avoir eu un changement dans les procédures, un comportement frauduleux ou une erreur humaine. Un échantillon peut aussi avoir été « contaminé » par des individus n'appartenant pas à la population étudiée. Attention ! une donnée peut sembler aberrante alors qu'elle n'est qu’extrême et compatible avec les variations naturelles d'une population. Son caractère apparemment aberrant peut aussi révéler la mauvaise adéquation du modèle statistique utilisé pour interpréter les données, appelant à une enquête plus approfondie par le chercheur. L'aspect pathologique des données aberrantes d'une certaine forme (le mot pathologique est utilisé dans le sens où, quelles que soient les conditions de l'expérience, il y aura toujours des données extrêmes dues au hasard), qui apparaît dans une variété de séries de valeurs, peut indiquer que le mécanisme causal diffère entre les données aux extrémités de la série (King effect).

Identifier des données aberrantes[modifier | modifier le code]

Il n'y a pas de définition mathématique claire sur ce qu'est une donnée aberrante. Déterminer si une observation est ou n'est pas une donnée aberrante est un exercice très subjectif. Il existe cependant des méthodes variées pour la détection des données aberrantes[6],[7],[8]. Quelques-unes sont graphiques telles que la technique de la droite de Henry, d'autres sont basées sur des modèles, la technique des boites à moustaches est un hybride.

Comparaison des écarts à l'écart-type[modifier | modifier le code]

Les méthodes basées sur des modèles sont utilisées pour l'identification des données aberrantes lorsque les données sont issues d'une distribution normale. Ces méthodes identifient les observations qui sont considérées comme « peu probables » sur la base de la moyenne et de l'écart-type :

  • test de Chauvenet ;
  • test de Grubbs ;
  • MMS[9], test d'identification des données aberrantes en régression linéaire ;
  • test de Peirce (en)[10],[11],[12],[13].
    « Il est proposé de déterminer dans une série de observations le seuil à partir duquel toutes les observations peuvent être rejetées, à condition qu'il y ait un nombre d'observations rejetées. On résout ce problème en considérant que les observations doivent être rejetées lorsque la probabilité d'erreur obtenue en les conservant est inférieure à la probabilité d'erreur obtenue en les rejetant multipliée par la probabilité de faire autant, et pas plus, d'observations anormales » (phrase citée dans l'éditorial à la page 516 sur Peirce (édition de 1982) du A Manual of Astronomy 2:558 de Chauvenet) ;
  • test Q de Dixon ;
  • les conventions E178 énoncées par l'ASTM International pour traiter les données aberrantes ;
  • la distance de Mahalanobis et la technique de l'influence sont souvent utilisées pour détecter les données aberrantes, particulièrement lors du développement de modèle de régression linéaire.

Autres appréciations de la variabilité[modifier | modifier le code]

D'autres méthodes existent également et sont basées sur des mesures telles que l'écart interquartile. Par exemple, si et sont respectivement le premier quartile et le troisième quartile, alors on peut définir une donnée aberrante comme étant toute valeur située à l'extérieur de l'intervalle:

avec une constante positive.

Dans la tâche d'exploration de données consistant en la détection d'anomalies, d'autres approches sont basées sur des distances[14],[15] ou sur la densité[16], et un grand nombre d'entre elles utilisent la méthode des k plus proches voisins pour identifier une valeur comme étant une donnée aberrante ou non[17].

Test Tau de Thompson modifié[modifier | modifier le code]

Le test Tau de Thompson modifié[18] est une méthode utilisée pour déterminer s'il existe des données aberrantes dans une série de valeurs. La force de cette méthode réside dans le fait qu'elle prend en compte l'écart-type et la moyenne de la série et fournit un seuil de rejet déterminée statistiquement ; cela offre donc une méthode objective pour déterminer si une valeur est une donnée aberrante.

Déroulement du test: Premièrement, on détermine la moyenne de la série. Ensuite, on détermine l'écart à la moyenne de chaque valeur. Puis, un seuil de rejet est déterminé en utilisant la formule suivante : ; où est la valeur critique provenant de la table de la Loi de Student, est l'effectif de l'échantillon et est l'écart-type de l'échantillon.

Pour déterminer si une valeur est une donnée aberrante, calculer δ =  :

si δ > Seuil, la valeur est une donnée aberrante ;
si δ ≤ Seuil, la valeur n'est pas une donnée aberrante.

Le test Tau de Thompson modifié est utilisé pour trouver une donnée aberrante à la fois (la plus grande valeur de δ est changée si c'est une donnée aberrante). En ce sens, si une valeur est calculée comme étant une valeur aberrante, elle est enlevée de la série de valeurs et le test est appliqué à nouveau avec une nouvelle moyenne et un nouveau seuil de rejet. Ce procédé est renouvelé jusqu'à ce qu'il n'y ait plus de données aberrantes dans la série.

Autres approches[modifier | modifier le code]

Certains travaux ont également tenté de décrire les données aberrantes pour des séries de valeurs nominales. Par exemple, dans un contexte d'une série d'exemples (ou de cas) dans une série de valeurs, on crée un indicateur nommé la solidité des cas qui mesure la probabilité qu'un cas soit mal classé ( est le terme assigné à la classe et représente la valeur attribuée à un cas dans la série d'exemples )[19]. Idéalement, la solidité des cas sera calculée en faisant la somme sur la série de toutes les hypothèses possibles:

De manière pratique, cette formule est irréalisable car est potentiellement infinie et calculer est impossible pour bon nombre d'algorithmes. Ainsi, la robustesse des cas peut être approximée en utilisant un sous-ensemble :

est l'hypothèse induite par l'algorithme d'apprentissage formé sur la série de valeurs avec des hyperparamètres . La solidité des cas fournit une valeur continue pour déterminer si un cas est une donnée aberrante.

Travailler avec des données aberrantes[modifier | modifier le code]

Le choix de composer ou non avec une donnée aberrante dépend de la cause de cette dernière.

Conservation de la donnée aberrante[modifier | modifier le code]

Même quand un modèle de distribution normale est approprié pour analyser des valeurs, des données aberrantes sont attendues pour de grands échantillons et elle ne doivent pas être automatiquement exclues. En effet, il est préférable d'utiliser des algorithmes robustes face aux données aberrantes plutôt que des modèles qui écartent systématiquement ces valeurs.

Exclusion de la donnée aberrante[modifier | modifier le code]

La suppression des données aberrantes est une pratique controversée désapprouvée par de nombreux scientifiques et professeurs; tant qu'il n'y aura pas de critères mathématiques permettant d'offrir une méthode objective et quantitative pour le rejet de valeurs, il sera impossible de rendre la pratique de suppression des données aberrantes scientifiquement et méthodologiquement plus acceptable. En particulier pour les petits échantillons et si la nature de la distribution est inconnue et ne peut être approximée par une loi normale. Le rejet de données aberrantes est plus acceptable si le modèle sous-jacent au phénomène a été mesuré et que la distribution des erreurs de mesures est connue précisément. Une donnée aberrante résultant d'un instrument dont on sait qu'il fait des erreurs peut être exclue mais il est préférable de vérifier avant si l'instrument fait réellement des erreurs.

Les deux approches les plus utilisées pour exclure les données aberrantes sont la méthode de césure (ou tronquage) et de Winsorising. La césure élimine les données aberrantes alors que le Winsorising remplace les données aberrantes par les valeurs « non suspectes » les plus proches[20]. L'exclusion peut aussi être une conséquence du processus de mesure. En effet, si lors d'une expérience un instrument n'est pas capable de mesurer de telles valeurs extrêmes, il en résulte des valeurs censurées[21].

Dans des problèmes de régression, une autre approche consiste à exclure uniquement les valeurs qui présentent un haut degré d'influence sur les coefficients estimés, notamment en utilisant une mesure telle que la distance de Cook[22].

Si une valeur (ou donnée) est exclue de l'analyse des données, cela doit être clairement indiqué sur tous les rapports émanant de l'analyse.

Distributions non-normales[modifier | modifier le code]

Il faut également considérer que les valeurs de la série étudiée ne suivent pas une distribution normale et qu'elles peuvent avoir des « queues épaisses ». Par exemple, lors de l'échantillonnage à partir d'une distribution de Cauchy[23], la variance augmente avec la taille de l'échantillon, la moyenne de l'échantillon est biaisée et ne converge pas lorsque la taille de l'échantillon augmente. De plus, les données aberrantes sont attendues à un taux beaucoup plus important que pour une distribution normale. Même une légère différence dans l'épaisseur de la queue peut créer une importante différence dans le nombre de valeurs extrêmes attendues.

Les incertitudes d'appartenance à l'ensemble[modifier | modifier le code]

intersection q-relâchée de 6 ensembles pour q= 2 (rouge), q= 3 (vert), q= 4 (bleu) et q= 5 (jaune).

Une approche d'appartenance à l'ensemble considère que l'incertitude correspondant à la mesure d'une variable aléatoire x est représentée par un ensemble Xi (au lieu d'une fonction de densité de probabilité). Si aucune donnée aberrante n’apparaît, x appartient à l'intersection de tous les Xi. Si une donnée aberrante apparaît, cette intersection est vide et nous relâchons un petit nombre de Xi (aussi petit que possible) afin d'éviter toute incohérence[24]. Cela peut être fait en utilisant la notion d'intersection q-relâchée. Comme illustré par la figure, l'intersection q-relâchée correspond à l'ensemble de tous les x qui appartiennent à tous les ensembles Xi exceptés q d'entre eux. Les ensembles Xi qui ne coupent pas l'intersection q-relâchée peuvent être soupçonnés de rassembler des données aberrantes.

Autres modèles[modifier | modifier le code]

Dans le cas où la cause des données aberrantes est connue, il peut être possible d'incorporer cet effet dans le modèle. Par exemple en utilisant un modèle hiérarchique de Bayes ou un modèle de mélange[25],[26].

Notes et références[modifier | modifier le code]

  1. (en) F. E. Grubbs, « Procedures for detecting outlying observations in samples », Technometrics, vol. 11, no 1,‎ , p. 1–21 (DOI 10.1080/00401706.1969.10490657) :

    « An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs. »

  2. (en) G. S. Maddala, Introduction to Econometrics, New York, MacMillan, , 2e éd., 631 p. (ISBN 0-02-374545-2, lire en ligne), « Outliers », p. 88–96 [p. 89]

    « An outlier is an observation that is far removed from the rest of the observations. »

  3. Grubbs 1969, p. 1 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
  4. Ripley, Brian D. 2004. Robust statistics
  5. (en) Da Ruan, Guoqing Chen, Etienne Kerre et Geert Wets, Intelligent Data Mining : Techniques and Applications, Springer, coll. « Studies in Computational Intelligence Vol. 5 », , 518 p. (ISBN 978-3-540-26256-5, lire en ligne), p. 318
  6. (en) Peter Rousseeuw et A. Leroy, Robust Regression and Outlier Detection, John Wiley & Sons, , 3e éd.
  7. (en) J. Victoria Hodge et Jim Austin, A Survey of Outlier Detection Methodologies,
  8. (en) Vic Barnett et Toby Lewis, Outliers in Statistical Data, Chichester/New York/Brisbane etc., Wiley, , 3e éd., 584 p. (ISBN 0-471-93094-6)
  9. (en) K.K.L.B. Adikaram, M.A. Hussein, M. Effenberger et T. Becker, « Outlier Detection Method in Linear Regression Based on Sum of Arithmetic Progression », The Scientific World Journal,‎ (DOI 10.1155/2014/821623)
  10. Benjamin Peirce, "Criterion for the Rejection of Doubtful Observations", Astronomical Journal II 45 (1852) and Errata to the original paper.
  11. (en) Benjamin Peirce, « On Peirce's criterion », Proceedings of the American Academy of Arts and Sciences, vol. 13,‎ mai 1877–mai 1878, p. 348–351 (DOI 10.2307/25138498, JSTOR 25138498)
  12. (en) Charles Sanders Peirce, « Appendix No. 21. On the Theory of Errors of Observation », Report of the Superintendent of the United States Coast Survey Showing the Progress of the Survey During the Year 1870,‎ , p. 200–224. NOAA PDF Eprint (goes to Report p. 200, PDF's p. 215).
  13. (en) Charles Sanders Peirce, « On the Theory of Errors of Observation [Appendix 21, according to the editorial note on page 515] », dans Kloesel, Christian J. W., et alia, Writings of Charles S. Peirce: A Chronological Edition, vol. 3 : 1872-1878, Bloomington, Indiana, Indiana University Press, (1re éd. 1982), 140–160 p. (ISBN 0-253-37201-1)
  14. (en) E. M. Knorr, R. T. Ng et V. Tucakov, « Distance-based outliers: Algorithms and applications », The VLDB Journal the International Journal on Very Large Data Bases, vol. 8, nos 3–4,‎ , p. 237 (DOI 10.1007/s007780050006)
  15. (en) S. Ramaswamy, R. Rastogi et K. Shim « Efficient algorithms for mining outliers from large data sets » () (DOI 10.1145/342009.335437)
    Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00
  16. (en) M. M. Breunig, H.-P. Kriegel, R. T. Ng et J. Sander « LOF: Identifying Density-based Local Outliers » () (DOI 10.1145/335191.335388, lire en ligne)
    « (ibid.) », Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data,‎ , p. 93-104
  17. (en) E. Schubert, A. Zimek et H. -P. Kriegel, « Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection », Data Mining and Knowledge Discovery,‎ (DOI 10.1007/s10618-012-0300-z)
  18. (en) John M. Cimbala, « Outliers », sur mne.psu.edu, .
  19. Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "An Instance Level Analysis of Data Complexity". Machine Learning, 95(2): 225-256.
  20. (en) Edward L. Wike, Data Analysis : A Statistical Primer for Psychology Students, , 256 p. (ISBN 978-0-202-36535-0, lire en ligne), p. 24–25
  21. (en) W. J. Dixon, « Simplified estimation from censored normal samples », The Annals of Mathematical Statistics, vol. 31, no 2,‎ , p. 385–391 (DOI 10.1214/aoms/1177705900, lire en ligne)
  22. Cook, R. Dennis (Feb 1977). "Detection of Influential Observations in Linear Regression". Technometrics (American Statistical Association) 19 (1): 15–18.
  23. Weisstein, Eric W. Cauchy Distribution. From MathWorld--A Wolfram Web Resource
  24. (en) L. Jaulin, « Probabilistic set-membership approach for robust regression », Journal of Statistical Theory and Practice,‎ (lire en ligne)
  25. Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.
  26. (en) C. M. Bishop, « Novelty detection and Neural Network validation », Proceedings of the IEE Conference on Vision, Image and Signal Processing, vol. 141, no 4,‎ , p. 217–222 (DOI 10.1049/ip-vis:19941330)

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]