Donnée aberrante

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Boîte à moustache issues des données obtenues grâce à l'expérience de Michelson-Morley. Il y a 4 données aberrantes dans la colonne du milieu et 1 dans la 1re colonne.

En statistiques, une donnée aberrante est une valeur ou une observation qui est "distante" des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs "normalement" mesurées[1],[2]. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé ou bien elle peut aussi indiquer une erreur expérimentale. Les dernières sont parfois exclues de la série de données[3].

Les données aberrantes peuvent apparaitre par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer "mesure correcte" contre "erreur de mesure": ce phénomène peut être modéliser au travers d'un modèle de mélange.

Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquées une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique. Cependant, dans de grands échantillons, un petit nombre de données aberrantes est attendu (qui n'est dû à aucune condition anormale).

Les données aberrantes, regroupant les valeurs les plus extrêmes, peuvent inclure la valeur maximale ou la valeur minimale, ou les deux: cela dépend si ces valeurs sont extrêmement élevées ou faibles. Cependant, les valeurs maximum et minimum ne sont pas toujours des données aberrantes car elles peuvent ne pas être trop éloignées des autres valeurs.

Une interprétation statistique naïve d'une série de données contenant des données aberrantes peut être trompeuse et induire en erreur. Par exemple, si une personne décide de calculer la température moyenne de 10 objets dans une pièce, et que 9 d'entre eux ont une température située entre 20 et 25 degrés Celsius mais le dernier est un four en marche à 175°C. La médiane de la série sera située entre 20 et 25°C mais la température moyenne sera entre 35,5 et 40°C. Dans ce cas, la médiane est un meilleur indicateur de la température des objets que la moyenne. Il est incorrect de penser que la moyenne et la médiane sont des indicateurs équivalents. Comme illustré dans cet exemple, les données aberrantes peuvent indiquer des valeurs qui appartiennent à une population différente que le reste des valeurs de la série.

Les indicateurs ou estimateurs capables de composer avec les données aberrantes sont dits robustes: la médiane est un indicateur robuste tandis que la moyenne n'en est pas un[4].

Évènement et causes[modifier | modifier le code]

Pour une distribution normale, 68,27% des valeurs sont comprises dans l'intervalle [µ-σ;µ+σ], 95,45% sont comprises dans l'intervalle [µ-2σ;µ+2σ] et 99,73% sont comprises dans l'intervalle [µ-3σ;µ+3σ].

Dans le cas de données normalement distribuées, la règle des trois sigmas indique qu'à peu près 1 observation sur 22 aura un écart avec la moyenne égal ou supérieur à 2 fois l'écart-type et qu'environ 1 observation sur 370 aura un écart avec la moyenne égal ou supérieur à 3 fois l'écart-type[5]. Ainsi, cette loi empirique nous permet de déterminer si le nombre de données aberrantes trouvées est normal ou s'il faut rechercher une autre cause que celle du hasard statistique. Par exemple, dans un échantillon de 1000 valeurs, le fait de trouver 5 données aberrantes qui diffèrent de la moyenne d'un écart supérieur à 3 fois l'écart-type est "normal" - voir la distribution de Poisson - et ne suggère aucune anomalie dans la série de valeurs. Cependant, si la taille de l'échantillon est de 100 valeurs, le fait de trouver seulement 3 données aberrantes suffit à montrer qu'il y a une raison autre que le simple hasard (valeurs issues d'une autre population ou biais du modèle...) car cela représente plus de 11 fois le nombre attendu avec la règle des trois sigmas.

En général, si la nature de la distribution de la population est connue a priori, il est possible de tester si le nombre de données aberrantes diffère significativement de ce qui est attendu: pour un seuil donné (donc les valeurs ont une probabilité p de se situer dans l'intervalle [-seuil;seuil]) d'une distribution donnée, le nombre de données aberrantes suivra une distribution binomiale de paramètre p, qui peut généralement être approximée par une distribution de Poisson de paramètre λ = pn. Ainsi, si l'on prend une distribution normale avec un seuil à 3 écart-types de la moyenne, p est d'environ 0,3%, et donc pour 1000 valeurs, on peut approximer le nombre de valeurs dont l'écart est supérieur au seuil (donc 3σ) par une distribution de Poisson avec λ = 3.

Causes[modifier | modifier le code]

Les données aberrantes peuvent avoir de multiples causes. Un appareil de mesure peut avoir un défaut de fonctionnement passager. Il peut y avoir une erreur dans la transmission ou dans la retranscription des données. Les données aberrantes surviennent à cause d'un changement dans les procédures, d'un comportement frauduleux, d'une erreur humaine ou simplement à cause de variations naturelles dans les populations. Un échantillon peut avoir été "contaminé" avec des individus n'appartenant pas à la population étudiée. Également, une donnée aberrante pourrait être le résultat d'un biais du modèle, appelant à une enquête plus approfondie par le chercheur. De plus, l'aspect pathologique des données aberrantes d'une certaine forme (le mot pathologique est utilisée dans le sens où quelles que soient les conditions de l'expérience, il y aura toujours des données aberrantes dues au hasard: c'est une pathologie de toute expérience statistique) apparait dans une variété de série de valeurs ce qui indique que le mécanisme causal diffère entre les données aux extrémités de la série (King effect)

Identifier des données aberrantes[modifier | modifier le code]

Il n'y a pas de définition mathématique claire sur ce qu'est une donnée aberrante. Déterminer si une observation est ou n'est pas une donnée aberrante est un exercice très subjectif. Il existe cependant des méthodes variées pour la détection des données aberrantes[6],[7],[8]. Quelques-unes sont graphiques telles que la technique de la droite de Henry, d'autres sont basées sur des modèles, la technique des boites à moustaches est un hybride.

Les méthodes basées sur des modèles sont utilisées pour l'identification des données aberrantes lorsque les données sont issues d'une distribution normale. Ces méthodes identifient les observations qui sont considérées comme «peu probables» sur la base de la moyenne et l'écart-type.

Il est proposé de déterminer dans une série de m observations le seuil à partir duquel toutes les observations peuvent être rejetées, à condition qu'il y ait un nombre n d'observations rejetées. On résout ce problème en considérant que les observations doivent être rejetées lorsque la probabilité d'erreur obtenue en les conservant est inférieure à la probabilité d'erreur obtenue en les rejetant multipliée par la probabilité de faire autant, et pas plus, d'observations anormales (Phrase citée dans l'éditorial à la page 516 sur Peirce (édition de 1982) du A Manual of Astronomy 2:558 de Chauvenet.)

D'autres méthodes existent également et sont basées sur des mesures telles que l'écart interquartile. Par exemple, si Q_1 et Q_3 sont respectivement le premier quartile et le troisième quartile, alors on peut définir une donnée aberrante comme étant toute valeur située à l'extérieur de l'intervalle:

 \big[ Q_1 - k (Q_3 - Q_1 ) , Q_3 + k (Q_3 - Q_1 ) \big]

avec k une constante positive.

Dans la tâche d'exploration de données consistant en la détection d'anomalies, d'autres approches sont basées sur des distances[14],[15] ou sur la densité[16], et un grand nombre d'entre elles utilisent la méthode des k plus proches voisins pour identifier une valeur comme étant une donnée aberrante ou non[17].

  • Le Test Tau de Thompson modifié[18].

Le Test Tau de Thompson modifié est une méthode utilisée pour déterminer si il existe des données aberrantes dans une série de valeurs. La force de cette méthode réside dans le fait qu'elle prend en compte l'écart-type et la moyenne de la série et fournit un seuil de rejet déterminée statistiquement; cela offre donc une méthode objective pour déterminer si une valeur est une donnée aberrante.

Déroulement du test: Premièrement, on détermine la moyenne de la série. Ensuite, on détermine l'écart à la moyenne de chaque valeur. Puis, un seuil de rejet est déterminé en utilisant la formule suivante: Seuil{{=}} \frac{{t_{\alpha/2}}{\left ( n-1 \right )}}{\sqrt{n}\sqrt{n-2+{t_{\alpha/2}^2}}}
; où {t_{\alpha/2}} est la valeur critique provenant de la table de la Loi de Student, n est l'effectif de l'échantillon et s est l'écart-type de l'échantillon.

Pour déterminer si une valeur est une donnée aberrante: Calculer δ = \frac{X - \bar{x}}{s}.

Si δ > Seuil, la valeur est une donnée aberrante.
Si δ ≤ Seuil, la valeur n'est pas une donnée aberrante.

Le Test Tau de Thompson modifié est utilisé pour trouver une donnée aberrante à la fois (la plus grande valeur de δ est changée si c'est une donnée aberrante). En ce sens, si une valeur est calculée comme étant une valeur aberrante, elle est enlevée de la série de valeur et le test est appliqué à nouveau avec une nouvelle moyenne et un nouveau seuil de rejet. Ce procédé est renouvelé jusqu'à ce qu'il n'y ait plus de données aberrantes dans la série.

Certains travaux ont également tenté de décrire les données aberrantes pour des série de valeur nominales. Par exemple, dans un contexte d'une série d'exemples (ou de cas) dans une série de valeurs, on crée un indicateur nommé la solidité des cas qui mesure la probabilité qu'un cas soit mal classé (1-p(y|x)y est le terme assigné à la classe et x représente la valeur attribuée à un cas dans la série d'exemples t)[19]. Idéalement, la solidité des cas sera calculée en faisant la somme sur la série de toutes les hypothèses H possibles:

\begin{align}IH(\langle x, y\rangle) &= \sum_H (1 - p(y, x, h))p(h|t)\\
&= \sum_H p(h|t) - p(y, x, h)p(h|t)\\
&= 1- \sum_H p(y, x, h)p(h|t).\end{align}

De manière pratique, cette formule est irréalisable car H est potentiellement infinie et calculer p(h|t) est impossible pour bon nombre d'algorithmes. Ainsi, la robustesse des cas peut être approximée en utilisant un sous-ensemble L \subset H:

IH_L (\langle x,y\rangle) = 1 - \frac{1}{|L|} \sum_{j=1}^{|L|} p(y|x, g_j(t, \alpha)

g_j(t, \alpha) est l'hypothèse induite par l'algorithme d'apprentissage g_j formé sur la série de valeurs t avec des hyperparamètres \alpha. La solidité des cas fournit une valeur continue pour déterminer si un cas est une donnée aberrante.

Travailler avec des données aberrantes[modifier | modifier le code]

Le choix de composer ou non avec une donnée aberrante dépend de la cause de cette dernière.

Conservation de la donnée aberrante[modifier | modifier le code]

Même quand un modèle de distribution normale est approprié pour analyser des valeurs, des données aberrantes sont attendues pour de grands échantillons et elle ne doivent pas être automatiquement exclues. En effet, il est préférable d'utiliser des algorithmes robustes face aux données aberrantes plutôt que des modèles qui écartent systématiquement ces valeurs.

Exclusion de la donnée aberrante[modifier | modifier le code]

La suppression des données aberrante est une pratique controversée désapprouvée par de nombreux scientifiques et professeurs; tant qu'il n'y aura pas de critères mathématiques permettant d'offrir une méthode objective et quantitative pour le rejet de valeurs, il sera impossible de rendre la pratique de suppression des données aberrantes scientifiquement et méthodologiquement plus acceptable. En particulier pour les petits échantillons et si la nature de la distribution est inconnue et ne peut être approximée par une loi normale. Le rejet de données aberrantes est plus acceptable si le modèle sous-jacent au phénomène a été mesuré et que la distribution des erreurs de mesures est connue précisément. Une donnée aberrante résultant d'un instrument dont on sait qu'il fait des erreurs peut être exclue mais il est préférable de vérifier avant si l'instrument fait réellement des erreurs.

Les deux approches les plus utilisées pour exclure les données aberrantes sont la méthode de césure (ou tronquage) et de Winsorising. La césure élimine les données aberrantes alors que le Winsorising remplace les données aberrantes par les valeurs "non-suspectes" les plus proches[20]. L'exclusion peut aussi être une conséquence du processus de mesure. En effet, si lors d'une expérience, un instrument n'est pas capable de mesurer de telles valeurs extrêmes, il en résulte des valeurs censurées[21].

Dans des problèmes de régression , une autre approche consiste en uniquement exclure les valeurs qui présentent un haut degré d'influence sur les coefficients estimés, notamment en utilisant une mesure telle que la distance de Cook[22].

Si une valeur (ou donnée) est exclue de l'analyse des données, cela doit être clairement indiqué sur tous les rapports émanant de l'analyse.

Distributions non-normales[modifier | modifier le code]

Il faut également considérer que les valeurs de la série étudiée ne suivent pas une distribution normale et qu'elles peuvent avoir des "queues épaisses". Par exemple, lors de l'échantillonnage à partir d'une distribution de Cauchy[23], la variance augmente avec la taille de l'échantillon, la moyenne de l'échantillon est biaisée et ne converge pas lorsque la taille de l'échantillon augmente. De plus, les données aberrantes sont attendues à un taux beaucoup plus important que pour une distribution normale. Même une légère différence dans l'épaisseur de la queue peut créer une importante différence dans le nombre de valeurs extrêmes attendues.

Les incertitudes d'appartenance à l'ensemble[modifier | modifier le code]

intersection q-relâchée de 6 ensembles pour q= 2 (rouge), q= 3 (vert), q= 4 (bleu) et q= 5 (jaune).

Une approche d'appartenance à l'ensemble considère l'incertitude correspondant à la mesure d'une variable aléatoire x est représenté par un ensemble Xi (au lieu d'une fonction de densité de probabilité). Si aucune donnée aberrante n’apparait, x appartient à l'intersection de tous les Xi. Si une donnée aberrante apparait, cette intersection est vide et nous relâchons un petit nombre de Xi (aussi petit que possible) afin d'éviter toute incohérence[24] . Cela peut être fait en utilisant la notion d'intersection q-relâchée. Comme illustré par la figure, l'intersection q-relâchée correspond à l'ensemble de tous les x qui appartiennent à tous les ensembles Xi exceptés q d'entre eux. Les ensembles Xi qui ne coupent pas l'intersection q-relâchée peuvent être soupçonnées d'être des données aberrantes.

Autres modèles[modifier | modifier le code]

Dans le cas où la cause des données aberrantes est connue, il peut être possible d'incorporer cet effet dans le modèle. Par exemple en utilisant un modèle hiérarchique de Bayes ou un modèle de mélange[25],[26].

Notes et références[modifier | modifier le code]

  1. (en) F. E. Grubbs, « Procedures for detecting outlying observations in samples », Technometrics, vol. 11, no 1,‎ , p. 1–21 (DOI 10.1080/00401706.1969.10490657) :

    « An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs. »

  2. (en) G. S. Maddala, Introduction to Econometrics, New York, MacMillan,‎ , 88–96 [p. 89] p. (ISBN 0-02-374545-2), « Outliers » :

    « An outlier is an observation that is far removed from the rest of the observations. »

  3. Grubbs 1969, p. 1 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
  4. Ripley, Brian D. 2004. Robust statistics
  5. (en) Da Ruan, Guoqing Chen et Etienne Kerre, Intelligent Data Mining: Techniques and Applications, Springer, coll. « Studies in Computational Intelligence Vol. 5 »,‎ (ISBN 978-3-540-26256-5), p. 318
  6. (en) Peter Rousseeuw et A. Leroy, Robust Regression and Outlier Detection, John Wiley & Sons,‎
  7. (en) J. Victoria Hodge et Jim Austin, A Survey of Outlier Detection Methodologies,‎
  8. (en) Vic Barnett et Toby Lewis, Outliers in Statistical Data, Wiley,‎ (ISBN 0-471-93094-6)
  9. (en) K.K.L.B. Adikaram, M.A. Hussein, M. Effenberger et T. Becker, « Outlier Detection Method in Linear Regression Based on Sum of Arithmetic Progression », The Scientific World Journal,‎ (DOI 10.1155/2014/821623)
  10. Benjamin Peirce, "Criterion for the Rejection of Doubtful Observations", Astronomical Journal II 45 (1852) and Errata to the original paper.
  11. (en) Benjamin Peirce, « On Peirce's criterion », Proceedings of the American Academy of Arts and Sciences, vol. 13,‎ may 1877 – may 1878, p. 348–351 (DOI 10.2307/25138498, JSTOR 25138498)
  12. (en) Charles Sanders Peirce, « Appendix No. 21. On the Theory of Errors of Observation », Report of the Superintendent of the United States Coast Survey Showing the Progress of the Survey During the Year 1870,‎ , p. 200–224. NOAA PDF Eprint (goes to Report p. 200, PDF's p. 215).
  13. (en) Charles Sanders Peirce, Writings of Charles S. Peirce: A Chronological Edition, vol. Volume 3, 1872-1878, Bloomington, Indiana, Indiana University Press,‎ , 140–160 p. (ISBN 0-253-37201-1)
  14. (en) E. M. Knorr, R. T. Ng et V. Tucakov, « Distance-based outliers: Algorithms and applications », The VLDB Journal the International Journal on Very Large Data Bases, vol. 8, no 3–4,‎ , p. 237 (DOI 10.1007/s007780050006)
  15. (en) Ramaswamy, S.; Rastogi, R.; Shim, K. (2000) « Efficient algorithms for mining outliers from large data sets » in Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. : 427. DOI:10.1145/342009.335437. 
  16. (en) Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000) « LOF: Identifying Density-based Local Outliers » : 93-104. DOI:10.1145/335191.335388. 
  17. (en) E. Schubert, A. Zimek et H. -P. Kriegel, « Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection », Data Mining and Knowledge Discovery,‎ (DOI 10.1007/s10618-012-0300-z)
  18. (en) John M. Cimbala, « Outliers »,‎
  19. Smith, M.R.; Martinez, T.; Giraud-Carrier, C. (2014). "An Instance Level Analysis of Data Complexity". Machine Learning, 95(2): 225-256.
  20. (en) Edward L. Wike, Data Analysis: A Statistical Primer for Psychology Students,‎ , 24–25 p. (ISBN 9780202365350)
  21. (en) W. J. Dixon, « Simplified estimation from censored normal samples », The Annals of Mathematical Statistics, vol. 31, no 2,‎ , p. 385–391 (DOI 10.1214/aoms/1177705900, lire en ligne)
  22. Cook, R. Dennis (Feb 1977). "Detection of Influential Observations in Linear Regression". Technometrics (American Statistical Association) 19 (1): 15–18.
  23. Weisstein, Eric W. Cauchy Distribution. From MathWorld--A Wolfram Web Resource
  24. (en) L. Jaulin, « Probabilistic set-membership approach for robust regression », Journal of Statistical Theory and Practice,‎ (lire en ligne)
  25. Roberts, S. and Tarassenko, L.: 1995, A probabilistic resource allocating network for novelty detection. Neural Computation 6, 270–284.
  26. (en) C. M. Bishop, « Novelty detection and Neural Network validation », Proceedings of the IEE Conference on Vision, Image and Signal Processing, vol. 141, no 4,‎ , p. 217–222 (DOI 10.1049/ip-vis:19941330)

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sur les autres projets Wikimedia :