« Détection d'anomalies » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Mi Ga (discuter | contributions)
Ajout
Mi Ga (discuter | contributions)
Ajout
Ligne 17 : Ligne 17 :
Plusieurs techniques de détection d'anomalies ont été proposées dans la littérature<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280}}</ref>. Certaines des techniques populaires sont:
Plusieurs techniques de détection d'anomalies ont été proposées dans la littérature<ref name="ZimekFilzmoser2018">{{cite journal|last1=Zimek|first1=Arthur|last2=Filzmoser|first2=Peter|title=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journal=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issue=6|year=2018|pages=e1280|issn=1942-4787|doi=10.1002/widm.1280}}</ref>. Certaines des techniques populaires sont:


* des techniques basées sur la densité ([[méthode des k plus proches voisins]]<ref>{{cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237–253| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842}}</ref><ref>{{cite conference | doi = 10.1145/342009.335437| title = Efficient algorithms for mining outliers from large data sets| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1-58113-217-4}}</ref><ref>{{cite conference | doi = 10.1007/3-540-45681-3_2| title = Fast Outlier Detection in High Dimensional Spaces| conference = Principles of Data Mining and Knowledge Discovery| volume = 2431| pages = 15| series = Lecture Notes in Computer Science| year = 2002| last1 = Angiulli | first1 = F. | last2 = Pizzuti | first2 = C. | isbn = 978-3-540-44037-6}}</ref>, facteur local aberrant (en anglais, ''{{lien|Local outlier factor}}'')<ref>{{cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | authorlink2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref>, ''isolation forests''<ref>{{Cite book|last=Liu|first=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|date=December 2008|title=Isolation Forest|url=https://www.computer.org/csdl/proceedings/icdm/2008/3502/00/3502a413-abs.html|journal=2008 Eighth IEEE International Conference on Data Mining|language=English|volume=|pages=413–422|doi=10.1109/ICDM.2008.17|isbn=9780769535029|via=}}</ref>, et bien d'autres variantes de ce concept<ref>{{cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | authorlink2 = Arthur Zimek | last3 = Kriegel | first3 = H. -P. | authorlink3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | pmid = | pmc = }}</ref>).
* des techniques basées sur la densité ([[méthode des k plus proches voisins]]<ref>{{cite journal | doi = 10.1007/s007780050006| title = Distance-based outliers: Algorithms and applications| journal = The VLDB Journal the International Journal on Very Large Data Bases| volume = 8| issue = 3–4| pages = 237–253| year = 2000| last1 = Knorr | first1 = E. M. | last2 = Ng | first2 = R. T. | last3 = Tucakov | first3 = V. | citeseerx = 10.1.1.43.1842}}</ref><ref>{{cite conference | doi = 10.1145/342009.335437| title = Efficient algorithms for mining outliers from large data sets| conference = Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00| pages = 427| year = 2000| last1 = Ramaswamy | first1 = S. | last2 = Rastogi | first2 = R. | last3 = Shim | first3 = K. | isbn = 1-58113-217-4}}</ref><ref>{{cite conference | doi = 10.1007/3-540-45681-3_2| title = Fast Outlier Detection in High Dimensional Spaces| conference = Principles of Data Mining and Knowledge Discovery| volume = 2431| pages = 15| series = Lecture Notes in Computer Science| year = 2002| last1 = Angiulli | first1 = F. | last2 = Pizzuti | first2 = C. | isbn = 978-3-540-44037-6}}</ref>, facteur local aberrant (en anglais, ''{{lien|Local outlier factor}}'')<ref>{{cite conference| doi = 10.1145/335191.335388| title = LOF: Identifying Density-based Local Outliers| year = 2000| last1 = Breunig | first1 = M. M.| last2 = Kriegel | first2 = H.-P. | authorlink2 = Hans-Peter Kriegel| last3 = Ng | first3 = R. T.| last4 = Sander | first4 = J.| work = Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data| series = [[SIGMOD]]| isbn = 1-58113-217-4| pages = 93–104| url = http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf}}</ref>, ''isolation forests''<ref>{{Cite book|last=Liu|first=Fei Tony|last2=Ting|first2=Kai Ming|last3=Zhou|first3=Zhi-Hua|date=December 2008|title=Isolation Forest|url=https://www.computer.org/csdl/proceedings/icdm/2008/3502/00/3502a413-abs.html|journal=2008 Eighth IEEE International Conference on Data Mining|language=English|volume=|pages=413–422|doi=10.1109/ICDM.2008.17|isbn=9780769535029|via=}}</ref>, et bien d'autres variantes de ce concept<ref>{{cite journal | last1 = Schubert | first1 = E. | last2 = Zimek | first2 = A. | authorlink2 = Arthur Zimek | last3 = Kriegel | first3 = H. -P. | authorlink3 = Hans-Peter Kriegel| doi = 10.1007/s10618-012-0300-z | title = Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection | journal = Data Mining and Knowledge Discovery | volume = 28 | pages = 190–237 | year = 2012 | pmid = | pmc = }}</ref>) ;
* Subspace<ref>{{cite conference | doi = 10.1007/978-3-642-01307-2_86| title = Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data| conference = Advances in Knowledge Discovery and Data Mining| volume = 5476| pages = 831| series = Lecture Notes in Computer Science| year = 2009| last1 = Kriegel | first1 = H. P. | authorlink1 = Hans-Peter Kriegel| last2 = Kröger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | authorlink4 = Arthur Zimek | isbn = 978-3-642-01306-5}}</ref>, correlation-based<ref>{{cite conference | doi = 10.1109/ICDM.2012.21| title = Outlier Detection in Arbitrarily Oriented Subspaces| conference = 2012 IEEE 12th International Conference on Data Mining| pages = 379| year = 2012| last1 = Kriegel | first1 = H. P. | authorlink1 = Hans-Peter Kriegel| last2 = Kroger | first2 = P. | last3 = Schubert | first3 = E. | last4 = Zimek | first4 = A. | authorlink4 = Arthur Zimek | isbn = 978-1-4673-4649-8}}</ref> and tensor-based<ref>{{cite journal | last1 = Fanaee-T| first1 = H. | last2 = Gama | first2 = J.| title = Tensor-based anomaly detection: An interdisciplinary survey | doi = 10.1016/j.knosys.2016.01.027 | journal = Knowledge-Based Systems | volume = 98 | pages = 130–147| year = 2016}}</ref> outlier detection for high-dimensional data<ref>{{cite journal | last1 = Zimek | first1 = A. | authorlink1 = Arthur Zimek | last2 = Schubert | first2 = E.| last3 = Kriegel | first3 = H.-P. | authorlink3=Hans-Peter Kriegel| title = A survey on unsupervised outlier detection in high-dimensional numerical data | doi = 10.1002/sam.11161 | journal = Statistical Analysis and Data Mining | volume = 5 | issue = 5 | pages = 363–387| year = 2012 | pmid = | pmc = }}</ref> ;


== Références ==
== Références ==

Version du 25 février 2019 à 21:33

Dans l'exploration de données, la détection d'anomalies (en anglais, anomaly detection ou outlier detection[1]) est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des données[1].

Généralement, les anomalies se traduiront par un type de problème tel que la fraude bancaire, un défaut structurel, des problèmes médicaux ou des erreurs dans un texte. Les anomalies sont également appelées des valeurs aberrantes, du bruit, des écarts et des exceptions[2].

En particulier, dans le contexte de détection d'intrusions sur le réseau, les objets intéressants ne sont souvent pas des objets rares, mais des pics d'activités inattendus. Ce modèle n'adhère pas à la définition d'une anomalie en tant qu'objet rare et de nombreuses méthodes de détection d'anomalies (en particulier, des méthodes non supervisées) échouent à identifier ces anomalies, à moins qu'elles aient été agrégées de manière appropriée. Dans de telles situations, un algorithme d'analyse par partitionnement de données peut être capable de détecter ces problèmes[3].

Il existe trois grandes catégories de techniques de détection d'anomalies[4] :

  • les techniques de détection d'anomalies non supervisées détectent les anomalies dans un ensemble de données de test non étiqueté en supposant que la majorité des instances de l'ensemble de données sont normales et en recherchant les instances qui semblent correspondre le moins au reste de l'ensemble de données ;
  • les techniques de détection d'anomalie supervisée nécessitent un ensemble de données où les données sont étiquetées normales et anormales et impliquant l'entrainement d'un classificateur (la principale différence par rapport à de nombreux autres problèmes de classification statistique réside dans la nature déséquilibrée de la détection des valeurs aberrantes) ;
  • les techniques de détection d'anomalie semi-supervisées construisent un modèle représentant le comportement normal d'un ensemble de données normales, puis testent la probabilité qu'une instance de test soit compatible avec le modèle.

Applications

La détection d'anomalies est applicable dans divers domaines, tels que la détection d'intrusions, la détection de fraudes, la détection de défauts, la surveillance de l'état du système, la détection d'événement dans des réseaux de capteurs et la détection de perturbations de l'écosystème. Elle est souvent utilisée dans le prétraitement pour supprimer des données anormales d'un ensemble de données. Dans l'apprentissage supervisé, la suppression des données anormales de l'ensemble de données entraîne souvent une augmentation statistiquement significative de la précision[5][6].

Techniques populaires

Plusieurs techniques de détection d'anomalies ont été proposées dans la littérature[7]. Certaines des techniques populaires sont:

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Anomaly detection » (voir la liste des auteurs).
  1. a et b « {{{1}}} »
  2. V. J. Hodge et J. Austin, « A Survey of Outlier Detection Methodologies », Artificial Intelligence Review, vol. 22, no 2,‎ , p. 85–126 (DOI 10.1007/s10462-004-4304-y, CiteSeerx 10.1.1.318.4023, lire en ligne)
  3. Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava et Pang-Ning Tan, « Data mining for network intrusion detection », Proceedings NSF Workshop on Next Generation Data Mining,‎ (lire en ligne)
  4. V. Chandola, A. Banerjee et V. Kumar, « Anomaly detection: A survey », ACM Computing Surveys, vol. 41, no 3,‎ , p. 1–58 (DOI 10.1145/1541880.1541882)
  5. Ivan Tomek, « An Experiment with the Edited Nearest-Neighbor Rule », IEEE Transactions on Systems, Man, and Cybernetics, vol. 6, no 6,‎ , p. 448–452 (DOI 10.1109/TSMC.1976.4309523)
  6. (en) M. R. Smith et T. Martinez, The 2011 International Joint Conference on Neural Networks, , 2690 p. (ISBN 978-1-4244-9635-8, DOI 10.1109/IJCNN.2011.6033571, CiteSeerx 10.1.1.221.1371), « Improving classification accuracy by identifying and removing instances that should be misclassified »
  7. Arthur Zimek et Peter Filzmoser, « There and back again: Outlier detection between statistical reasoning and data mining algorithms », Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 8, no 6,‎ , e1280 (ISSN 1942-4787, DOI 10.1002/widm.1280)
  8. E. M. Knorr, R. T. Ng et V. Tucakov, « Distance-based outliers: Algorithms and applications », The VLDB Journal the International Journal on Very Large Data Bases, vol. 8, nos 3–4,‎ , p. 237–253 (DOI 10.1007/s007780050006, CiteSeerx 10.1.1.43.1842)
  9. S. Ramaswamy, R. Rastogi et K. Shim « Efficient algorithms for mining outliers from large data sets » () (DOI 10.1145/342009.335437)
    Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00
  10. F. Angiulli et C. Pizzuti « Fast Outlier Detection in High Dimensional Spaces » () (DOI 10.1007/3-540-45681-3_2)
    Principles of Data Mining and Knowledge Discovery
  11. M. M. Breunig, H.-P. Kriegel, R. T. Ng et J. Sander « LOF: Identifying Density-based Local Outliers » () (DOI 10.1145/335191.335388, lire en ligne)
  12. (en) Fei Tony Liu, Kai Ming Ting et Zhi-Hua Zhou, Isolation Forest, , 413–422 p. (ISBN 9780769535029, DOI 10.1109/ICDM.2008.17, lire en ligne)
  13. E. Schubert, A. Zimek et H. -P. Kriegel, « Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection », Data Mining and Knowledge Discovery, vol. 28,‎ , p. 190–237 (DOI 10.1007/s10618-012-0300-z)
  14. H. P. Kriegel, P. Kröger, E. Schubert et A. Zimek « Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data » () (DOI 10.1007/978-3-642-01307-2_86)
    Advances in Knowledge Discovery and Data Mining
  15. H. P. Kriegel, P. Kroger, E. Schubert et A. Zimek « Outlier Detection in Arbitrarily Oriented Subspaces » () (DOI 10.1109/ICDM.2012.21)
    2012 IEEE 12th International Conference on Data Mining
  16. H. Fanaee-T et J. Gama, « Tensor-based anomaly detection: An interdisciplinary survey », Knowledge-Based Systems, vol. 98,‎ , p. 130–147 (DOI 10.1016/j.knosys.2016.01.027)
  17. A. Zimek, E. Schubert et H.-P. Kriegel, « A survey on unsupervised outlier detection in high-dimensional numerical data », Statistical Analysis and Data Mining, vol. 5, no 5,‎ , p. 363–387 (DOI 10.1002/sam.11161)