Utilisateur:Hoangvinhtruong/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

Bonjour tout le monde,

Voici un brouillon que je viens de faire sur la sélection d'attributs. J'espère que vous pourriez me donner des commentaires surtout des fautes d'orthographe car je ne suis pas français. Merci d'avance.

######################################################################!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!#######################################

Les données utilisées par les application réelles(images, signaux...) sont souvent caractérisées par un grand nombre d'attributs. Considérer un nombre élevé d'attributs d'une part augmente le risque de prendre en considération des attributs redondants ou corrélés ce qui rend ces algorithmes plus complexes ou parfois moins performants. Il est alors nécessaire de procéder à une étape de réduction de la dimension de l'espace des attributs[1].

Sélection d'attributs[modifier | modifier le code]

Dans l'apprentissage  automatique, la sélection d'attributs, aussi connue comme sélection des variables ou sélection de sous-ensemble de variable, est le processus de sélection d'un sous-ensemble de caractéristiques pertinentes (variables de prédicateurs), pour utilisation dans la construction du modèle. Les techniques de sélection d'attributs sont utilisés pour trois raisons::

  • la simplification des modèles pour les rendre plus faciles à interpréter par des chercheurs ou utilisateurs,[2] 
  • la réduction du temps de calcul,
  • l'amélioration et la généralisation en réduisant surapprentissage[3]

Les techniques de sélection d'attributs doivent être distingués de l'extraction de caractéristiques. Cette dernière crée de nouveaux attributs, alors que la sélection d'attributs retourne un sous-ensemble de caractéristiques. Les techniques de sélection d'attributs sont souvent utilisés dans des domaines où il existe de nombreux attributs et relativement peu d'échantillons (ou points de données). Archétypales cas pour l'application de la sélection d'attributs comprennent l'analyse des textes écrits et des puces à ADN de données, où il y a des milliers d’attributs, et quelques dizaines à des centaines d'échantillons.  

Présentation[modifier | modifier le code]

Un algorithme de sélection d'attributs peut être considéré comme la combinaison d'une technique de recherche pour proposer de nouveaux sous-ensembles d'attributs , avec une mesure qui marque les différents sous-ensembles d'attributs de l'évaluation. L'algorithme le plus simple consiste à tester chaque sous-ensemble possible de caractéristiques et trouver celui qui minimise le taux d'erreur. Ceci est une recherche exhaustive de l'espace, et le calcul est intraitable pour tous, mais le plus petit des ensembles d'attributs. Le choix de l'évaluation métrique influence fortement l'algorithme, et ce sont ces mesures d'évaluation qui distinguent entre les trois principales catégories de sélection : des méthode "Wrapper",des méthodes de filtrage et des méthodes embarquées .[4] 

La méthode "Wrapper" utilise un modèle prédictif pour marquer un sous-ensemble d'attributs. Chaque nouveau sous-ensemble est utilisé pour former un modèle, qui est testé par une méthode de validation croisée (holdout method) sur un ensemble. Compter le nombre d'erreurs commises sur cet ensemble par la méthode validation croisée  (la methode "holdout" ) (le taux du modèle d'erreur) donne le score pour ce sous-ensemble. . 

Les méthodes de filtrage utilisent une mesure de substitution à la place du taux d'erreur pour marquer un sous-ensemble d'attributs. Cette mesure est choisie pour être rapidement calculée, tout en capturant l'utilité de l'ensemble des attributs. Des mesures communes comprennent : l'information mutuelle[4],   l'information mutuelle ponctuelle[5],  coefficient de Pearson corrélation produit-moment.

Les méthodes embarquées sont un ensemble de groupe de techniques qui effectuent la sélection d'attributs dans le cadre du processus de construction du modèle. L'exemple de cette approche est la méthode LASSO pour construire un modèle linéaire, ce qui pénalise les coefficients de régression avec une pénalité L1[6], rétrécissement beaucoup d'entre eux à zéro. Toutes les entités qui ont des coefficients de régression non-zéro sont «choisies» par l'algorithme LASSO.. 

Sélection de sous-ensemble [modifier | modifier le code]

La sélection de sous-ensembles évalue un sous-ensemble d'attributs comme un groupe d'aptitude [1]

Les algorithmes de sélection de sous-ensembles peuvent être divisés en "Wrapper", filtrage et embarqué. Les méthodes "wrapper" utilisent un algorithme de recherche pour recherche à travers l'espace des attributs possibles et évaluer chaque sous-ensemble en exécutant un modèle sur le sous-ensemble. Les méthodes embarquées peuvent être coûteuses en calcul, cependant il y a un risque de ne plus être approprié pour le modèle. La méthode de filtrage est semblable à emballages dans l'approche de recherche, mais au lieu d'évaluer contre un modèle, un filtre simple est évalué. Techniques intégrés sont noyées dans et spécifique à un modèle.

De nombreuses approches de recherche populaires utilisent une méthode gloutonne telle que "hill climbing", qui évalue de manière itérative un sous-ensemble de caractéristiques candidates, puis modifie le sous-ensemble et évalue si le nouveau sous-ensemble est une amélioration par rapport à l'ancien.  .  

Recherche approches incluent:

Références[modifier | modifier le code]

  1. a et b « Thèses > Kalakech Mariam », sur ori.univ-lille1.fr (consulté le )
  2. Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning - Springer (DOI 10.1007/978-1-4614-7138-7, lire en ligne)
  3. (en) M. L. Bermingham, R. Pong-Wong, A. Spiliopoulou et C. Hayward, « Application of high-dimensional feature selection: evaluation for genomic prediction in man », Scientific Reports, vol. 5,‎ (PMID 25988841, PMCID 4437376, DOI 10.1038/srep10312, lire en ligne, consulté le )
  4. a et b Isabelle Guyon et André Elisseeff, « An Introduction to Variable and Feature Selection », J. Mach. Learn. Res., vol. 3,‎ , p. 1157–1182 (ISSN 1532-4435, lire en ligne, consulté le )
  5. Yiming Yang et Jan O. Pedersen, « A Comparative Study on Feature Selection in Text Categorization », Proceedings of the Fourteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., iCML '97,‎ , p. 412–420 (ISBN 1558604863, lire en ligne, consulté le )
  6. Francis R. Bach, « Bolasso: Model Consistent Lasso Estimation Through the Bootstrap », Proceedings of the 25th International Conference on Machine Learning, ACM, iCML '08,‎ , p. 33–40 (ISBN 9781605582054, DOI 10.1145/1390156.1390161, lire en ligne, consulté le )

Liens externes[modifier | modifier le code]