Cette page est un brouillon appartenant à Hoangvinhtruong

Conseils de rédaction

→ N'hésitez pas à publier sur le brouillon un texte inachevé et à le modifier autant que vous le souhaitez.
→ Pour enregistrer vos modifications au brouillon, il est nécessaire de cliquer sur le bouton bleu : « Publier les modifications ». Il n'y a pas d'enregistrement automatique.

Si votre but est de publier un nouvel article, votre brouillon doit respecter les points suivants :

Respectez le droit d'auteur en créant un texte spécialement pour Wikipédia en français (pas de copier-coller venu d'ailleurs).
Indiquez les éléments démontrant la notoriété du sujet (aide).
Liez chaque fait présenté à une source de qualité (quelles sources – comment les insérer).
Utilisez un ton neutre, qui ne soit ni orienté ni publicitaire (aide).
Veillez également à structurer votre article, de manière à ce qu'il soit conforme aux autres pages de l'encyclopédie (structurer – mettre en page).

→ Si ces points sont respectés, pour transformer votre brouillon en article, utilisez le bouton « publier le brouillon » en haut à droite. Votre brouillon sera alors transféré dans l'espace encyclopédique.

Bonjour tout le monde,

Voici un brouillon que je viens de faire sur la sélection d'attributs. J'espère que vous pourriez me donner des commentaires surtout des fautes d'orthographe car je ne suis pas français. Merci d'avance.

######################################################################!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!#######################################

Les données utilisées par les application réelles(images, signaux...) sont souvent caractérisées par un grand nombre d'attributs. Considérer un nombre élevé d'attributs d'une part augmente le risque de prendre en considération des attributs redondants ou corrélés ce qui rend ces algorithmes plus complexes ou parfois moins performants. Il est alors nécessaire de procéder à une étape de réduction de la dimension de l'espace des attributs^[1].

Sélection d'attributs

Dans l'apprentissage automatique, la sélection d'attributs, aussi connue comme sélection des variables ou sélection de sous-ensemble de variable, est le processus de sélection d'un sous-ensemble de caractéristiques pertinentes (variables de prédicateurs), pour utilisation dans la construction du modèle. Les techniques de sélection d'attributs sont utilisés pour trois raisons::

la simplification des modèles pour les rendre plus faciles à interpréter par des chercheurs ou utilisateurs,^[2]
la réduction du temps de calcul,
l'amélioration et la généralisation en réduisant surapprentissage^[3]

Les techniques de sélection d'attributs doivent être distingués de l'extraction de caractéristiques. Cette dernière crée de nouveaux attributs, alors que la sélection d'attributs retourne un sous-ensemble de caractéristiques. Les techniques de sélection d'attributs sont souvent utilisés dans des domaines où il existe de nombreux attributs et relativement peu d'échantillons (ou points de données). Archétypales cas pour l'application de la sélection d'attributs comprennent l'analyse des textes écrits et des puces à ADN de données, où il y a des milliers d’attributs, et quelques dizaines à des centaines d'échantillons.

Présentation

Un algorithme de sélection d'attributs peut être considéré comme la combinaison d'une technique de recherche pour proposer de nouveaux sous-ensembles d'attributs , avec une mesure qui marque les différents sous-ensembles d'attributs de l'évaluation. L'algorithme le plus simple consiste à tester chaque sous-ensemble possible de caractéristiques et trouver celui qui minimise le taux d'erreur. Ceci est une recherche exhaustive de l'espace, et le calcul est intraitable pour tous, mais le plus petit des ensembles d'attributs. Le choix de l'évaluation métrique influence fortement l'algorithme, et ce sont ces mesures d'évaluation qui distinguent entre les trois principales catégories de sélection : des méthode "Wrapper",des méthodes de filtrage et des méthodes embarquées .^[4]

La méthode "Wrapper" utilise un modèle prédictif pour marquer un sous-ensemble d'attributs. Chaque nouveau sous-ensemble est utilisé pour former un modèle, qui est testé par une méthode de validation croisée (holdout method) sur un ensemble. Compter le nombre d'erreurs commises sur cet ensemble par la méthode validation croisée (la methode "holdout" ) (le taux du modèle d'erreur) donne le score pour ce sous-ensemble. .

Les méthodes de filtrage utilisent une mesure de substitution à la place du taux d'erreur pour marquer un sous-ensemble d'attributs. Cette mesure est choisie pour être rapidement calculée, tout en capturant l'utilité de l'ensemble des attributs. Des mesures communes comprennent : l'information mutuelle^[4], l'information mutuelle ponctuelle^[5], coefficient de Pearson corrélation produit-moment.

Les méthodes embarquées sont un ensemble de groupe de techniques qui effectuent la sélection d'attributs dans le cadre du processus de construction du modèle. L'exemple de cette approche est la méthode LASSO pour construire un modèle linéaire, ce qui pénalise les coefficients de régression avec une pénalité L1^[6], rétrécissement beaucoup d'entre eux à zéro. Toutes les entités qui ont des coefficients de régression non-zéro sont «choisies» par l'algorithme LASSO..

Sélection de sous-ensemble

La sélection de sous-ensembles évalue un sous-ensemble d'attributs comme un groupe d'aptitude ^[1].

Les algorithmes de sélection de sous-ensembles peuvent être divisés en "Wrapper", filtrage et embarqué. Les méthodes "wrapper" utilisent un algorithme de recherche pour recherche à travers l'espace des attributs possibles et évaluer chaque sous-ensemble en exécutant un modèle sur le sous-ensemble. Les méthodes embarquées peuvent être coûteuses en calcul, cependant il y a un risque de ne plus être approprié pour le modèle. La méthode de filtrage est semblable à emballages dans l'approche de recherche, mais au lieu d'évaluer contre un modèle, un filtre simple est évalué. Techniques intégrés sont noyées dans et spécifique à un modèle.

De nombreuses approches de recherche populaires utilisent une méthode gloutonne telle que "hill climbing", qui évalue de manière itérative un sous-ensemble de caractéristiques candidates, puis modifie le sous-ensemble et évalue si le nouveau sous-ensemble est une amélioration par rapport à l'ancien. .

Recherche approches incluent:

Références

↑ ^{a et b} « Thèses > Kalakech Mariam », sur ori.univ-lille1.fr (consulté le 22 février 2016)
↑ Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning - Springer (DOI 10.1007/978-1-4614-7138-7, lire en ligne)
↑ (en) M. L. Bermingham, R. Pong-Wong, A. Spiliopoulou et C. Hayward, « Application of high-dimensional feature selection: evaluation for genomic prediction in man », Scientific Reports, vol. 5,‎ 19 mai 2015 (PMID 25988841, PMCID 4437376, DOI 10.1038/srep10312, lire en ligne, consulté le 16 février 2016)
↑ ^{a et b} Isabelle Guyon et André Elisseeff, « An Introduction to Variable and Feature Selection », J. Mach. Learn. Res., vol. 3,‎ 1^er mars 2003, p. 1157–1182 (ISSN 1532-4435, lire en ligne, consulté le 16 février 2016)
↑ Yiming Yang et Jan O. Pedersen, « A Comparative Study on Feature Selection in Text Categorization », Proceedings of the Fourteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., iCML '97,‎ 1^er janvier 1997, p. 412–420 (ISBN 1558604863, lire en ligne, consulté le 16 février 2016)
↑ Francis R. Bach, « Bolasso: Model Consistent Lasso Estimation Through the Bootstrap », Proceedings of the 25th International Conference on Machine Learning, ACM, iCML '08,‎ 1^er janvier 2008, p. 33–40 (ISBN 9781605582054, DOI 10.1145/1390156.1390161, lire en ligne, consulté le 21 février 2016)

Liens externes

FEAST (Open source Sélection d'attributs algorithms en C et MATLAB)

Sélection d'attributs collections, Arizona State University (Matlab Code)

[:1-1] {a et b} « Thèses > Kalakech Mariam », sur ori.univ-lille1.fr (consulté le 22 février 2016)

[2] Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning - Springer (DOI 10.1007/978-1-4614-7138-7, lire en ligne)

[3] (en) M. L. Bermingham, R. Pong-Wong, A. Spiliopoulou et C. Hayward, « Application of high-dimensional feature selection: evaluation for genomic prediction in man », Scientific Reports, vol. 5,‎ 19 mai 2015 (PMID 25988841, PMCID 4437376, DOI 10.1038/srep10312, lire en ligne, consulté le 16 février 2016)

[:0-4] {a et b} Isabelle Guyon et André Elisseeff, « An Introduction to Variable and Feature Selection », J. Mach. Learn. Res., vol. 3,‎ 1^er mars 2003, p. 1157–1182 (ISSN 1532-4435, lire en ligne, consulté le 16 février 2016)

[5] Yiming Yang et Jan O. Pedersen, « A Comparative Study on Feature Selection in Text Categorization », Proceedings of the Fourteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., iCML '97,‎ 1^er janvier 1997, p. 412–420 (ISBN 1558604863, lire en ligne, consulté le 16 février 2016)

[6] Francis R. Bach, « Bolasso: Model Consistent Lasso Estimation Through the Bootstrap », Proceedings of the 25th International Conference on Machine Learning, ACM, iCML '08,‎ 1^er janvier 2008, p. 33–40 (ISBN 9781605582054, DOI 10.1145/1390156.1390161, lire en ligne, consulté le 21 février 2016)

[1]

[2]

[3]

[4]

[5]

[6]