Discussion:Machine à vecteurs de support

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Cet article est indexé par les projets Probabilités et statistiques et Mathématiques.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Machine à vecteurs de support** »
Avancement	Importance	pour le projet
Bon début	Moyenne		Probabilités et statistiques (discussion • critères • liste • stats • hist. • comité • stats vues)
Bon début	Faible		Mathématiques (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article comporte une liste de tâches suggérées :

modifier • suivre • rafraîchir • aide

Je pense qu'il faudrait renommer la page : en effet en français on dit plutôt "Machine à vecteurs-support" (même si le mot machine est déjà très mal venu ici, puisqu'en anglais machine est beaucoup moins spécifique) que 'Machine à vecteurs de support" qui pour le coup ne veut strictement rien dire. Ca me semble plus clair, et on le trouve d'ailleurs comme ça dans divers articles et références scientifiques. Clemlaflemme (d) 17 juin 2013 à 12:11 (CEST)clemlaflemme[répondre]

Votre aide est la bienvenue pour corriger les liens, présents dans l'article, vers les pages d'homonymie Dimension ⇒ Quelques explications pour effectuer ces corrections. -- 31 octobre 2023 à 16:56 (CET)

Références[modifier le code]

Il faudrait citer le vapnik de 1991 ainsi que les travaux de Stéphane Canu (INSA ROUEN -> référence en france) qui introduit des résolution à base de points intérieurs très à la mode en ce moment lpikachu58 21 avril 2006 à 13:30 (CET)[répondre]

Classification ou discrimination?[modifier le code]

Deja, je ne connais pas du tout les SVM, d'ou une question un peu candide... Dans cet article on en parle comme d'une méthode de classification, mais on fait également allusion à un ensemble d'apprentissage (sous entendu supervisé). Alors, discrimination, classification ou ambiguité?

C'est une méthode de classification (dans sa version la plus simple, la réponse est binaire : le vecteur appartient à l'ensemble A ou non A) mais elle est supervisée (les échantillons utilisés pour l'apprentissage ont une cible : j'appartiens à l'ensemble A ou non A). Il faut voir cela comme une amélioration significative de l'algorithme du perceptron (si le vecteur en entrée a une cible qui est du mauvais côté de l'hyperplan, on effectue une rotation de l'hyperplan). En gros, les SVM reprennent cette idée et ajoutent le principe du noyau pour tenir compte des cas plus complexes. Dake * 30 novembre 2005 à 15:53 (CET)[répondre]

Alors c'est une méthode de discrimination et non de classification. Rilou2000 1 décembre 2005 à 14:14 (CET).[répondre]

c'est bien de la classification. ACP -> Analyse discriminante et reduction de réductions lpikachu58 21 avril 2006 à 13:30 (CET)[répondre]

Pour moi, on peut séparer classification: réponse nominale non supervisé; discrimination: réponse nominale, supervisé; regression: réponse continue; supervisé et je-sais-plus-quoi (traits latents peut être): réponse continue, non supervisé (type ACP)Rilou2000 1 décembre 2005 à 16:32 (CET)[répondre]

Je pense que cela dépend de la littérature. Je ne suis pas un expert dans ce domaine mais en général, on parle de classification pour les SVM. Dake * 1 décembre 2005 à 18:00 (CET)[répondre]

cette ambiguité provient d'un anglicisme. Ce que les anglo-saxons appellent classification est ce que nous appelons discrimination ou classement, et ce que nous appelons classification est appelé clustering en Anglais

Refonte[modifier le code]

J'envisage de mettre d'ici peu une version améliorée de cet article, disponible sur mon brouillon. C'est pas encore fini, mais si vous avez des remarques avant que je fasse le transfert, elles sont bienvenues. Sylenius (d) 13 janvier 2008 à 19:22 (CET)[répondre]

done Sylenius (d) 6 février 2008 à 20:47 (CET)[répondre]

Cas multiclasse[modifier le code]

Ces méthodes souffrent toutes de deux défauts. Dans la version one-versus-all, rien n'indique que les valeurs du résultat de classification des

M

classifieurs soient comparables (pas de normalisation, donc possibles problèmes d'échelle)^[1]. De plus le problème n'est plus équilibré, par exemple avec M=10, on utilise seulement 10% d'exemples positifs pour 90% d'exemples négatifs.

Ce passage reproche au cas 'one-versus-all' des résultats possiblement non comparables cas "pas de normalisation, donc possibles problèmes d'échelle". Et bien... Rien n'interdit de normaliser les données! L'autre reproche ("on utilise seulement 10% d'exemples positifs pour 90% d'exemples négatifs") est tout aussi discutable puisque rien n'interdit non plus de ne pas utiliser tous les exemples négatifs! Le problème des classes non équilibrées est un problème à part entière en apprentissage (pour les SVM, il a été proposé entre autre les one class SVM pour y répondre)

Ce passage de l'article explique comment passer de la classification binaire au cas multiclasse de manière générale. Les deux reproches relèvent de la mise ne pratique et sont d'ailleurs plus liés à des problèmes d'apprentissage en général (normalisation des données, échantillonnage des données d'apprentissage...) que de la classification. Bref, je juge ce passage non pertinent dans ce contexte et compte l'ôter d'ici quelques temps. Xiawi (d) 23 août 2008 à 11:40 (CEST)[répondre]

PS: je n'ai pas le livre de Bishop sous les yeux, mais par contre j'ai celui de Duda et Hart (seconde édition page 265).

↑ (en) Christopher M. Bishop, Pattern Recognition And Machine Learning, Springer, 2006 (ISBN 0-387-31073-8) [détail des éditions], p.338-339

effectivement les problèmes évoqués sont généraux et ne sont pas spécifiques aux svm, on devrait plutôt renvoyer à un article classification multi-classe ou qqchose du style, et détailler ici les approches liées aux svm, genre single-class svm, que tu cites. Sylenius (d) 19 juin 2009 à 22:57 (CEST)[répondre]

Applications ?[modifier le code]

Je viens de retirer une contribution traitant d'une application des SVM. Outre le fait que celle-ci était très partiuclière, pas forcément notable (pas de ref à un article scientifique...) et à la limite du TI, il ne s'agit que d'une appli parmi les quelques milliers existantes...

On peut commencer une section (ou un nouvel article...) sur les « applications des SVM » mais on n'a pas fini si l'on souhaite être exhaustifs! De plus, les SVM ne sont qu'un type de classifieur bien particulier et il s'agirait souvent d'applications d'apprentissage supervisé où d'autres classifieurs pourraient être utilisés. Bref, une telle section ne me semble pas très pertinente dans cet article (ou alors surtout pas d'inventaire à la Prévert!) Xiawi (d) 23 janvier 2011 à 16:18 (CET)[répondre]

Un lien peut-être utile[modifier le code]

Si quelqu'un suit ou reprend l'article un jour, peut-être que le lien suivant peut être utile : Formulating the Support Vector Machine Optimization Problem. --Roll-Morton (discuter) 6 juin 2017 à 10:20 (CEST)[répondre]

Problème légende graphique - section "Principe général" / "Exemple" & "Marge maximale", section "Cas non séparable" / "Principe"[modifier le code]

Bonjour, dans les sections "Principe général" / "Exemple", "Principe général" / "Marge Maximale" et "Cas non séparable : Astuce du noyau (kernel trick)" / "Principe", il me semble que le choix de nommage des dimensions du plan, soit $x$ et $y$ , n'est pas judicieux et prête à confusion.

En effet, dans l'introduction de la section "Principe général", $y$ est défini comme étant la sortie, i.e la classe prédite : $y\in \{-1,1\}$ . Or, sur les graphiques des sections citées précédemment, on retrouve $y$ cette fois utilisée comme dimension/feature/variable d'entrée (potentiellement à valeurs dans $\mathbb {R}$ ), les classes étant représentées graphiquement par des symboles (+ et -). De même, $x$ a été introduit comme le vecteur d'entrée contenant les observations ( $x_{1}$ , ..., $x_{N}$ ). Sur les graphiques, il correspondrait donc plutôt à l'ensemble des points.

Étant donnée que la notation $x_{k}$ est déjà utilisée dans le reste de l'article pour désigner les observations, je propose de remplacer $x$ et $y$ par $d_{1}$ et $d_{2}$ pour "dimension 1" et "dimension 2". Ou éventuellement par $x^{(1)}$ et $x^{(2)}$ (dans le même esprit que la notation usuelle $x_{i}^{j}$ ) mais cette notation pourrait là encore créer de la confusion. Lenasrvk (discuter) 4 août 2023 à 17:16 (CEST)[répondre]

Merci pour votre message. Je pense qu'il faut s'appuyer sur une ou plusieurs sources très fiables. Puis utiliser les notations de celles-ci. L'article wikipedia peut aussi discuter des diverses notations utilisées par plusieurs sources, si elles différent. Bonne journée ! Fschwarzentruber (discuter) 4 août 2023 à 18:19 (CEST)[répondre]

[Bishop338-1] (en) Christopher M. Bishop, Pattern Recognition And Machine Learning, Springer, 2006 (ISBN 0-387-31073-8) [détail des éditions], p.338-339

[1]