Classifieur linéaire

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En apprentissage automatique, le terme de classifieur linéaire représente une famille d'algorithmes de classement statistique. Le rôle d'un classifieur est de classer dans des groupes (des classes) les échantillons qui ont des propriétés similaires, mesurées sur des observations. Un classifieur linéaire est un type particulier de classifieur, qui calcule la décision par combinaison linéaire des échantillons.

Classifieur linéaire est une traduction de l'anglais linear classifier. En français, selon les pays, les communautés et les personnes, ce terme peut être remplacé par discrimination linéaire, ou apprentissage de surface séparatrice linéaire. Pour les statisticiens, ces méthodes sont parfois classées en tant que méthodes d'analyse discriminante.

Definition[modifier | modifier le code]

Pour un vecteur d'observation x, à valeur dans \mathbb{R}^N, la sortie du classifieur est donnée par:

g(x) = f(w^Tx+w_0) = f\left(\sum_{j=1}^N w_j x_j+w_0\right),

\vec w est un vecteur de poids, w_0 est le biais, et f est une fonction qui convertit le produit scalaire des deux vecteurs dans la sortie désirée. Le vecteur de poids w est appris à partir d'un ensemble d'apprentissage étiqueté. La fonction f est souvent une simple fonction de seuillage, par exemple la fonction signe, la fonction de Heaviside, ou des fonctions plus complexes comme la tangente hyperbolique, ou la fonction sigmoïde. Une fonction de décision plus complexe pourrait donner la probabilité qu'un certain échantillon appartienne à une certaine classe.

Pour un problème de discrimination à deux classes, l'opération réalisée par un classifieur linéaire peut se voir comme la séparation d'un espace de grande dimension par un hyperplan: tous les points d'un côté de l'hyperplan sont classés en tant que 1, les autres sont classés en tant que -1. Cet hyperplan est appelé hyperplan séparateur, ou séparatrice.

Les classifieurs linéaires sont souvent employés dans les situations où une faible complexité est souhaitée, car ce sont les classifieurs les plus simples et donc les plus rapides, surtout lorsque le vecteur d'observation x est creux. Toutefois, les méthodes d'arbre de décision peuvent s'avérer plus rapides encore.

Les classifieurs linéaires obtiennent souvent de bons résultats lorsque N, le nombre de dimension de l'espace des observations, est grand comme, par exemple, dans la fouille de textes, où chaque élément de x est le nombre de mots dans un document.

Modèle génératif vs. modèle discriminant[modifier | modifier le code]

Il existe deux grandes familles de méthode pour estimer les paramètres du vecteur \vec w d'un classifieur linéaire[1],[2].

La première consiste à modéliser les probabilités conditionnelles soit P(\vec x|{\rm class}). On parle de modèles génératifs. Des exemples d'algorithmes de ce type sont par exemple:

La seconde famille d'approche qui regroupe les analyses par modèle discriminant, cherche d'abord à maximiser la qualité de la classification sur un jeu de test. Dans un second temps, une fonction de coût va réaliser l'adaptation du modèle de classification final (en minimisant les erreurs). Quelques exemples d'entrainement de classifieurs linéaires par méthode discriminante:

  • Régression logistique Un estimateur de maximum de vraisemblance est évalué d'après \vec w, en considérant que le jeu d'entrainement a été généré par un modèle binomial.
  • Perceptron Un algorithme qui cherche à corriger toutes les erreurs rencontrées dans le jeu d'entrainement (et ainsi améliorer l'apprentissage et le modèle créé d'après ce jeu d'entrainement).
  • Machine à vecteurs de support Un algorithme qui maximise la marge des hyperplans séparateurs du classifieur en utilisant le jeu d'entrainement pour son apprentissage.

On considère généralement que les modèles entrainés par une méthode discriminante (SVM, Régression logistique) sont plus précis que ceux de type génératifs entrainés avec des probabilités conditionnelles (classifieur bayesiens naïfs ou linéaires). On considère que les classifieurs génératifs sont plus adaptés pour les processus de classification avec nombreuses données manquantes (par exemple la classification de texte avec peu de données d'apprentissage)[réf. nécessaire].

Tous les classifieurs linéaires cités peuvent opérer sur des données non linéairement séparables en opérant sur un espace de représentation transformé \varphi(\vec x) avec un Kernel. Cette technique consiste à appliquer une transformation aux données d'entrées pour trouver dans un nouvel espace de grande dimension dans lequel elles sont projetées, un hyperplan séparateur optimal.

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005 download
  2. A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002. download