Algorithme C4.5
|
|
Cet article est une ébauche concernant l’informatique.
Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.
|
L’algorithme C4.5 est un algorithme de classification supervisé, publié par Ross Quinlan. Il est basé sur l'algorithme ID3 auquel il apporte plusieurs améliorations.
[modifier] C4.5
À partir d'un échantillon d'apprentissage composé d'une variable objectif ou variable prédite
et d'au moins une variable d'apprentissage ou variables prédictives
, C4.5 produit un modèle de type arbre de décision. Ce modèle permet de prédire pour un individu
la valeur estimé
de la variable objectif en fonction des valeurs prise par les variables "prédictives"
. L'algorithme C4.5 se base sur une mesure de l'entropie dans l'échantillon d'apprentissage pour produire le modèle (graphe d'induction). L'avantage du recours à l'entropie est que l'algorithme travaille sur des données symboliques que ce soient des variables catégorielles (comme des couleurs) ou numériques discrètes (par exemple
). Le désavantage de la méthode est que pour préserver l'efficacité de l'apprentissage et la pertinence du modèle produit, les variables continues doivent être discrétisées avant la mise en œuvre de l'algorithme.
[modifier] C5.0 et See5
Quinlan continua avec les versions C5.0 et See5 (C5.0 pour les systèmes UNIX et See5 pour Windows) qu'il commercialisa. C5.0 améliore C4.5 sur plusieurs points dont :
- la rapidité
- l'utilisation de la mémoire
- des arbres de décision plus petits
C5.0 est un produit commercial dont le code source est disponible gratuitement pour l'interprétation et l'utilisation des arbres de décision et l'ensemble des règles qu'il produit.
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « C4.5 algorithm » (voir la liste des auteurs)