Arbre de décision

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Arbre (homonymie).

Un arbre de décision est un outil d'aide à la décision qui représente la situation plus ou moins complexe que l'on représente sous la forme graphique d'un arbre de façon à faire apparaître à l'extrémité de chaque branche (ou feuille) les différents résultats possibles en fonction des décisions prises à chaque étape. L'arbre de décision est un outil utilisé dans des domaines variés (sécurité, fouille de données, médecine, etc.). Sa lisibilité, sa rapidité d'exécution et le peu d'hypothèses nécessaires a priori expliquent sa popularité actuelle.

Introduction[modifier | modifier le code]

Dans les domaines de l'aide à la décision (informatique décisionnelle et entrepôt de données) et de l'exploration de données, certains algorithmes produisent des arbres de décision, utilisés pour répartir une population d'individus (de clients par exemple) en groupes homogènes, selon un ensemble de variables discriminantes (l'âge, la catégorie socio-professionnelle, …) en fonction d'un objectif fixé et connu (chiffres d'affaires, réponse à un mailing, …).

À ce titre, cette technique fait partie des méthodes d’apprentissage supervisé. Il s’agit de prédire avec le plus de précision possible les valeurs prises par la variable à prédire (objectif, variable cible, variable d’intérêt, attribut classe, variable de sortie, …) à partir d’un ensemble de descripteurs (variables prédictives, variables discriminantes, variables d'entrées, …).

Cette technique est autant populaire en statistique qu’en apprentissage automatique. Son succès réside en grande partie à ses caractéristiques :

  • lisibilité du modèle de prédiction, l’arbre de décision, fourni. Cette caractéristique est très importante, car le travail de l'analyste consiste aussi à faire comprendre ses résultats afin d’emporter l’adhésion des décideurs.
  • capacité à sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, un arbre de décision constitue une technique exploratoire privilégiée pour appréhender de gros fichiers de données.

Arbres de décision en apprentissage automatique[modifier | modifier le code]

Pour l'utilisation des arbres de décision en apprentissage automatique, merci de vous référer à l'article suivant:

Article détaillé : arbre de décision (apprentissage).

Exemple didactique[modifier | modifier le code]

Pour mieux appréhender la construction des arbres de décision, on reprend un exemple décrit dans l’ouvrage de Quinlan (1993). Il s’agit de prédire le comportement de sportifs (la variable à prédire Jouer peut prendre deux valeurs: oui ou non) en fonction de données météo (Ensoleillement, Température, Humidité, Vent ; variables prédictives).


L’algorithme d’apprentissage cherche à produire des groupes le plus homogène possible du point de vue de la variable à prédire à partir des variables de météo. Le partitionnement est décrit à l’aide d’un arbre de décision.

Arbre de décision sur les données Weather

Sur chaque nœud de l’arbre est décrite la distribution de la variable à prédire. Dans le cas du premier nœud, la racine de l’arbre, nous constatons qu’il y a 14 observations dans notre fichier, 9 d’entre eux ont décidé de jouer (Jouer = oui), 5 ont décidé le contraire (Jouer = non).

Ce premier nœud a plusieurs fils construits en fonction de la variable Ensoleillement, 3 sous-groupes ont été produits. Le premier groupe à gauche (Ensoleillement = Soleil) comporte 5 observations, 2 d’entre eux correspondent à Jouer = oui, 3 à Jouer = non.

Les différentes combinaisons des variables correspondent aux feuilles de l’arbre, des nœuds qui ne sont plus segmentés. Notons qu'il serait possible de construire l'arbre selon un ordre différent des variables de météo.

La lecture d’un arbre de décision est très intuitive, c’est ce qui fait son succès. L’arbre peut être traduit en termes de règles logiques sans pertes d’informations. Si l’on considère la feuille la plus à gauche, nous pouvons aisément lire la règle d’affectation suivante : « Si ensoleillement = soleil et humidité < 77,5 % alors jouer = oui ».

Arbres de décision enrichis[modifier | modifier le code]

Des formalismes alternatifs permettent d'ajouter des règles de transition plus complexes dans chaque noeud. On peut citer le logiciel libre Edinos qui permet de construire des graphes dans lesquels chaque noeud représente une situation.

Notes[modifier | modifier le code]

Références[modifier | modifier le code]

  • R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., 1993.

Liens externes[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :