CHAID

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

CHAID (CHi-squared Automatic Interaction Detector) est une technique de type arbre de décision. Elle a été publiée en 1980 par Gordon V. Kass[1]. Elle peut être utilisée pour la prédiction (comme la régression linéaire) ou pour la détection d'interaction entre variables.

En pratique, elle est souvent utilisée en marketing direct pour sélectionner un groupe de consommateurs et prédire comment leurs réponses à certaines variables affectent d'autres variables.

Comme avec les autres arbres de décision, ses avantages sont un résultat essentiellement visuel et facilement interprétable. À cause de la segmentation de la population lors de l'analyse, l'échantillonnage doit être suffisamment large de manière à ce que la taille de chaque groupe ne devienne pas trop petite, ce qui rendrait l'analyse peu fiable.

CHAID détecte l'interaction entre variables dans un jeu de données. En utilisant cette technique on peut établir des relations de dépendance entre variables. En prenant l’abonnement à un journal, par exemple, il sera possible d'étudier l'influence de variables explicatives comme le prix, la taille, les suppléments, etc. CHAID identifie des groupes discrets puis, en examinant les réactions aux variables explicatives, cherche à prédire l'impact sur la variable initiale.

CHAID est souvent utilisé comme technique d'exploration et est une alternative aux multiples régressions, en particulier quand le jeu de données n'est pas parfaitement adapté aux analyses par régression.

ECHAID[modifier | modifier le code]

L'algorithme CHAID[2] se déroule en trois étapes :

  • préparation des prédicteurs
  • fusion des classes
  • sélection de la variable de séparation

Dans cette dernière étape, l'algorithme utilise les probabilités pour estimer si une catégorie peut être divisée. L'algorithme « Exhaustive » CHAID (ECHAID) utilise une technique plus complexe à cette même fin.

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

  1. Kass, G. V.; An Exploratory Technique for Investigating Large Quantities of Categorical Data, Journal of Applied Statistics, Vol. 29, No. 2 (1980), pp. 119-127
  2. Nisbet, Robert; Elder, John; Miner, Gary; Handbook for Statistical Analysis And Data Mining, Accademic Press, 2009, page 247

Liens externes[modifier | modifier le code]