Tableau disjonctif complet

Un article de Wikipédia, l'encyclopédie libre.

Un tableau disjonctif complet (TDC) est un type de représentation de données qualitatives utilisé en analyse des données. Dans ce tableau, une variable qualitative à modalités est remplacée par variables binaires, chacune correspondant à une des modalités[1].

Dans la littérature anglophone sur l'apprentissage automatique, il est connu sous le nom de codage "one-hot" ("one-hot encoding").

Exemple[modifier | modifier le code]

Une famille est constituée d'un père, d'une mère et d'un jeune garçon. On s’intéresse aux variables "sexe" et "couleur des yeux" de ce ménage.

Voici le tableau regroupant ces informations :

individu Sexe Yeux
père Masculin Marron
mère Féminin Bleu
enfant Masculin Vert

Le tableau disjonctif complet de cette population prend la forme suivante :

individu sexe F sexe M Yeux B Yeux M Yeux V
père 0 1 0 1 0
mère 1 0 1 0 0
enfant 0 1 0 0 1

Articles connexes[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. Brigitte Escofier, « Une représentation des variables dans l’analyse des correspondances multiples », Revue de statistique appliquée, vol. tome 27, no no 4 (1979),‎ , p. 37-47 (lire en ligne [PDF])