Tableau disjonctif complet
Un tableau disjonctif complet (TDC) est un type de représentation de données qualitatives utilisé en analyse des données. Dans ce tableau, une variable qualitative à modalités est remplacée par variables binaires, chacune correspondant à une des modalités.
Dans la littérature anglophone sur l'apprentissage automatique, il est connu sous le nom de codage "one-hot" ("one-hot encoding").
Exemple[modifier | modifier le code]
Une famille est constituée d'un père, d'une mère et d'un jeune garçon. On s’intéresse aux variables "sexe" et "couleur des yeux" de ce ménage.
Voici le tableau regroupant ces informations :
individu | Sexe | Yeux |
---|---|---|
père | Masculin | Marron |
mère | Féminin | Bleu |
enfant | Masculin | Vert |
Le tableau disjonctif complet de cette population prend la forme suivante :
individu | sexe F | sexe M | Yeux B | Yeux M | Yeux V |
---|---|---|---|---|---|
père | 0 | 1 | 0 | 1 | 0 |
mère | 1 | 0 | 1 | 0 | 0 |
enfant | 0 | 1 | 0 | 0 | 1 |