Analyse factorielle de données mixtes

L’Analyse factorielle de données mixtes (AFDM) est la méthode factorielle dédiée aux tableaux dans lesquels un ensemble d’individus est décrit par un ensemble de variables quantitatives et qualitatives.

Le terme « mixte » renvoie à la présence simultanée, en tant qu’éléments actifs, de variables quantitatives et qualitatives. De façon simplifiée, on peut dire que l’AFDM fonctionne comme une Analyse en composantes principales (ACP) pour les variables quantitatives et comme une Analyse des correspondances multiples (ACM) pour les variables qualitatives.

Domaine d'application[modifier | modifier le code]

Lorsque l’on dispose des deux types de variables mais que les variables actives sont homogènes, on recourt à l’ACP ou l’ACM.

En effet, il est facile d’introduire des variables quantitatives supplémentaires en ACM^[1] ; pour cela on calcule les coefficients de corrélation entre les variables et les facteurs sur les individus (un facteur sur les individus est le vecteur des coordonnées des individus sur un axe factoriel) ; la représentation obtenue est un cercle des corrélations (comme en ACP).

De même, il est facile d’introduire des variables qualitatives supplémentaires en ACP^[2]. Pour cela, on représente chaque modalité par le centre de gravité des individus qui la possèdent (comme en ACM).

La présence de variables supplémentaires d’un type différent de celui des variables actives ne pose pas de problème particulier.

Lorsque les variables actives sont mixtes, une pratique excellente consiste à discrétiser les variables quantitatives (exemple classiquement, dans les enquêtes, on transforme l’âge en appartenance à une tranche d’âge). On dispose alors de données homogènes que l’on peut traiter par ACM.

Cette pratique atteint ses limites^[3] :

lorsqu’il y a peu d’individus (moins d’une centaine pour fixer les idées) auquel cas l’ACM est instable;
lorsqu’il y a peu de variables qualitatives par rapport aux variables quantitatives (on peut hésiter à discrétiser vingt variables quantitatives pour pouvoir prendre en compte une seule variable qualitative).

Critère[modifier | modifier le code]

Les données comportent $K$ variables quantitatives $\{k=1,K\}$ et $Q$ variables qualitatives $\{q=1,Q\}$ .

Soit une variable quantitative $z$ . On note :

$r(z,k)$ le coefficient de corrélation entre les variables $k$ et $z$ ;
$\eta ^{2}(z,q)$ le carré du rapport de corrélation entre les variables $z$ et $q$ .

Dans l’ACP de $K$ , on cherche la fonction sur $I$ (une fonction sur $I$ attribue une valeur à chaque individu ; c'est le cas des variables initiales et des composantes principales) la plus corrélée à l’ensemble des $K$ variables en sens suivant :

 $\sum _{k}r^{2}(z,k)$   maximum.

Dans l’ACM de $Q$ , on cherche la fonction sur $I$ la plus liée à l’ensemble des $Q$ variables au sens suivant :

 $\sum _{q}\eta ^{2}(z,q)$  maximum.

Dans l’AFDM de $\{K,Q\}$ , on cherche la fonction sur $I$ la plus liée à l’ensemble des $K+Q$ variables au sens suivant :

 $\sum _{k}r^{2}(z,k)+\sum _{q}\eta ^{2}(z,q)$  maximum.

Cette fonction fait jouer le même rôle aux deux types de variables. La contribution de chaque variable à ce critère est bornée par 1.

Représentations graphiques^[4][modifier | modifier le code]

La représentation des individus s’effectue directement à partir des facteurs sur $I$ .

La représentation des variables quantitatives est construite comme en ACP (cercle des corrélations).

La représentation des modalités des variables qualitatives s’effectue comme en ACM : une modalité est au barycentre des individus qui la possèdent. Noter que l’on prend l’exact barycentre et non pas, comme usuellement en ACM, le barycentre à un coefficient près axe par axe (ce coefficient, égal en ACM à l’inverse de la racine carré de la valeur propre, ne serait pas adéquat en AFDM).

La représentation des variables qualitatives est celle du « carré des liaisons » : la coordonnée de la variable $j$ le long de l’axe de rang $s$ est égale au carré du rapport de corrélation entre la variable $j$ et le facteur de rang $s$ . On la complète par une représentation des variables quantitatives via le carré de leur coefficient de corrélations avec les facteurs.

Aides à l'interprétation[modifier | modifier le code]

Les indicateurs de liaison entre les variables initiales sont rassemblés dans une matrice dite « matrice des liaisons » qui comporte à l’intersection de la ligne $l$ et de la colonne $c$ :

si $l$ et $c$ sont quantitatives, le carré du coefficient de corrélation entre $l$ et $c$ ;
si $l$ est quantitative et $c$ qualitative, le carré du rapport de corrélation entre $l$ et $c$ ;
si $l$ et $c$ sont qualitatives, l’indicateur $\phi ^{2}$ entre $l$ et $c$ .

Exemple test^[5][modifier | modifier le code]

Un jeu de données de petite taille (Tableau 1) permet d’illustrer le fonctionnement et les sorties de l’AFDM. Six individus sont décrits par trois variables quantitatives et trois variables qualitatives. Les données ont été analysées à l’aide de la fonction FAMD du package R FactoMineR.

Tableau 1. Données (exemple test).
	$k_{1}$	$k_{2}$	$k_{3}$	$q_{1}$	$q_{2}$	$q_{3}$
$i_{1}$	2	4.5	4	$q_{1}$ -A	$q_{2}$ -B	$q_{3}$ -C
$i_{2}$	5	4.5	4	$q_{1}$ -C	$q_{2}$ -B	$q_{3}$ -C
$i_{3}$	3	1	2	$q_{1}$ -B	$q_{2}$ -B	$q_{3}$ -B
$i_{4}$	4	1	2	$q_{1}$ -B	$q_{2}$ -B	$q_{3}$ -B
$i_{5}$	1	1	1	$q_{1}$ -A	$q_{2}$ -A	$q_{3}$ -A
$i_{6}$	6	1	2	$q_{1}$ -C	$q_{2}$ -A	$q_{3}$ -A

Tableau 2. Exemple test. Matrice des liaisons.
	$k_{1}$	$k_{2}$	$k_{3}$	$q_{1}$	$q_{2}$	$q_{3}$
$k_{1}$	1	0.00	0.05	0.91	0.00	0.00
$k_{2}$	0.00	1	0.90	0.25	0.25	1.00
$k_{3}$	0.05	0.90	1	0.13	0.40	0.93
$q_{1}$	0.91	0.25	0.13	2	0.25	1.00
$q_{2}$	0.00	0.25	0.40	0.25	1	1.00
$q_{3}$	0.00	1.00	0.93	1.00	1.00	2

L'indicateur est égal à $R^{2}$ (variables quantitatives), $\phi ^{2}$ (variables qualitatives) ou $\eta ^{2}$ (une variable de chaque type).

La matrice des liaisons indique un enchevêtrement des liaisons entre les variables des deux types. La représentation des individus (figure 1) montre clairement trois groupes d’individus. Le premier axe oppose les individus 1 et 2 à tous les autres. Le deuxième axe oppose les individus 3 et 4 aux individus 5 et 6.

Figure1. AFDM. Exemple test. Représentation des individus.	Figure2. AFDM. Exemple test. Carré des liaisons.
Figure3. AFDM. Exemple test. Cercle des corrélations.	Figure4. AFDM. Exemple test. Représentation des modalités des variables qualitatives.

La représentation des variables (carré des liaisons, figure 2) montre que le premier axe ( $F1$ ) est étroitement lié aux variables $k_{2}$ , $k_{3}$ et $q_{3}$ . Le cercle des corrélations (figure 3) précise le sens de la liaison entre $F1$ , $k_{2}$ et $k_{3}$ ; la représentation des modalités (figure 4) précise la nature de la liaison entre $F1$ et $q_{3}$ . Finalement les individus 1 et 2, individualisés par le premier axe, sont caractérisés par de fortes valeurs de $k_{2}$ et $k_{3}$ ainsi que par la modalité $c$ de $q_{3}$ . Cet exemple illustre la façon dont l’AFDM analyse simultanément des variables quantitatives. Ainsi, elle met en évidence, dans cet exemple, une première dimension s’appuyant sur les deux types de variables.

Historique[modifier | modifier le code]

L’AFDM a pour origine des travaux dus à Brigitte Escofier^[6] (en 1979) et Gilbert Saporta^[7] (en 1990). Ces travaux ont été repris par Jérôme Pagès en 2004^[3] puis en 2013^[8].

Notes et références[modifier | modifier le code]

↑ Husson, Lê & Pagès 2009, p. 143
↑ Escofier & Pagès 2008, p. 27 et suiv.
↑ ^{a et b} Pagès 2004
↑ Escofier & Pagès 2008, p. 104 et suiv.
↑ Un exemple complet est traité dans Pagès 2013, p. 70 et suiv.
↑ Escofier 1979
↑ Saporta 1990
↑ Pagès 2013

Bibliographie[modifier | modifier le code]

Brigitte Escofier, « Traitement simultané de variables quantitatives et qualitatives en analyse factorielle », Les cahiers de l’analyse des données, vol. 4, n^o 2,‎ 1979, p. 137–146 (lire en ligne [PDF])

Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs, méthodes et interprétation, Paris, Dunod, Paris, 2008, 318 p. (ISBN 978-2-10-051932-3)

François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes, 2009, 224 p. (ISBN 978-2-7535-0938-2)

Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, n^o 4,‎ 2004, p. 93-111 (lire en ligne [PDF])

Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, 2013, 253 p. (ISBN 978-2-7598-0963-9)

Gilbert Saporta, « Simultaneous analysis of qualitative and quantitative data », Atti della XXXV riunione scientifica ; società italiana di statistica,‎ 1990, p. 63-72 (lire en ligne [PDF])

Lien externe[modifier | modifier le code]

FactoMineR, une bibliothèque de fonctions R destinée à l'analyse des données

Portail des probabilités et de la statistique

[1] Husson, Lê & Pagès 2009, p. 143

[2] Escofier & Pagès 2008, p. 27 et suiv.

[ref_auto_1-3] {a et b} Pagès 2004

[4] Escofier & Pagès 2008, p. 104 et suiv.

[5] Un exemple complet est traité dans Pagès 2013, p. 70 et suiv.

[6] Escofier 1979

[7] Saporta 1990

[8] Pagès 2013

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]