Analyse des correspondances multiples

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir ACM.

L’analyse des correspondances multiples (ACM) est la méthode factorielle (au sens français du terme) adaptée aux tableaux dans lesquels un ensemble d’individus (en lignes) est décrit par un ensemble de variables qualitatives (en colonnes). Un exemple typique de ces données est celui des enquêtes d’opinion.

Malgré des propriétés communes, l’ACM est une méthode bien distincte de l’analyse factorielle des correspondances (AFC) adaptée, elle, aux tableaux de contingence.

Données, notations[modifier | modifier le code]

On considère I individus et J variables qualitatives. Les données sont regroupées dans un tableau comportant I lignes et J colonnes. À l’intersection de la ligne i et de la colonne j, on trouve x_{ij}, modalité de la variable j possédée par i. Ce tableau est dit « tableau de codage condensé » (TCC). C’est ce tableau qui est construit par l’utilisateur et soumis aux programmes d’ACM.

À partir du tableau de codage condensé, on peut construire le tableau disjonctif complet (TDC). Ce tableau comporte en lignes les individus et en colonnes les modalités des variables qualitatives. Si l’on note K_j le nombre de modalité de la variable j, le nombre total de modalités vaut K = \sum_j K_j. Le TDC a donc I lignes et K colonnes.

Dans le TDC, à l’intersection de la ligne i et de la colonne k (associée à la variable j), on trouve :

  • 1 si l’individu i possède la modalité k (de la variable j);
  • 0 sinon.

Les calculs de l’ACM sont basés sur le TDC : il est donc utile d’avoir en tête ce tableau pour comprendre l’ACM. Cela étant, en pratique, l’utilisateur n’a jamais besoin de calculer explicitement le TDC (les programmes d’ACM acceptent en entrée le TCC et calculent eux-mêmes le TDC).

Un autre tableau associé à ce type des données est le tableau de Burt (TB). Le TB croise les modalités (toutes variables confondues) avec elles-mêmes. Il a donc K lignes et K colonnes. À l’intersection de la ligne k (modalité k de la variable j) et de la colonne q (modalité q de la variable l) on trouve le nombre d’individus possédant à la fois la modalité k (de la variable j) et la modalité q (de la variable l). Ce tableau contient tous les tableaux croisant les variables deux à deux.

Problématique[modifier | modifier le code]

Les données étant de la forme individus x variables, la problématique de l’ACM est très proche de celle de l’analyse en composantes principales (ACP). Plaçons nous dans le cas d’une enquête, les individus étant les enquêtés et les variables des questions à choix multiples. Exemple de question : dans la liste suivante (ouvrier, employé etc.), cocher votre catégorie socio-professionnelle.

Étude des individus[modifier | modifier le code]

Un individu est représenté par l’ensemble de ses réponses, ce que l’on appelle son profil de réponse. On étudie la variabilité de ces profils (de réponse). Comme dans toute analyse factorielle, cette variabilité est décomposée selon ses principales dimensions.

Étude des variables[modifier | modifier le code]

La liaison entre deux variables qualitatives s’étudie au travers des associations entre leurs modalités. Par exemple, un élément de la description de la liaison entre les variables couleur des yeux et couleur des cheveux est : les personnes qui ont les cheveux blonds ont plutôt les yeux bleus. En présence d’un ensemble de variables qualitatives, on cherche donc les associations entre toutes les modalités. On attend de l’ACM une représentation des modalités dans laquelle les modalités qui s’associent entre elles sont proches.

Selon un autre point de vue on peut aussi étudier un ensemble de variables qualitatives en mettant en évidence des variables synthétiques dont la propriété est d’être liée le plus possible aux variables de départ. Ces variables synthétiques doivent être quantitatives (ce sont les facteurs de l’ACM). La liaison entre une variable quantitatives x et une variable qualitative j est classiquement mesurée par le carré du rapport de corrélation noté \eta^2(x,j). Ce point de vue conduit donc à rechercher une suite de S variables synthétiques (notées \{F_s;s=1,S\} ; en pratique on se contente souvent de deux axes soit : S = 2) non corrélées et maximisant :

\sum_j\eta^2(F_s,j)

Notation. En analyse factorielle, on note souvent F_s le facteur de rang s, c’est-à-dire le vecteur des coordonnées des individus sur l’axe de rang s.

Domaine d'application[modifier | modifier le code]

L'ACM est une méthode très générale qui s'applique à tout tableau dans lequel un ensemble d'individus est décrit par des variables qualitatives. Elle n'est donc pas inféodée à un champ disciplinaire particulier. Toutefois elle est très utilisée dans le traitement des enquêtes d'opinion, les questionnaires étant souvent composés de questions à choix multiples.

Une mention particulière doit être faite à la sociologie. L'ACM est très utilisée par les sociologues s'inspirant de Pierre Bourdieu pour étudier un « champ » spécifique. Par exemple, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des économistes français[1] et Hjellbrekke et ses coauteurs appliquent la même méthode pour analyser le champ des élites norvégiennes[2]. De même, Julien Duval utilise une ACM pour analyser le champ du cinéma français[3]. Autre exemple : Christian Baudelot et Michel Gollac utilisent une analyse des correspondances multiples pour étudier le rapport des Français à leur travail[4].

Les nuages de points en ACM[modifier | modifier le code]

Comme toute analyse factorielle, l’ACM peut s’interpréter géométriquement à partir d’un nuage dont les points représentent les lignes du tableau analysé et d’un nuage dont les points représentent les colonnes de ce tableau[5].

Pour construire ces nuages, on considère le tableau disjonctif complet. Un individu est une ligne de ce tableau i.e. l’ensemble des modalités qu’il possède et de celles qu’il ne possède pas. À un individu, on associe donc K valeurs (0 ou 1) et donc un point dans l’espace à K dimensions, noté  \R^K , dont chaque dimension correspond à une modalité. L’ensemble de ces points constitue le nuage des individus, noté N_I, nuage tout à fait analogue à celui des individus en anlyse en composantes principales (ACP). Dans ce nuage, deux individus sont d’autant plus proches qu’ils possèdent les mêmes modalités. Chaque colonne du TDC correspond à une modalité : c’est une fonction indicatrice qui présente I valeurs. On peut lui associer un point dans l’espace à I dimensions, noté  \R^I , dont chaque dimension correspond à un individu. Cet espace est exactement le même que celui des variables en ACP. Il est souvent appelé « espace des fonctions sur I » (une fonction sur I associe une valeur à chaque individu ; I désigne ici l’ensemble des individus). Dans cet espace, deux modalités sont d’autant plus proches qu’elles sont possédées par les mêmes individus.

Représentation des deux nuages[modifier | modifier le code]

Principe[modifier | modifier le code]

Comme dans toute analyse factorielle, l’ACM consiste à projeter chacun des deux nuages sur une suite d’axes orthogonaux d’inertie maximum. En combinant deux de ces axes, on obtient une représentation plane (= plan factoriel) ; en pratique on se contente souvent du premier plan factoriel.

Dans \R^I, la quantité maximisée est la moyenne des carrés des rapports de corrélation, soit, pour l’axe s :

\frac{1}{J}\sum_j \eta^2(F_s,j)

Les dimensions de l’ACM peuvent donc être considérées comme des variables synthétiques. Les valeurs de F_s sont les coordonnées des individus sur l’axe de rang s (dans \R^K). Il en résulte que, dans la représentation des individus :

  • les individus qui ont beaucoup de modalités en commun sont aussi proches que possible ;
  • les individus qui ont peu (voire aucune) modalités en commun sont aussi séparés que possible.

Règle d'interprétation[modifier | modifier le code]

En ACM, on peut superposer la représentation des individus et celle des modalités. Ceci est permis par les relations de transition, présentes dans toute analyse factorielle mais qui s’expriment de façon particulièrement simple en ACM.

Relations de transition en ACM

À un coefficient près, pour un axe donné :

  • un individu est au barycentre des modalités qu’il possède ;
  • une modalité est au barycentre des individus qui la possèdent.

Ces relations sont aussi connues sous le nom de propriétés barycentriques.

Exemple[modifier | modifier le code]

On utilise ici un exemple de très petite taille, ce qui permet de vérifier facilement dans les données les interprétations réalisées à partir des plans factoriels (cf. tableau 1).

On a demandé à six individus leur préférence pour les fruits (orange, poire, pomme) les légumes (épinard, haricot) et la viande (cheval mouton porc).

Tableau 1. Données préférences alimentaires. Exemple: l'individu 1 a préféré la pomme (comme fruit), le haricot (comme légume) et le cheval (comme viande).
Fruit Légume Viande>
i_1 Pomme Haricot Cheval
i_2 Poire Haricot Cheval
i_3 Orange Haricot Mouton
i_4 Pomme Epinard Mouton
i_5 Poire Epinard Porc
i_6 Orange Epinard Porc

Appliquée au tableau 1, l'ACM fournit la représentation de la figure 1.

Figure 1. Données préférences alimentaires. ACM. Représentation des individus et des modalités (fournie par le package R FactoMineR.

Le premier axe oppose le groupe d’individus \{i_1, i_2\} (à gauche) au groupe \{i_5, i_6\} (à droite).

Le groupe d’individu \{i_1, i_2\} est caractérisé :

  • d’abord et surtout par une préférence pour la viande de cheval (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les haricots (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec i_3).

De son côté le groupe \{i_5, i_6\} est caractérisé :

  • d’abord et surtout par une préférence pour la viande de porc (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les épinards (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec i_4).

Illustration des relations de transition[modifier | modifier le code]

L’individu i_2 a préféré poire, haricot et cheval. Il se trouve bien du côté de ces trois modalités. Par rapport au centre de gravité exact de ces modalités, il est un peu plus écarté de l’origine : en effet, le coefficient mentionné dans les relations de transition est toujours supérieur à 1.

La modalité cheval a été choisie par i_1 et i_2. Elle est donc du côté de ces individus. Par rapport au centre de gravité de i_1 et i_2, elle est légèrement excentrée (pour la même raison que dans le cas précédent).

Figure 2. Données préférences alimentaires. ACM. Représentation des variables (carré des liaisons) fournie par le package R FactoMineR.

Représentation complémentaire : le carré des liaisons[modifier | modifier le code]

Dans le carré des liaisons, les variables sont représentées à l’aide de leur rapport de corrélation avec les facteurs. Ainsi, dans l’exemple, ce carré montre que :

  • le premier axe est d’abord lié à la viande, puis au légume ;
  • le deuxième axe, quant à lui, est lié également à la viande et au fruit.

Cette représentation est d’autant plus utile que les variables sont nombreuses.

ACM, AFC et ACP[modifier | modifier le code]

Lorsque l’on met en œuvre un programme d’AFC sur un tableau disjonctif complet ou sur un tableau de Burt, on obtient les axes de l’ACM. C’est ce qui conduit certains auteurs à considérer l’ACM comme un cas particulier (ou une extension) de l’AFC. En fait l’ACM possède plusieurs propriétés spécifiques qui en font bien une méthode à part entière. En outre les axes de l’ACM peuvent aussi être obtenus en appliquant un programme d’ACP ou TDC (légèrement modifié)[6]. Ces convergences expriment le fort dénominateur commun entre les méthodes factorielles et non des relations hiérarchiques entre elles.

Extensions[modifier | modifier le code]

Très souvent, dans les enquêtes d'opinion, les questionnaires sont structurés en thèmes. Il est toujours intéressant de prendre en compte cette structure en groupes des questions. C'est ce que fait l'Analyse factorielle multiple[7].

Notes et références[modifier | modifier le code]

  1. Frédéric Lebaron, La Croyance économique, Le Seuil, coll. « Liber »,‎ 5 juin 2000, 1e éd., 260 p. (ISBN 978-2020411714)
  2. (en) Johs Hjellbrekke, Brigitte Le Roux, Olav Korsnes, Frédéric Lebaron, Henry Rouanet et Lennart Rosenlund, « « The Norwegian Field of Power Anno 2000 » », [« European Societies »], vol. 9, no 2,‎ 2007, p. 245-273 (lire en ligne)
  3. Julien Duval, « L'art du réalisme », Actes de la recherche en sciences sociales, no 161-162,‎ 2006, p. 96-195 (lire en ligne)
  4. Christian Baudelot et Michel Gollac, « Faut-il travailler pour être heureux ? », Insee Première, no 560,‎ décembre 1997 (lire en ligne)
  5. Les propriétés de ces nuages sont décrites en détail dans Escofier & Pagès 2008, p. 85 et suiv.
  6. Une présentation complète de l'ACM à partir de l'ACP se trouve dans Pagès 2013, p. 37 et suiv.
  7. Deux ouvrages accordent une large place à l'analyse factorielle multiple : Escofier & Pagès 2008 et Pagès 2013

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes,‎ 2009, 224 p. (ISBN 978-2-7535-0938-2)
  • Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation, Dunod, Paris,‎ 2008, 318 p. (ISBN 978-2-10-051932-3)
  • Jérôme Pagès, Analyse factorielle multiple avec R, EDP sciences, Paris,‎ 2013, 253 p. (ISBN 978-2-7598-0963-9)

Liens internes[modifier | modifier le code]

Liens externes[modifier | modifier le code]