Utilisateur:Statistix35/BrouillonACM

Une page de Wikipédia, l'encyclopédie libre.

L’analyse des correspondances multiples (ACM) est la méthode factorielle (au sens français du terme) adaptée aux tableaux dans lesquels un ensemble d’individus (en lignes) est décrit par un ensemble de variables qualitatives (en colonnes). Un exemple typique de ces données est celui des enquêtes d’opinion.

Malgré des propriétés communes, l’ACM est une méthode bien distincte de l’analyse factorielle des correspondances (AFC) adaptée, elle, aux tableaux de contingence.

Données, notations[modifier | modifier le code]

On considère individus et variables qualitatives. Les données sont regroupées dans un tableau comportant lignes et colonnes. A l’intersection de la ligne et de la colonne , on trouve , modalité de la variable possédée par . Ce tableau est dit « tableau de codage condensé » (TCC). C’est ce tableau qui est construit par l’utilisateur et soumis aux programmes d’ACM.

A partir du tableau de codage condensé, on peut construire le tableau disjonctif complet (TDC). Ce tableau comporte en lignes les individus et en colonnes les modalités des variables qualitatives. Si l’on note le nombre de modalité de la variable , le nombre total de modalités vaut . Le TDC a donc lignes et colonnes.

Dans le TDC, à l’intersection de la ligne et de la colonne (associée à la variable ), on trouve :

  • 1 si l’individu possède la modalité (de la variable );
  • 0 sinon.

Les calculs de l’ACM sont basés sur le TDC : il est donc utile d’avoir en tête ce tableau pour comprendre l’ACM. Cela étant, en pratique, l’utilisateur n’a jamais besoin de calculer explicitement le TDC (les programmes d’ACM acceptent en entrée le TCC et calculent eux-mêmes le TDC).

Un autre tableau associé à ce type des données est le tableau de Burt (TB). Le TB croise les modalités (toutes variables confondues) avec elles-mêmes. Il a donc lignes et colonnes. A l’intersection de la ligne (modalité de la variable ) et de la colonne (modalité de la variable ) on trouve le nombre d’individus possédant à la fois la modalité (de la variable ) et la modalité (de la variable ). Ce tableau contient tous les tableaux croisant les variables deux à deux.

Problématique[modifier | modifier le code]

Les données étant de la forme individus x variables, la problématique de l’ACM est très proche de celle de l’analyse en composantes principales (ACP). Plaçons nous dans le cas d’une enquête, les individus étant les enquêtés et les variables des questions à choix multiples. Exemple de question : dans la liste suivante (ouvrier, employé etc.), cocher votre catégorie socio-professionnelle.

Étude des individus[modifier | modifier le code]

Un individu est représenté par l’ensemble de ses réponses, ce que l’on appelle son profil de réponse. On étudie la variabilité de ces profils (de réponse). Comme dans toute analyse factorielle, cette variabilité est décomposée selon ses principales dimensions.

Étude des variables[modifier | modifier le code]

La liaison entre deux variables qualitatives s’étudie au travers des associations entre leurs modalités. Par exemple, un élément de la description de la liaison entre les variables couleur des yeux et couleur des cheveux est : les personnes qui ont les cheveux blonds ont plutôt les yeux bleus. En présence d’un ensemble de variables qualitatives, on cherche donc les associations entre toutes les modalités. On attend de l’ACM une représentation des modalités dans laquelle les modalités qui s’associent entre elles sont proches.

Selon un autre point de vue on peut aussi étudier un ensemble de variables qualitatives en mettant en évidence des variables synthétiques dont la propriété est d’être liée le plus possible aux variables de départ. Ces variables synthétiques doivent être quantitatives (ce sont les facteurs de l’ACM). La liaison entre une variable quantitatives et une variable qualitative est classiquement mesurée par le carré du rapport de corrélation noté . Ce point de vue conduit donc à rechercher une suite de variables synthétiques (notées  ; en pratique on se contente souvent de deux axes soit : ) non corrélées et maximisant :


Notation. En analyse factorielle, on note souvent le facteur de rang , c’est-à-dire le vecteur des coordonnées des individus sur l’axe de rang .

Domaine d'application[modifier | modifier le code]

L'ACM est une méthode très générale qui s'applique à tout tableau dans lequel un ensemble d'individus est décrit par des variables qualitatives. Elle n'est donc pas inféodée à un champ disciplinaire particulier. Toutefois elle est très utilisée dans le traitement des enquêtes d'opinion, les questionnaires étant souvent composés de questions à choix multiples. Une mention particulière doit être faite à la sociologie.

Les nuages de points en ACM[modifier | modifier le code]

Comme toute analyse factorielle, l’ACM peut s’interpréter géométriquement à partir d’un nuage dont les points représentent les lignes du tableau analysé et d’un nuage dont les points représentent les colonnes de ce tableau.

Pour construire ces nuages, on considère le tableau disjonctif complet. Un individu est une ligne de ce tableau i.e. l’ensemble des modalités qu’il possède et de celles qu’il ne possède pas. A un individu, on associe donc valeurs (0 ou 1) et donc un point dans l’espace à dimensions, noté , dont chaque dimension correspond à une modalité. L’ensemble de ces points constitue le nuage des individus, noté , nuage tout à fait analogue à celui des individus en anlyse en composantes principales (ACP). Dans ce nuage, deux individus sont d’autant plus proches qu’ils possèdent les mêmes modalités. Chaque colonne du TDC correspond à une modalité : c’est une fonction indicatrice qui présente valeurs. On peut lui associer un point dans l’espace à dimensions, noté , dont chaque dimension correspond à un individu. Cet espace est exactement le même que celui des variables en ACP. Il est souvent appelé « espace des fonctions sur  » (une fonction sur associe une valeur à chaque individu ; désigne ici l’ensemble des individus). Dans cet espace, deux modalités sont d’autant plus proches qu’elles sont possédées par les mêmes individus.

Représentation des deux nuages[modifier | modifier le code]

Principe[modifier | modifier le code]

Comme dans toute analyse factorielle, l’ACM consiste à projeter chacun des deux nuages sur une suite d’axes orthogonaux d’inertie maximum. En combinant deux de ces axes, on obtient une représentation plane (= plan factoriel) ; en pratique on se contente souvent du premier plan factoriel.

Dans , la quantité maximisée est la moyenne des carrés des rapports de corrélation, soit, pour l’axe  :


Les dimensions de l’ACM peuvent donc être considérées comme des variables synthétiques. Les valeurs de sont les coordonnées des individus sur l’axe de rang (dans ). Il en résulte que, dans la représentation des individus :

  • les individus qui ont beaucoup de modalités en commun sont aussi proches que possible ;
  • les individus qui ont peu (voire aucune) modalités en commun sont aussi séparés que possible.

Règle d'interprétation[modifier | modifier le code]

En ACM, on peut superposer la représentation des individus et celle des modalités. Ceci est permis par les relations de transition, présentes dans toute analyse factorielle mais qui s’expriment de façon particulièrement simple en ACM.

Relations de transition en ACM

A un coefficient près, pour un axe donné :

  • un individu est au barycentre des modalités qu’il possède ;
  • une modalité est au barycentre des individus qui la possèdent.

Ces relations sont aussi connues sous le nom de propriétés barycentriques.

Exemple[modifier | modifier le code]

On utilise ici un exemple de très petite taille, ce qui permet de vérifier facilement dans les données les interprétations réalisées à partir des plans factoriels (cf. tableau 1).

On a demandé à six individus leur préférence pour les fruits (orange, poire, pomme) les légumes (épinard, haricot) et la viande (cheval mouton porc).

Tableau 1. Données préférences alimentaires. Exemple: l'individu 1 a préféré la pomme (comme fruit), le haricot (comme légume) et le cheval (comme viande).
Fruit Légume Viande>
Pomme Haricot Cheval
Poire Haricot Cheval
Orange Haricot Mouton
Pomme Epinard Mouton
Poire Epinard Porc
Orange Epinard Porc

Appliquée au tableau 1, l'ACM fournit la représentation de la figure 1.

Figure 1. Données préférences alimentaires. ACM. Représentation des individus et des modalités (fournie par le package R FactoMineR.

Le premier axe oppose le groupe d’individus (à gauche) au groupe (à droite).

Le groupe d’individu est caractérisé :

  • d’abord et surtout par une préférence pour la viande de cheval (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les haricots (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec ).

De son côté le groupe est caractérisé :

  • d’abord et surtout par une préférence pour la viande de porc (ce sont les seuls dans ce cas) ;
  • puis par une préférence pour les épinards (préférence qu’ils partagent tous les deux mais qu’ils partagent aussi avec ).

Illustration des relations de transition[modifier | modifier le code]

L’individu a préféré poire, haricot et cheval. Il se trouve bien du côté de ces trois modalités. Par rapport au centre de gravité exact de ces modalités, il est un peu plus écarté de l’origine : en effet, le coefficient mentionné dans les relations de transition est toujours supérieur à 1.

La modalité cheval a été choisie par et . Elle est donc du côté de ces individus. Par rapport au centre de gravité de et , elle est légèrement excentrée (pour la même raison que dans le cas précédent).

Figure 2. Données préférences alimentaires. ACM. Représentation des variables (carré des liaisons) fournie par le package R FactoMineR.

Représentation complémentaire : le carré des liaisons[modifier | modifier le code]

Dans le carré des liaisons, les variables sont représentées à l’aide de leur rapport de corrélation avec les facteurs. Ainsi, dans l’exemple, ce carré montre que :

  • le premier axe est d’abord lié à la viande, puis au légume ;
  • le deuxième axe, quant à lui, est lié également à la viande et au fruit.

Cette représentation est d’autant plus utile que les variables sont nombreuses.

ACM, AFC et ACP[modifier | modifier le code]

Lorsque l’on met en œuvre un programme d’AFC sur un tableau disjonctif complet ou sur un tableau de Burt, on obtient les axes de l’ACM. C’est ce qui conduit certains auteurs à considérer l’ACM comme un cas particulier (ou une extension) de l’AFC. En fait l’ACM possède plusieurs propriétés spécifiques qui en font bien une méthode à part entière. En outre les axes de l’ACM peuvent aussi être obtenus en appliquant un programme d’ACP ou TDC (légèrement modifié). Ces convergences expriment le fort dénominateur commun entre les méthodes factorielles et non des relations hiérarchiques entre elles.