Analyse factorielle

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

L'analyse factorielle, au sens anglo-saxon du terme (factor analysis) est une méthode de la famille de la statistique multivariée, utilisée pour décrire un ensemble de variables observées, au moyen de variables latentes (non observées). Pour réduire le nombre de variables, la méthode calcule ces variables latentes comme combinaisons linéaires des variables observées. Créée par Charles Spearman, cette méthode est utilisée en psychologie, en sciences humaines et sociales, et plus généralement dans toute discipline faisant face à de grandes quantités de données. L'analyse factorielle donne des résultats souvent proches de l'Analyse en composantes principales (ACP). Cependant, les deux méthodes sont formellement différentes (les matrices de variance-covariance analysées sont différentes). Il y a débat sur les avantages et désavantages respectifs des deux méthodes. En France, la terminologie Analyse factorielle représente une autre famille de méthodes décrite ci-après.

Définition[modifier | modifier le code]

Dans le langage des praticiens français, le terme analyse factorielle désigne une famille de méthodes de l'analyse des données, dont fait partie l'ACP[1]. Dans ces méthodes, on associe aux lignes et aux colonnes d’un tableau de données un nuage de points évoluant dans un espace de grande dimension. Plus précisément, si le tableau présente I lignes et J colonnes et a pour terme général x_{ij} (à l’intersection de la ligne i et de la colonne j), on construit :

  • le nuage N_I contenant I points (un point représente une ligne) dans un espace à J dimensions noté R^J (une dimension par colonne). Les coordonnées du point i sont les valeurs de la ligne i soit {x_{ij}; j=1, J}. Lorsque J=2, on est en présence du graphique cartésien usuel (dit souvent graphique en x,y).
  • le nuage N_J contenant J points (un point représente une colonne) dans un espace à I dimensions noté R^I (une dimension par ligne). Les coordonnées du point j sont les valeurs de la colonne j soit {x_{ij}; i=1, I}.

L’analyse factorielle (au sens de l’école française) analyse les nuages N_I et N_J au moyen de représentations planes de ces nuages qui respectent autant que possible les proximités entre points. Ces représentations sont obtenues en projetant chacun de ces nuages sur ses directions principales d’inertie (appelées aussi « axes principaux »)[2]. Dans la plupart des cas, on se contente de la représentation sur les deux premières directions d’inertie. Les représentations obtenues montrent les éléments les plus importants de la diversité des données. Elles constituent une visualisation irremplaçable du tableau des données.

Méthodes d'analyse factorielle[modifier | modifier le code]

Les méthodes factorielles bénéficient d’une propriété remarquable connue sous le nom de dualité. Les coordonnées des points du nuage N_I (dans R^J) obtenues par projection sur ses axes principaux sont liées aux coordonnées de N_J (dans R^I) sur ses axes principaux. Les deux représentations (de N_I et de N_J) doivent être étudiées ensemble (voire être représentées ensemble comme c’est le cas en AFC et ACM) et décrive la même structure du tableau des données, l’une à partir des lignes et l’autre à partir des colonnes.

Les méthodes factorielles sont chacune adaptée à un type de tableau particulier.

  • En analyse en composantes principales, les données sont des individus (en ligne) décrits par des variables quantitatives (en colonne). On parle de tableau individu x variables quantitatives.
  • L’analyse des correspondances multiples (ACM) est dédiée aux tableaux individus x variables qualitatives.
  • L’analyse factorielle de données mixtes (AFDM) traite des tableaux individus x variables dans lesquels les variables sont soit quantitatives soit qualitatives.
  • L’analyse factorielle multiple (AFM) traite des tableaux individus x variables dans lesquels les variables, quantitatives ou qualitatives, sont structurées en groupes (exemple d’une enquête dont le questionnaire est structuré en thèmes). Moins connue que les deux premières, cette méthode a un potentiel d’application considérable, les variables étant en pratique très souvent structurées en groupe.
  • L’analyse factorielle multiple hiérarchique[3] (AFMH) généralise l’AFM aux cas où les variables, quantitatives ou qualitatives, sont structurées selon une hiérarchie (exemple d’une enquête dont le questionnaire est structuré en thèmes et en sous-thèmes). Moins connue que l’AFM, cette méthode a un potentiel d’application important, les utilisateurs voulant traiter des données toujours plus complexes.
  • L’analyse factorielle des correspondances (AFC) est dédiée aux tableaux de contingence.

L’AFC mérite une mention particulière. Conçue au début des années 60 par Jean-Paul Benzécri, alors professeur à la Faculté des sciences de Rennes, elle a été le point de cristallisation de l’École française d’analyse des données[4]. Dès le premier exposé de l’AFC[5], l’accent est mis sur la géométrie : construction de nuages de points des lignes et des colonnes, définition d’une métrique (=distance : la fameuse distance du chi²) adaptée dans les espaces utilisés (R^J et R^I), représentation simultanée des lignes et des colonnes permis par la dualité, etc. Les présentations françaises de l’ACP doivent beaucoup à l’AFC[6].

L’analyse factorielle au sens français est donc une famille de méthodes exploratoires : on aborde les données sans hypothèses a priori ; on examine ce que les données ont à dire.

En cela, elles s’opposent à l’analyse factorielle de Spearman, dite quelquefois confirmatoire. Certains considèrent que l'analyse factorielle confirmatoire est en quelque sorte l’étape qui succède à une analyse factorielle exploratoire. Elle sert, comme son nom le dit, à confirmer le modèle à l’étude. Il s’agit d’un cas particulier de la modélisation par équation structurelle. En pratique, les utilisateurs ne mettent jamais en œuvre les deux types de méthodes sur les mêmes données, chacun ayant ses propres options.

Enfin, la pratique de l’analyse factorielle au sens français va largement au-delà de la mise en œuvre d’une famille de méthodes. Au fil des temps, il s’est crée toute une méthodologie dont les éléments les plus remarquables sont la prise en compte d’éléments supplémentaires et l’enchaînement : analyse factorielle puis classification.

Voir aussi[modifier | modifier le code]

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. L'ouvrage Escofier & Pagès 2008. représente bien le point de vue français sur l'analyse factorielle.
  2. Dans le livre Escofier & Pagès 2008. le chapitre 5 présente de façon détaillée ce tronc commun à toutes les méthodes factorielles.
  3. Un chapitre entier de Pagès 2013. est concacré à l'AFMH.
  4. Une date importante dans l'analyse des données à la française est 1973, date de la publication du traité de Benzécri et coll.
  5. Ce premier exposé est la thèse de Brigitte Escofier-Cordier, soutenue en 1965 à l’Université de Rennes. Cette thèse a été publié dans Escofier-Cordier 1969.
  6. C'est la cas des références déjà citées mais de bien d'autres ouvrages comme Husson, Lê & Pagès 2009.

Références[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Jean-Paul Benzécri et al., L'Analyse des Données: 1 La Taxinomie, Paris, Dunod,‎ 1973, 615 p. (ISBN 2-04-003316-5)

Jean-Paul Benzécri et al., L'Analyse des Données: 2 L'Analyse des correspondances, Paris, Dunod,‎ 1973, 619 p. (ISBN 2-04-007335-3)

Brigitte Escofier-Cordier, « L'Analyse Factorielle des Correspondances », Cahiers du BURO (Bureau Universitaire de Recherche Opérationnelle), vol. 13,‎ 1969, p. 25-59 (lire en ligne [PDF])

Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation, Dunod, Paris,‎ 2008, 318 p. (ISBN 978-2-10-051932-3)

François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes,‎ 2009, 224 p. (ISBN 978-2-7535-0938-2)

Jérôme Pagès, Analyse factorielle multiple avec R, EDP sciences, Paris,‎ 2013, 253 p. (ISBN 978-2-7598-0963-9)

Liens externes[modifier | modifier le code]