Analyse factorielle
L'analyse factorielle est un terme qui désigne aujourd'hui plusieurs méthodes d'analyses de grands tableaux rectangulaires de données, visant à déterminer et à hiérarchiser des facteurs corrélés aux données placées en colonnes.
Au sens anglo-saxon du terme, l'analyse factorielle (factor analysis) désigne une méthode de la famille de la statistique multivariée, utilisée pour décrire un ensemble de variables observées, au moyen de variables latentes (non observées). Pour réduire le nombre de variables, la méthode calcule ces variables latentes comme combinaisons linéaires des variables observées. Créée au début du XXe siècle par Charles Spearman, cette méthode est utilisée en psychologie et particulièrement en psychométrie. Dans la méthodologie Q, Stephenson, un élève de Spearman, distingue l'analyse factorielle R, orientée sur les différences interindividuelles, et l'analyse factorielle Q, orientée sur les différences intraindividuelles [1],[2]. En France, la terminologie « analyse factorielle » représente une autre famille de méthodes plus récentes et d'applications bien plus larges touchant la plupart des disciplines qui manipulent des grands tableaux de données[3]. Cette famille est composée principalement de l'analyse en composantes principales (ACP) et de l'analyse factorielle des correspondances (AFC), développée par Jean-Paul Benzécri à Rennes puis à Paris à partir des années 1960.
Définition
Dans le langage des praticiens français, le terme analyse factorielle désigne une sous-famille de méthodes de l'analyse des données, aux côtés des méthodes de classification automatique. En analyse factorielle au sens français, on associe aux lignes et aux colonnes d’un tableau de données un nuage de points évoluant dans un espace de grande dimension. Plus précisément, si le tableau présente lignes et colonnes et a pour terme général (à l’intersection de la ligne et de la colonne ), on construit :
- le nuage contenant points (un point représente une ligne) dans un espace à dimensions noté (une dimension par colonne). Les coordonnées du point sont les valeurs de la ligne soit {}. Lorsque , on est en présence du graphique cartésien usuel (dit souvent graphique en x,y).
- le nuage contenant points (un point représente une colonne) dans un espace à dimensions noté (une dimension par ligne). Les coordonnées du point sont les valeurs de la colonne soit {}.
L’analyse factorielle (au sens de l’école française) analyse les nuages et au moyen de représentations sur des axes et des plans de ces nuages qui respectent autant que possible les proximités et distances entre points. Ces représentations sont obtenues en projetant chacun de ces nuages sur ses directions principales d’inertie (appelées aussi « axes principaux »)[4]. Dans la plupart des cas, on se contente de la représentation sur les premières directions d’inertie, voire sur le premier plan (dit plan 1,2) où l'on observe la silhouette la plus étendue du nuage de points. Plus précisément, pour choisir le nombre d'axes ou de plans à observer, on s'appuie sur le pourcentage d'information qui est représenté sur chacune de ces projections. Les représentations obtenues montrent les éléments les plus importants de la diversité des données et permettent de rechercher les facteurs descriptifs principaux. Elles constituent une visualisation irremplaçable du tableau des données.
Méthodes d'analyse factorielle
Les méthodes factorielles bénéficient d’une propriété remarquable connue sous le nom de dualité. Les coordonnées des points du nuage (dans ) obtenues par projection sur ses axes principaux sont liées aux coordonnées de (dans ) sur ses axes principaux. Les deux représentations (de et de ) doivent être étudiées ensemble (voire être représentées ensemble comme c’est le cas en AFC et ACM) et décrivent la même structure du tableau des données, l’une à partir des lignes et l’autre à partir des colonnes.
Les méthodes d'analyses factorielles sont complémentaires et ont été développées progressivement en parallèle avec la généralisation des moyens informatiques de calcul en fonction des différents besoins des disciplines et des équipes.
- En analyse en composantes principales (ACP) ou en analyse factorielle des correspondances (AFC), les données sont des individus (en lignes) décrits par des variables (en colonnes) quantitatives ou qualitatives, mais traitées comme des nombres (0 ou 1). On parle d'un tableau individu x variables. La principale différence entre ces deux méthodes vient de la procédure de calcul des projections sur les axes et donc de la gestion de la dualité lignes x colonnes. L'ACP n'introduit pas de différence de masse entre les points lors du calcul des axes d'inertie, alors que l'AFC affecte à chaque variable ou individu une masse qui est la somme des valeurs de la ligne ou de la colonne correspondante dans le tableau de données. Un des effets est qu'en ACP on doit observer deux familles de figures complémentaires, celles représentant les lignes et celles des colonnes, alors qu'en AFC tous les points aussi bien ceux représentatifs des lignes et des colonnes sont projetés sur les mêmes figures.
- L’analyse des correspondances multiples (ACM) est une simple généralisation de l'AFC, dédiée aux tableaux individus x plusieurs variables qualitatives.
- L’analyse factorielle de données mixtes (AFDM) traite des tableaux individus x variables dans lesquels les variables sont soit quantitatives soit qualitatives.
- L’analyse factorielle multiple (AFM) traite des tableaux individus x variables dans lesquels les variables, quantitatives ou qualitatives, sont structurées en groupes (exemple d’une enquête dont le questionnaire est structuré en thèmes). Moins connue que les deux premières, cette méthode a un potentiel d’application considérable, les variables étant en pratique très souvent structurées en groupe.
- L’analyse factorielle multiple hiérarchique[5] (AFMH) généralise l’AFM aux cas où les variables, quantitatives ou qualitatives, sont structurées selon une hiérarchie (exemple d’une enquête dont le questionnaire est structuré en thèmes et en sous-thèmes). Moins connue que l’AFM, cette méthode a un potentiel d’application important, les utilisateurs voulant traiter des données toujours plus complexes.
L’analyse factorielle des correspondances mérite une mention particulière. Conçue au début des années 1960 par Jean-Paul Benzécri, alors professeur à la Faculté des sciences de Rennes, elle a été le point de cristallisation de l’École française d’analyse des données[6]. Dès le premier exposé de l’analyse factorielle des correspondances[7], l’accent est mis sur la géométrie : construction de nuages de points des lignes et des colonnes, définition d’une métrique (=distance : la fameuse distance du chi²) adaptée dans les espaces utilisés ( et ), représentation simultanée des lignes et des colonnes permise par la dualité, etc. Les présentations françaises de l'analyse en composantes principales doivent beaucoup à l’analyse factorielle des correspondances[8].
L’analyse factorielle au sens français est donc une famille de méthodes exploratoires : on aborde les données sans hypothèses a priori ; on examine ce que les données ont à dire.
En cela, elles s’opposent à l’analyse factorielle de Spearman, dite quelquefois confirmatoire. Certains considèrent que l'analyse factorielle confirmatoire est en quelque sorte l’étape qui succède à une analyse factorielle exploratoire. Elle sert, comme son nom le dit, à confirmer le modèle à l’étude. Il s’agit d’un cas particulier de la modélisation par équation structurelle. En pratique, les utilisateurs ne mettent jamais en œuvre les deux types de méthodes sur les mêmes données, chacun ayant ses propres options.
Enfin, la pratique de l’analyse factorielle au sens français va largement au-delà de la mise en œuvre d’une famille de méthodes. Au fil des temps, il s’est créé toute une méthodologie dont les éléments les plus remarquables sont la prise en compte d’éléments supplémentaires et l’enchaînement : analyse factorielle puis classification.
Voir aussi
- Analyse en composantes principales
- Analyse en composantes indépendantes
- Modèle hiérarchique à trois strates de John Carroll (psychométrie)
- Modèle de Cattell-Horn-Carroll (psychométrie)
Notes et références
- McKeown, Bruce., Q methodology, , 96 p. (ISBN 978-1-4522-4219-4 et 1452242194, OCLC 841672556, lire en ligne)
- (en) W. Stephenson, « Technique of Factor Analysis », Nature, vol. 136, no 3434, , p. 297–297 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/136297b0, lire en ligne, consulté le )
- L'ouvrage Escofier & Pagès 2008. représente bien le point de vue français sur l'analyse factorielle.
- Dans le livre Escofier & Pagès 2008. le chapitre 5 présente de façon détaillée ce tronc commun à toutes les méthodes factorielles.
- Un chapitre entier de Pagès 2013. est concacré à l'AFMH.
- Une date importante dans l'analyse des données à la française est 1973, date de la publication du traité de Benzécri et coll.
- Ce premier exposé est la thèse de Brigitte Escofier-Cordier, soutenue en 1965 à l’Université de Rennes. Cette thèse a été publié dans Escofier-Cordier 1969.
- C'est le cas des références déjà citées mais de bien d'autres ouvrages comme Husson, Lê & Pagès 2009.
Bibliographie
Jean-Paul Benzécri et al., L'Analyse des Données : 1 La Taxinomie, Paris, Dunod, , 615 p. (ISBN 2-04-003316-5)
Jean-Paul Benzécri et al., L'Analyse des Données : 2 L'Analyse des correspondances, Paris, Dunod, , 619 p. (ISBN 2-04-007335-3)
Brigitte Escofier-Cordier, « L'Analyse Factorielle des Correspondances », Cahiers du BURO (Bureau Universitaire de Recherche Opérationnelle), vol. 13, , p. 25-59 (lire en ligne [PDF])
Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs, méthodes et interprétation, Paris, Dunod, Paris, , 318 p. (ISBN 978-2-10-051932-3)
François Husson, Sébastien Lê et Jérôme Pagès, Analyse des données avec R, Presses Universitaires de Rennes, , 224 p. (ISBN 978-2-7535-0938-2)
Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)