Approche PLS
L'Approche PLS est une méthode statistique qui permet de modéliser les relations complexes entre des variables observées, dites manifestes, et des variables latentes. PLS vient des expressions « Partial Least Squares regression » et/ou « Projection to Latent Structure ».
Bref Historique
[modifier | modifier le code]L'approche PLS dans sa version actuelle a été présentée pour la première fois par Herman Wold en 1979[1], mais les articles de référence de Wold sur cette méthode sont de 1982[2] et 1985[3]. En anglais on la trouve désignée par PLS Path Modeling. Depuis quelques années, cette approche est de plus en plus populaire dans des communautés scientifiques très variées[4] et utilisée pour des applications très variées, en marketing, en sociologie, en management des systèmes d'information (TAM[5]) ou en chimie.
Modèles d'équations structurelles
[modifier | modifier le code]Les modèles d'équations structurelles (Structural Equation Models) comprennent un grand nombre de méthodologies statistiques, dont l'approche PLS fait partie, qui permettent l'estimation de relations de causalités complexes entre des variables latentes mesurées elles-mêmes au travers de variables observées dites manifestes.
Dans le cadre des modèles d'équations structurelles, deux méthodes s'opposent : d'une part, la méthode par analyse de la structure de covariance (bien souvent appelée LISREL) développée par Jöreskog[6] et, d'autre part, l'approche PLS. Herman Wold a toujours opposé la première qui utilisait, selon ses termes, une « modélisation dure » (« hard modeling », hypothèses de distribution fortes, nécessité d'avoir plusieurs centaines d'observations) à la seconde basée sur une « modélisation douce » (« soft modeling », peu d'hypothèses de distribution et un très petit nombre d'observations suffit à son application). Les deux approches ont été comparées dans Jöreskog et Wold[7].
Du point de vue classique des modèles d'équations structurelles à variables latentes, l'approche PLS est une méthode basée sur des composantes pour laquelle la causalité est formulée en termes d'espérance conditionnelle linéaire. L'approche PLS privilégie la recherche d'une optimalité prédictive des relations plutôt que celle de relation de causalité. Elle est orientée de manière prédictive afin de tester des hypothèses de causalité. Ainsi, plutôt que de valider un modèle sur le plan de la qualité d'ajustement, on utilisera des indices de qualité prédictive que nous présentons par la suite. Pour plus de détails sur ces points, on peut voir deux articles de référence sur le sujet : Chin[8], plutôt orienté vers les applications, et Tenenhaus et al.[9], plutôt orienté vers la théorie.
Par ailleurs, l'approche PLS permet d'analyser des tableaux multiples et peut être directement reliée à des méthodes d'analyse de données classiques de ce domaine. En fait, l'approche PLS peut aussi être vue comme une méthode extrêmement flexible dans l'analyse de tableaux multiples grâce à, d'une part, l'approche PLS hiérarchique et, d'autre part, l'approche PLS confirmatoire[10]. Ces approches montrent que les méthodes classiques basées sur les données (« data-driven methods ») peuvent être reliées à des méthodes basées sur la théorie (« theory-driven methods ») telle que les modèles d'équations structurelles). Ceci permet d'intégrer des connaissances sur les relations entre les tableaux dans les analyses.
Modèle de mesure et modèle structurel
[modifier | modifier le code]Un modèle d'approche PLS est décrit par deux sous-modèles :
- le modèle de mesure (ou modèle externe) reliant les variables manifestes (observées) aux variables latentes qui leur sont associées, et
- le modèle structurel (ou modèle interne) reliant des variables latentes dites endogènes à d'autres variables latentes.
Une variable latente (VL) X est une variable non observable (ou un construit) qui peut être décrite par un ensemble de variables observées Xh appelées variables manifestes (VM) ou indicateurs.
Il y a trois manières de relier les variables manifestes à leur variable latente :
- la manière réflective,
- la manière formative,
- et la manière MIMIC (Multiple effect Indicators for Multiple Causes),
selon que l'on considère que, respectivement
- les variables manifestes sont le reflet de la variable latente,
- que les variables manifestes forment la variable latente,
- ou que l'on a un mélange des deux.
Le modèle structurel relie, quant à lui, les variables latentes en utilisant des équations linéaires (il peut s'agir d'une régression classique OLS, ou d'une régression PLS).
Algorithme d'estimation
[modifier | modifier le code]Les paramètres associés aux variables latentes sont estimés en utilisant un algorithme itératif dont la convergence a été prouvée par Hanafi (référence à valider).
Les variables latentes standardisées (moyenne = 0 et écart-type = 1) sont obtenues par combinaison linéaire des variables manifestes centrées.
L'estimation des poids des variables manifestes dépend du choix fait pour le modèle reliant les variables manifestes à la variable latente (régression multiple, analyse en composantes principales, régression PLS...).
Utilisation des résultats
[modifier | modifier le code]Une fois que l'algorithme a convergé, les résultats obtenus permettent de mesurer l'importance du lien entre les variables latentes, ou entre les variables latentes et leurs variables manifestes. La significativité (au sens statistique) peut être obtenue grâce à des méthodes paramétriques ou de rééchantillonnage. Il est également possible de comparer les coefficients liant les variables latentes pour différents groupes d'individus (au sens statistique).
Logiciels
[modifier | modifier le code]Il existe à l'heure actuelle 4 logiciels proposant l'approche PLS : R (logiciel libre, package plspm), Python (logiciel libre, package pylspm), SmartPLS (logiciel commercial dédié) et XLSTAT (logiciel commercial), SphinxIQ (logiciel commercial). PLS-GUI et SPAD-PLS ne semblent plus distribués. En revanche, les progiciels statistiques SAS, JMP et SPSS (commerciaux) ne proposent que la régression PLS, qui est une technique d'emploi très différent.
Voir aussi
[modifier | modifier le code]Notes et références
[modifier | modifier le code]Notes
[modifier | modifier le code]Bibliographie
[modifier | modifier le code]- Wynne W. Chin, « Issues and Opinion on Structural Equation Modeling », Management Information Systems Quarterly, vol. 22, no 1, (ISSN 0276-7783 et 2162-9730, lire en ligne)
- Wynne W. Chin, Norman A. Johnson et Andrew Schwarz, « A Fast Form Approach to Measuring Technology Acceptance and Other Constructs », MIS Quarterly, vol. 32, no 4, , p. 687-703 (ISSN 0276-7783, DOI 10.2307/25148867, lire en ligne)
- Vincenzo Esposito Vinzi, Wynne W. Chin, Jörg Henseler et Huiwen Wang, Handbook of partial least squares : concepts, methods and applications, Springer, (ISBN 978-3-540-32827-8, 3-540-32827-0 et 978-3-540-32825-4, OCLC 630057647, lire en ligne)
- Karl G. Jöreskog, « A GENERAL METHOD FOR ESTIMATING A LINEAR STRUCTURAL EQUATION SYSTEM », ETS Research Bulletin Series, vol. 1970, no 2, , i–41 (ISSN 0424-6144, DOI 10.1002/j.2333-8504.1970.tb00783.x, lire en ligne)
- Jöreskog, K.G. and Wold, H. (1982). The ML and PLS Techniques for Modeling with Latent Variables: Historical and Comparative Aspects. In: K.G. Jöreskog and H. Wold (Eds.), Systems Under Indirect Observation, Part 1, North-Holland, Amsterdam, 263-270.
- Jan-Bernd Lohmöller, « Predictive vs. Structural Modeling: PLS vs. ML », dans Latent Variable Path Modeling with Partial Least Squares, Physica-Verlag HD, (ISBN 978-3-642-52514-8, lire en ligne), p. 199–226
- Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip, , 254 p. (ISBN 978-2-7108-0735-3)
- (en) Michel Tenenhaus et Mohamed Hanafi, A bridge between PLS path modeling and multi-block data analysis. In : Esposito Vinzi V.et al. (Eds.), Handbook of Partial Least Squares : Concepts, Methods and Applications, Springer Verlag, (ISBN 978-3-540-32825-4)
- Michel Tenenhaus, Vincenzo Esposito Vinzi, Yves-Marie Chatelin et Carlo Lauro, « PLS path modeling », Computational Statistics & Data Analysis, partial Least Squares, vol. 48, no 1, , p. 159–205 (ISSN 0167-9473, DOI 10.1016/j.csda.2004.03.005, lire en ligne)
- Herman Wold (1966). Estimation of Principal Components and Related Models by Iterative Least Squares. In: P.R. Krishnaiah (Ed.), Multivariate Analysis, Academic Press, New York, 391-420.
- Herman Wold (1973). Non-linear Iterative PArtial Least Squares (NIPALS) modelling. Some current developments. In: P.R. Krishnaiah (Ed.), Multivariate Analysis III, Academic Press, New York, 383-407.
- Herman Wold, « Soft Modelling by Latent Variables: The Non-Linear Iterative Partial Least Squares (NIPALS) Approach », Journal of Applied Probability, vol. 12, no S1, , p. 117–142 (ISSN 0021-9002 et 1475-6072, DOI 10.1017/s0021900200047604, lire en ligne)
- Herman Wold, « Model Construction and Evaluation When Theoretical Knowledge Is Scarce », dans Evaluation of Econometric Models, Elsevier, (ISBN 978-0-12-416550-2, lire en ligne), p. 47–74
- (en) Herman Wold, « Soft modelling: intermediate between traditional model building and data analysis », Banach Center Publications, vol. 6, no 1, , p. 333–346 (ISSN 0137-6934 et 1730-6299, DOI 10.4064/-6-1-333-346, lire en ligne, consulté le )
- Herman Wold, « Soft Modeling: The basic design and some extensions », dans K.G. Jöreskog et H. Wold, Systems under indirect observation, Part 2, Amsterdam, North-Holland, , 1-54 p.
- Herman Wold, « Partial Least Square », dans S. Kotz et N.L. Johnson, Encyclopedia of Statistical Sciences, New York, John Wiley & Sons, , 571-591 p.