Approche PLS

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

L'Approche PLS est une méthode statistique qui permet de modéliser les relations complexes entre des variables observées, dites manifestes, et des variables latentes. PLS vient des expressions « Partial Least Squares regression » et/ou « Projection to Latent Structure ».

Bref Historique[modifier | modifier le code]

L'approche PLS dans sa version actuelle a été présentée pour la première fois par Herman Wold en 1979, mais les articles de référence de Wold sur cette méthode sont de 1982 et 1985. En anglais on la trouve désignée par PLS Path Modeling.

Depuis quelques années, cette approche est de plus en plus populaire dans des communautés scientifiques très variées (Esposito Vinzi et al., 2008) et utilisée pour des applications très variées, en marketing, en sociologie ou en chimie.

Modèles d'équations structurelles[modifier | modifier le code]

Les modèles d'équations structurelles (Structural Equation Models) comprennent un grand nombre de méthodologies statistiques, dont l'approche PLS fait partie, qui permettent l'estimation de relation de causalités complexes entre des variables latentes mesurées elles-mêmes au travers de variables observées dites manifestes.

Dans le cadre des modèles d'équations structurelles, deux méthodes s'opposent : d'une part, la méthode par analyse de la structure de covariance (bien souvent appelée LISREL) développée par Jöreskog (1970)[1] et, d'autre part, l'approche PLS. Herman Wold a toujours opposé la première qui utilisait, selon ses termes, une « modélisation dure » (« hard modeling », hypothèses de distribution fortes, nécessité d'avoir plusieurs centaines d'observations) à la seconde basée sur une « modélisation douce » (« soft modeling », peu d'hypothèses de distribution et un très petit nombre d'observations suffit à son application). Les deux approches ont été comparées dans Jöreskog et Wold (1982).

Du point de vue classique des modèles d'équations structurelles à variables latentes, l'approche PLS est une méthode basée sur des composantes pour laquelle la causalité est formulée en termes d'espérance conditionnelle linéaire. L'approche PLS privilégie la recherche d'une optimalité prédictive des relations plutôt que celle de relation de causalité. Elle est orientée de manière prédictive afin de tester des hypothèses de causalité. Ainsi, plutôt que de valider un modèle sur le plan de la qualité d'ajustement, on utilisera des indices de qualité prédictive que nous présentons par la suite. Pour plus de détails sur ces points, on peut voir deux articles de référence sur le sujet : Chin (1998, plutôt orienté vers les applications) et Tenenhaus et al. (2005, plutôt orienté vers la théorie).

Par ailleurs, l'approche PLS permet d'analyser des tableaux multiples et peut être directement reliée à des méthodes d'analyse de données classiques de ce domaine. En fait, l'approche PLS peut aussi être vue comme une méthode extrêmement flexible dans l'analyse de tableaux multiples grâce à, d'une part, l'approche PLS hiérarchique et, d'autre part, l'approche PLS confirmatoire (Tenenhaus et Hanafi, 2008). Ces approches montrent que les méthodes classiques basées sur les données (« data-driven methods ») peuvent être reliées à des méthodes basées sur la théorie (« theory-driven methods ») telle que les modèles d'équations structurelles). Ceci permet d'intégrer des connaissances sur les relations entre les tableaux dans les analyses.

Modèle de mesure et modèle structurel[modifier | modifier le code]

Un modèle d'approche PLS est décrit par deux sous-modèles : (1) le modèle de mesure (ou modèle externe) reliant les variables manifestes (observées) aux variables latentes qui leur sont associées et (2) le modèle structurel (ou modèle interne) reliant des variables latentes dites endogènes à d'autres variables latentes.

Une variable latente (VL) X est une variable non observable (ou un construit) qui peut être décrit par un ensemble de variables observées Xh appelées variables manifestes (VM) ou indicateurs. Il y a trois manières de relier les variables manifestes à leur variable latente appelés respectivement la manière réflective, la manière formative et la manière MIMIC (Multiple effect Indicators for Multiple Causes), selon que l'on considère que - les variables manifestes sont le reflet de la variable latente, - ou que les variables manifestes forment la variable latente, - ou que l'on a un mélange des deux.

Le modèle structurel relie quant à lui les variables latentes en utilisant des équations linéaires (il peut s'agir d'une régression classique OLS, ou d'une régression PLS).

Algorithme d'estimation[modifier | modifier le code]

Les paramètres associés aux variables latentes sont estimés en utilisant un algorithme itératif dont la convergence a été prouvée par Hanafi (référence à valider).

Les variables latentes standardisées (moyenne = 0 et écart-type = 1) sont obtenues par combinaison linéaire des variables manifestes centrées.

L'estimation des poids des variables manifestes dépend du choix fait pour le modèle reliant les variables manifestes à la variable latente (régression multiple, analyse en composantes principales, régression PLS...).

Utilisation des résultats[modifier | modifier le code]

Une fois que l'algorithme a convergé, les résultats obtenus permettent de mesurer l'importance du lien entre les variables latentes, ou entre les variables latentes et leurs variables manifestes. La significativité (au sens statistique) peut être obtenue grâce à des méthodes paramétriques ou de rééchantillonnage. Il est également possible de comparer les coefficients liant les variables latentes pour différents groupes d'individus (au sens statistique).

Logiciels[modifier | modifier le code]

Il existe à l'heure actuelle que 6 logiciels proposant l'approche PLS : SAS (logiciel commerical), R (logiciel libre), Python (logiciel libre), SmartPLS (logiciel commercial) et XLSTAT (logiciel commercial), SphinxIQ (logiciel commercial)

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

Références[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Régression PLS

Bibliographie[modifier | modifier le code]

  • (fr) Gana, K. & Broc, G. (2018). Introduction à la modélisation par équations structurales. Manuel pratique avec lavaan. Londres: ISTE Editions (ISBN 9781784054625)
  • (en) Jöreskog, K.G. and Wold, H. (1982). The ML and PLS Techniques for Modeling with Latent Variables: Historical and Comparative Aspects. In: K.G. Jöreskog and H. Wold (Eds.), Systems Under Indirect Observation, Part 1, North-Holland, Amsterdam, 263-270.
  • (en) Tenenhaus M., Esposito Vinzi V., Chatelin Y.-M. and Lauro C. (2005). PLS Path Modeling. Computational Statistics & Data Analysis, 48(1), 159-205.
  • (en) Michel Tenenhaus et Mohamed Hanafi, A bridge between PLS path modeling and multi-block data analysis. In: Esposito Vinzi V.et al. (Eds.), Handbook of Partial Least Squares: Concepts, Methods and Applications, Springer Verlag, (ISBN 978-3540328254)
  • (fr) Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip, , 254 p. (ISBN 978-2-7108-0735-3)
  • (en) Wold H. (1966). Estimation of Principal Components and Related Models by Iterative Least Squares. In: P.R. Krishnaiah (Ed.), Multivariate Analysis, Academic Press, New York, 391-420.
  • (en) Wold H. (1973). Non-linear Iterative PArtial Least Squares (NIPALS) modelling. Some current developments. In: P.R. Krishnaiah (Ed.), Multivariate Analysis III, Academic Press, New York, 383-407.
  • (en) Wold H. (1975). Soft Modelling by latent variables: the Non-linear Iterative PArtial Least Squares (NIPALS) Approach. In: J. Gani (Ed.), Perspectives in Probability and Statistics: Papers, in Honour of M.S. Bartlett on the occasion of his sixty-fifth birthday, Applied Probability Trust, Academic, London, 117-142.
  • (en) Wold H. (1979). Model construction and evaluation when theoretical knowledge is scarce: an example of the use of Partial Least Squares. Cahier 79.06 du Département d'économétrie, Faculté des Sciences Économiques et Sociales. Genève: Université De Genève.
  • (en) Wold H. (1982). Soft Modeling: The basic design and some extensions. In: K.G. Jöreskog and H. Wold (Eds.), Systems under indirect observation, Part 2, North-Holland, Amsterdam, 1-54.
  • (en) Wold H. (1985). Partial Least Squares. In: S. Kotz and N.L. Johnson (Eds.), Encyclopedia of Statistical Sciences, John Wiley & Sons, New York, 6, 581-591.

Articles connexes[modifier | modifier le code]

  1. Kamel Gana & Guillaume Broc, Introduction à la modélisation par équations structurales. Manuel pratique avec lavaan, Londres, ISTE Editions, , 312 p. (ISBN 9781784054625)