Régression des moindres carrés partiels

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Régression PLS)
Aller à : navigation, rechercher

La régression des moindres carrés partiels a été inventée en 1983 par Svante Wold et son père Herman Wold ; on utilise fréquemment l'abréviation anglaise régression PLS (« Partial Least Squares regression » et/ou « Projection to Latent Structure »). La régression PLS maximise la variance des prédicteurs (Xi) = X et maximise la corrélation entre X et la variable à expliquer Y. Cet algorithme emprunte sa démarche à la fois à l'analyse en composantes principales (ACP) et à la régression[b 1],[i 1]. Plus précisément, la régression PLS cherche des composantes, appelées variables latentes, liées à X et à Y, servant à exprimer la régression de Y sur ces variables et finalement de Y sur X[b 2].

Historique[modifier | modifier le code]

En 1966, Herman Wold propose un algorithme nommé tout d'abord NILES (« Nonlinear estimation by Iterative LEast Squares »), puis NIPALS (« Nonlinear estimation by Iterative PArtial Least Squares ») pour l'analyse en composantes principales[b 3],[i 1].

En 1975 il présente l'approche PLS, pour analyser les données exprimées en J blocs de variables sur les mêmes individus[b 4].

En 1983, Svante Wold (fils d'Herman Wold) et Harald Martens combinent NIPALS et l'approche PLS pour les adapter à la régression dans le cas où le nombre de variables est très supérieur au nombre d'observations (et où une forte multicollinearité est observee)[Note 1].

En 1989, Svante Wold, Nouna Kettaneh-Wold, et Bert Skagerberg présentèrent pour la première fois la régression PLS non linéaire[i 2].

En 1990 M. Stone et R. J. Brooks proposent une méthode paramétrique permettant d'employer la méthode PLS pour la régression linéaire multiple, la PLS et la régression sur composantes principales[i 1].

Régression PLS linéaire[modifier | modifier le code]

Modèle[modifier | modifier le code]

Illustration explicative de l'approche PLS
fig.01 Approche PLS : réseau de causalité entre quatre groupes de variables (d'après M.Tenenhaus[b 5])

Le modèle de l'approche PLS s'applique sur des blocs de variables continues appelées variables manifestes, chacun de ces blocs sont des observations effectuées sur les mêmes individus. On pense dans ce modèle que chaque bloc de variables peut être résumé par une variable latente. Les variables manifestes peuvent engendrer les variables latentes, elles sont appelées alors variables manifestes formatives, ou bien elles peuvent être engendrées par les variables latentes auquel cas elles sont dénommées variables manifestes réflectives[i 3]. Les variables latentes dites endogènes sont expliquées par les autres variables latentes, les variables latentes explicatives sont dénommées exogènes[i 3].

Comme les régressions linéaires, la régression PLS prend pour hypothèse le modèle (1)

\mathrm{Y} = \mathrm{X} \mathrm{B} + \varepsilon

On recherche deux séries de matrices T et U de « scores » (cotes), P et Q de « loadings » (charges) tels que

\begin{align}
\mathrm{X} &= \mathrm{T} \mathrm{P}' + \mathrm{E} \\ 
\mathrm{Y} &= \mathrm{U} \mathrm{Q}' + \mathrm{F} \\
\mathrm{T} &= \mathrm{X} \mathrm{W}^*\text{,}
\end{align}

D'autre part, les cotes de X sont de bons prédicteurs de Y, ce qui s'écrit (4)

\begin{align}
\mathrm{Y} &= \mathrm{T} \mathrm{Q}' + \mathrm{G}\text{,}
\end{align}

  • X est une matrice n×m de prédicteurs,
  • Y est une matrice n×p de variables réponses,
  • T et U sont des matrices n×l de cotes, composantes ou facteurs,
  • P et Q sont les matrices m×l et p×l des charges,
  • et les matrices E et F sont les termes d'erreur, présumés être i.i.d. normaux.

S. Wold et coll. expliquent ainsi les différentes matrices de la régression PLS :

Les matrices de cotes T multipliées par les matrices de charges P' sont un bon résumé de X garantissant que les termes de résidus E soient faibles. De même U et Q' sont de bons résumés de Y, minimisant F. Les cotes de X sont aussi de bons prédicteurs de Y (voir équ.(4) ci-dessus)[i 4].

Les résidus G expriment l'écart entre l'observation et le modèle. On retrouve le modèle de régression multivarié (1)

\begin{align}
\mathrm{Y} &= \mathrm{X} \mathrm{W}^* \mathrm{Q}' + \mathrm{F} \\
\text{où } \mathrm{B} &= \mathrm{W}^* \mathrm{Q}'\text{,}
\end{align}

Algorithme[modifier | modifier le code]

fig.02 : Algorithme général de la régression PLS d'après Svante Wold et coll[i 4].

L'algorithme PLS, inspiré de l'approche PLS et de NIPALS, est itératif[i 5]. Chaque étape de l'itération produit une composante.

L'algorithme classique de la régression PLS multivariée (PLS2) est défini ci-dessous[b 6] :

Si a  \leqslant \mathrm{rang}(\mathrm{X})
Étape1 – \mathrm{X}_0  \longleftarrow \mathrm{X}, \mathrm{Y}_0  \longleftarrow \mathrm{Y}
Étape2 – \text{pour } h = 1, 2, \dots ,a
Étape2.1 – u_h \longleftarrow \mathrm{Y}_{h-1}[,1]
Étape2.2 – répéter jusqu'à convergence de w_h
Étape2.2.1 – w_h \longleftarrow \mathrm{X}'_{h-1}u_h/u'_hu_h
Étape2.2.2 – normer w_h à 1
Étape2.2.3 – t_h \longleftarrow \mathrm{X}_{h-1}w_h/w'_hw_h
Étape2.2.4 – c_h \longleftarrow \mathrm{Y}'_{h-1}t_h/t'_ht_h
Étape2.2.5 – u_h \longleftarrow \mathrm{Y}_{h-1}c_h/c'_hc_h
Étape2.3 – p_h \longleftarrow \mathrm{X}'_{h-1}t_h/t'_ht_h
Étape2.4 – \mathrm{X}_h \longleftarrow \mathrm{X}_{h-1} - t_hp'_h
Étape2.5 – \mathrm{Y}_h \longleftarrow \mathrm{Y}_{h-1} - t_hc'_h

La qualité de l'estimation est estimée par validation croisée, ou bien à l'aide du R2 ou du Q2 de Stone-Geisser[b 7].

L'interprétation se fait de la même manière qu'en analyse en composante principale, à l'aide de graphes montrant les observations sur les axes des variables latentes[i 6]. Les paramètres t et u sont porteurs des similarités/dissimilarités entre les objets (individus)[i 4]. Toujours d'après S. Wold et coll, les poids w et c donnent des informations sur les corrélations entre Y et X. Les résidus de Y servent à apprécier l'ajustement au modèle, les résidus de X servent à détecter les valeurs aberrantes.

Géométriquement, la régression PLS est une projection sur un hyperplan de l'espace des X, de telle manière que ce plan soit une bonne estimation du nuage de points des X et dont les coordonnées des projections (les p) soient de bons prédicteurs des Y[i 4].

Régression PLS non linéaire[modifier | modifier le code]

Article détaillé : Régression non linéaire.

Il y a au moins deux manières d'introduire la non-linéarité dans l'approche PLS : la première consiste en une transformation non linéaire des données d'observations pour ensuite effectuer une régression linéaire PLS sur ces données transformées, la seconde consiste à assumer que les variables latentes t et u sont liées par des relations non linéaires[i 2],[i 7].

Dans la première catégorie se trouvent des méthodes telles que : INLR de Anders Berglund et Svante Wold (« Implicit non-linear latent variable regression ») ajoute les carrés des variables X aux variables prédicteurs[i 8].

Alors que dans la seconde, on peut lister :

  • La méthode PLS quadratique, proposée par S. Wold et al. en 1989, qui consiste à remplacer la relation linéaire entre les variables t et u par une relation polynomiale du second degré.
  • I. E. Frank expose en 1990 le modèle NLPLS (« Non Linear PLS ») où la relation, entre les mêmes variables internes que ci-dessus, est exprimée par des fonctions lissantes.
  • Toujours S. Wold en 1992, remplace la relation polynomiale de 1989 par une relation via des fonctions splines dans un modèle dénommé SPLPLS[i 7].
  • Dans GIFI – PLS[i 8], on remplace la variable X par une série de variables constituées à partir de X et des classes de valeurs de X, puis on applique la régression PLS sur ces nouvelles variables.

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. voir fig.01 pour un exemple de modèle structurel dans l'approche PLS.

Références[modifier | modifier le code]

Ouvrages spécialisés[modifier | modifier le code]

  1. Tufféry 2010, p. 396
  2. Tenenhaus 1998, p. 76
  3. Tenenhaus 1998, p. 61
  4. Tenenhaus 1998, p. 233
  5. Tenenhaus 1998, p. 243
  6. Tenenhaus 1998, p. 128
  7. Tenenhaus 1998, p. 237 et suiv.

Articles publiés sur internet[modifier | modifier le code]

  1. a, b et c [PDF]Séverine Vancolen, « Régression PLS »,‎ 2004 (consulté le 17 décembre 2011)
  2. a et b [PDF](en) Roman Rosipal, « « Nonlinear Partial Least Squares: An Overview » » (consulté le 31 décembre 2011)
  3. a et b [PDF]Michel Tenenhaus, « L'approche PLS »,‎ 1999 (consulté le 16 décembre 2011)
  4. a, b, c et d [PDF](en) Svante Wold, Michael Sjöström, Lennart Eriksson, « « PLS-regression: a basic tool of chemometrics » »,‎ 2001 (consulté le 31 décembre 2011)
  5. [PDF]Emmanuel Jakobowicz, Addinsoft, « Les Modèles d'équations structurelles à variables latentes »,‎ 2009 (consulté le 17 décembre 2011)
  6. [PDF](en) Hervé Abdi, « « Partial Least Squares (PLS) Regression » » (consulté le 30 décembre 2011)
  7. a et b [PDF](en) Mirtille Vivien, « Approches PLS linéaires et non linéaires pour la modélisation de multi-tableaux : théorie et applications »,‎ 2002 (consulté le 2 janvier 2012)
  8. a et b Marlene Mörtsell, Mårten Gulliksson, « « An overview of some non-linear techniques in Chemometrics » » (consulté le 3 janvier 2012)

Bibliographie[modifier | modifier le code]

  • Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip,‎ 1998, 254 p. (ISBN 978-2-7108-0735-3)Document utilisé pour la rédaction de l’article
  • Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip,‎ 2010, 705 p. (ISBN 978-2-7108-0946-3)Document utilisé pour la rédaction de l’article