Algorithme du gradient stochastique

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions différentiables.

Préliminaires[modifier | modifier le code]

Méthode itérative[modifier | modifier le code]

Les fluctuations de la fonction coût objectif sont représentées en fonction des étapes de la descente de gradient, avec mini-lots.

Dans la descente de gradient stochastique (ou « en ligne »), la vraie valeur du gradient de $Q(w)$ est approchée par le gradient d'une seule composante de la somme (c'est-à-dire d'un seul exemple) :

Alors que l'algorithme parcourt l'ensemble d'apprentissage, il réalise cette étape de mise-à-jour pour chaque exemple. Plusieurs parcours de l'ensemble d'apprentissage peuvent être nécessaires avant la convergence de la méthode. Si cela est nécessaire, les données sont habituellement mélangées à chaque parcours, afin d'éviter les cycles. Une autre astuce souvent mise en place en pratique consiste à utiliser un taux d'apprentissage adaptatif afin d'améliorer ou d'assurer la convergence de l'algorithme.

En pseudo-code, la méthode de descente de gradient stochastique peut être représentée comme suit :

Choisir des valeurs initiales pour les paramètres $w$ , et un taux d'apprentissage $\eta$ .
Répéter jusqu'à ce qu'un minimum approché (assez précisément) soit obtenu :
- Mélanger aléatoirement les échantillons de l'ensemble d'apprentissage.
- Pour $\!i=1,2,...,n$ $\!i=1,2,...,n$ , faire :
  - $\!w:=w-\eta \nabla Q_{i}(w).$

Un compromis entre les deux formes est appelé « mini-lots » : au lieu de calculer le gradient d'un seul exemple ou le gradient de tous les exemples, la méthode calcule à chaque étape le gradient sur plusieurs exemples (des petits lots, d'où le nom). Cette variante peut être bien plus efficace que la méthode simple de descente de gradient stochastique, parce qu'une implémentation bien écrite peut utiliser des bibliothèques de calcul vectoriel, au lieu de calculer chaque étape séparément. La variante « mini-lots » peut aussi présenter une convergence plus lisse, comme le gradient calculé à chaque étape utilise plus d'exemples d'apprentissage.

La convergence de l'algorithme de descente de gradient stochastique a été analysée via les théories de l'optimisation convexe et de l'approximation stochastique. En bref, lorsque l'on peut assurer que le taux d'apprentissage $\eta$ est décroissant (avec une vitesse suffisante), et vérifie certaines hypothèses de régularité, alors l'algorithme converge presque sûrement vers un minimum global, si la fonction coût est convexe ou quasi-convexe, ou sinon converge presque sûrement vers un minimum local^[3]^,^[4]. Ce résultat peut aussi être obtenu comme une application du théorème de Robbins-Siegmund^[5].

Exemple[modifier | modifier le code]

Supposons que nous voulions utiliser une ligne droite ( $y=\!w_{1}+w_{2}x$ ) pour représenter un ensemble de points d'apprentissages (en deux dimensions) $\!(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ , en utilisant les moindres carrés. La fonction coût à minimiser est alors :

Q(w)=\sum _{i=1}^{n}Q_{i}(w)=\sum _{i=1}^{n}\left(w_{1}+w_{2}x_{i}-y_{i}\right)^{2}.

La dernière ligne de l'algorithme en pseudo-code (voir ci-dessus) pour ce problème précis devient :

{\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}:={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}2(w_{1}+w_{2}x_{1}-y_{1})\\2x_{2}(w_{1}+w_{2}x_{2}-y_{2})\end{bmatrix}}

Applications[modifier | modifier le code]

La descente de gradient stochastique est un algorithme très utilisé pour l'entraînement de nombreuses familles de modèles en apprentissage automatique, notamment les machines à vecteurs support (linéaires), la régression logistique (voir par exemple Vowpal Wabbit) et les modèles graphiques^[6]. Lorsqu'elle est combinée à l'algorithme de propagation inverse, la méthode obtenue est l'algorithme standard de facto, le plus utilisé pour l'entraînement des réseaux neuronaux artificiels.

La méthode DGS (SGD en anglais) est en compétition directe avec l'algorithme L-BFGS, ^{[citation nécessaire]} qui lui aussi est très utilisé. DGS est utilisé depuis les années 1960 au moins, pour entraîner des modèles de régression linéaire, initialement sous le nom ADALINE^[7].

Un autre algorithme assez utilisé de descente de gradient stochastique est le filtre moyen des moindres carrés (LMS) adaptatif.

Extensions et variantes[modifier | modifier le code]

De nombreuses améliorations sur l'algorithme SGD initial ont été proposées et utilisées. En particulier, en apprentissage automatique, la nécessité de fixer un taux d'apprentissage (le pas de l'algorithme) est souvent problématique : un paramètre trop grand peut faire diverger l'algorithme tandis qu'un paramètre trop petit ralentit la convergence.

Une extension de SGD relativement simple consiste à choisir comme taux d'apprentissage une fonction $\eta _{t}$ décroissante en fonction du nombre d'itérations $t$ , donnant une progression du taux d'apprentissage, de sorte que les premières itérations permettent de forts changements dans les paramètres, tandis que les itérations tardives ne feront que les peaufiner légèrement. De telles progressions décroissantes sont connues depuis les travaux de MacQueen sur les K-moyennes^[8].

SGD Moment[modifier | modifier le code]

Parmi les autres propositions, on notera notamment la méthode du moment, qui apparaît dans un article de Rumelhart, Hinton et Williams sur l'apprentissage par rétro-propagation^[9]. La méthode SGD avec moment conserve en mémoire la mise-à-jour à chaque étape ( $\Delta w$ ), et calcule la suivante comme une combinaison linéaire du gradient actuel et de la modification précédente : si on note $w_{n}$ les coefficients obtenus après n itérations, ainsi que $\Delta w_{n}$ la n-ième mise à jour des paramètres :

\Delta w_{n+1}:=\eta \nabla Q_{i}(w)+\alpha \Delta w_{n}

w_{n+1}:=w_{n}-\Delta w_{n+1}

Le nom moment vient d'une analogie avec le moment en physique : le vecteur de paramètres $w$ , considéré comme une particule qui voyage au travers de l'espace des paramètres (souvent en grande dimension), subit une accélération via le gradient (qui agit comme une « force »). Contrairement à la méthode SGD classique, cette variante a tendance à continuer de voyager dans la même direction, en empêchant les oscillations. La méthode SGD moment a été utilisée avec succès depuis plusieurs dizaines d'années ^[10].

Moyennage[modifier | modifier le code]

L'algorithme de SGD moyenné, inventé indépendamment par Ruppert et Polyak à la fin des années 1980, est une méthode SGD qui conserve en mémoire la valeur moyenne (cumulée) de son vecteur de paramètre au cours du temps. C'est-à-dire que l'étape de mise-à-jour est la même que pour l'algorithme SGD ordinaire, mais en gardant aussi la trace de la valeur moyenne (étape après étape)^[11] :

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w

.

Lorsque l'optimisation est terminée, ce vecteur moyenné de paramètres sera utilisé à la place de $w$ .

AdaGrad[modifier | modifier le code]

AdaGrad (diminutif de adaptive gradient, anglais pour « gradient adaptatif ») est une amélioration de la méthode SGD qui détermine automatiquement un taux d'apprentissage pour chaque paramètre^[12]^,^[13]. On choisit toujours un taux d'apprentissage commun ( $\eta$ ), mais celui-ci est multiplié par les éléments du vecteur $G_{j,j}$ , qui est obtenu comme diagonale de la matrice $G$ suivante :

G=\sum _{\tau =1}^{t}g_{\tau }g_{\tau }^{\mathsf {T}}

où $g_{\tau }=\nabla Q_{i}(w)$ est le gradient à l'étape $\tau$ . La diagonale est donnée par : $G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}$ .

Ce vecteur est mis-à-jour à chaque itération. Ainsi, $G$ accumule les amplitudes (carrées) des gradients au cours de la descente, par composante. La formule pour chaque mise-à-jour est désormais :

w:=w-\eta \,\mathrm {diag} (G)^{-{\frac {1}{2}}}\odot g

^{[note 1]}

ou, si on écrit la mise-à-jour pour chaque paramètre :

w_{j}:=w_{j}-{\frac {\eta }{\sqrt {G_{j,j}}}}g_{j}.

Chaque $G_{j,j}$ donne un facteur multiplicatif appliqué au taux d'apprentissage correspondant à l'unique paramètre $w_{i}$ . Et comme le dénominateur de ce facteur ( ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ ) est la norme ℓ₂ des dérivées précédentes, les mises-à-jour trop importantes des paramètres sont atténuées tandis que les petites modifications sont faites avec un taux d'apprentissage plus grand (et donc sont amplifiées) ^[10].

Alors qu'elle fut initialement pensée pour des problèmes convexes, AdaGrad a été appliquée avec succès à l'optimisation non-convexe^[14].

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

↑ $\odot$ est le produit matriciel.

Références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Stochastic gradient descent » (voir la liste des auteurs).

↑ Thomas S. Ferguson, « An inconsistent maximum likelihood estimate », Journal of the American Statistical Association, vol. 77, n^o 380,‎ 1982, p. 831–834 (DOI 10.1080/01621459.1982.10477894, JSTOR 2287314)
↑ Léon Bottou et Olivier Bousquet « The Tradeoffs of Large Scale Learning » (2008) (lire en ligne)
—Advances in Neural Information Processing Systems
↑ (en) Léon Bottou, Online Learning and Neural Networks, Cambridge University Press, 1998 (ISBN 978-0-521-65263-6, lire en ligne)
↑ Krzysztof C. Kiwiel, « Convergence and efficiency of subgradient methods for quasiconvex minimization », Mathematical Programming (Series A), Berlin, Heidelberg, Springer, vol. 90, n^o 1,‎ 2001, p. 1–25 (ISSN 0025-5610, DOI 10.1007/PL00011414, MR 1819784)
↑ (en) Herbert Robbins et David O. Siegmund, Optimizing Methods in Statistics, Academic Press, 1971directeur = jagdish s. rustagi
↑ Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008).
↑ Avi Pfeffer, « CS181 Lecture 5 — Perceptrons », Harvard University
↑ Cited by Christian Darken et John Moody « Fast adaptive k-means clustering: some empirical results » (1990)
—Int'l Joint Conf. on Neural Networks (IJCNN)
— « (ibid.) », IEEE,‎ 1990
↑ David E. Rumelhart, Hinton, Geoffrey E. et Williams, Ronald J., « Learning representations by back-propagating errors », Nature, vol. 323, n^o 6088,‎ 8 octobre 1986, p. 533–536 (DOI 10.1038/323533a0)
↑ ^{a et b} (en) Matthew D. Zeiler, « ADADELTA: An adaptive learning rate method », 2012.
↑ Boris T. Polyak et Anatoli B. Juditsky, « Acceleration of stochastic approximation by averaging », SIAM J. Control and Optimization, vol. 30, n^o 4,‎ 1992, p. 838–855
↑ John Duchi, Elad Hazan et Yoram Singer, « Adaptive subgradient methods for online learning and stochastic optimization », JMLR, vol. 12,‎ 2011, p. 2121–2159 (lire en ligne)
↑ Joseph Perla, « Notes on AdaGrad » [archive du 30 mars 2015], 2014 (consulté le 4 juillet 2015)
↑ Maya R. Gupta, Samy Bengio et Jason Weston, « Training highly multiclass classifiers », JMLR, vol. 15, n^o 1,‎ 2014, p. 1461–1492 (lire en ligne)

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lectures supplémentaires[modifier | modifier le code]

(fr) Algorithme du gradient stochastique avec exemples [PDF]
(en) Dimitri Bertsekas, Convex Analysis and Optimization, Athena Scientific, 2003
(en) Dimitri P. Bertsekas, Nonlinear Programming, Cambridge, MA., Athena Scientific, 1999 (ISBN 1-886529-00-0)
(en) Léon Bottou, Advanced Lectures on Machine Learning, LNAI 3176, Springer Verlag, 2004, 146–168 p. (ISBN 978-3-540-23122-6, lire en ligne)
W. C. Davidon, « New least-square algorithms », Journal of Optimization Theory and Applications, vol. 18, n^o 2,‎ 1976, p. 187–197 (DOI 10.1007/BF00935703, MR 418461)
Krzysztof C. Kiwiel, « Convergence of approximate and incremental subgradient methods for convex optimization », SIAM Journal of Optimization, vol. 14, n^o 3,‎ 2003, p. 807–840 (DOI 10.1137/S1052623400376366, MR 2085944) (Contient une liste de références très fournie).
Pattern Classification, Richard O. Duda, Peter E. Hart, David G. Stork, (ISBN 0-471-05669-3), 2000
Introduction to Stochastic Search and Optimization, James C. Spall, (ISBN 0-471-33052-3), 2003

Logiciels[modifier | modifier le code]

sgd : une bibliothèque C++ (sous licence LGPL) qui utilise la descente de gradient stochastique pour entraîner des MVS et des modèles ''conditional random field''.
CRF-ADF : une bibliothèque C# implémentant la méthode de descente de gradient stochastique et sa variation AdaGrad pour entraîner des modèles conditional random field.
Vowpal Wabbit : une solution d'apprentissage rapide et scalable (sous licence BSD) par John Langford et d'autres contributeurs. Contient notamment quelques variantes de l'algorithme de descente de gradient stochastique. Le dépôt source est sur GitHub.

Liens externes[modifier | modifier le code]

Utilisation de la descente de gradient stochastique en C++ avec Boost et Ublas pour la régression linéaire

[14] $\odot$ est le produit matriciel.

[1] Thomas S. Ferguson, « An inconsistent maximum likelihood estimate », Journal of the American Statistical Association, vol. 77, n^o 380,‎ 1982, p. 831–834 (DOI 10.1080/01621459.1982.10477894, JSTOR 2287314)

[2] Léon Bottou et Olivier Bousquet « The Tradeoffs of Large Scale Learning » (2008) (lire en ligne)
—Advances in Neural Information Processing Systems

[3] (en) Léon Bottou, Online Learning and Neural Networks, Cambridge University Press, 1998 (ISBN 978-0-521-65263-6, lire en ligne)

[4] Krzysztof C. Kiwiel, « Convergence and efficiency of subgradient methods for quasiconvex minimization », Mathematical Programming (Series A), Berlin, Heidelberg, Springer, vol. 90, n^o 1,‎ 2001, p. 1–25 (ISSN 0025-5610, DOI 10.1007/PL00011414, MR 1819784)

[5] (en) Herbert Robbins et David O. Siegmund, Optimizing Methods in Statistics, Academic Press, 1971directeur = jagdish s. rustagi

[6] Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008).

[7] Avi Pfeffer, « CS181 Lecture 5 — Perceptrons », Harvard University

[8] Cited by Christian Darken et John Moody « Fast adaptive k-means clustering: some empirical results » (1990)
—Int'l Joint Conf. on Neural Networks (IJCNN)
— « (ibid.) », IEEE,‎ 1990

[Rumelhart1986-9] David E. Rumelhart, Hinton, Geoffrey E. et Williams, Ronald J., « Learning representations by back-propagating errors », Nature, vol. 323, n^o 6088,‎ 8 octobre 1986, p. 533–536 (DOI 10.1038/323533a0)

[Zeiler_2012-10] {a et b} (en) Matthew D. Zeiler, « ADADELTA: An adaptive learning rate method », 2012.

[11] Boris T. Polyak et Anatoli B. Juditsky, « Acceleration of stochastic approximation by averaging », SIAM J. Control and Optimization, vol. 30, n^o 4,‎ 1992, p. 838–855

[12] John Duchi, Elad Hazan et Yoram Singer, « Adaptive subgradient methods for online learning and stochastic optimization », JMLR, vol. 12,‎ 2011, p. 2121–2159 (lire en ligne)

[13] Joseph Perla, « Notes on AdaGrad » [archive du 30 mars 2015], 2014 (consulté le 4 juillet 2015)

[15] Maya R. Gupta, Samy Bengio et Jason Weston, « Training highly multiclass classifiers », JMLR, vol. 15, n^o 1,‎ 2014, p. 1461–1492 (lire en ligne)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[note 1]

[14]