Utilisateur:Louis PL/Brouillon/1

Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'il est possible d'approximer n'importe quelle fonction continue sur des sous-ensembles compacts de Rⁿ avec un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (par exemple, un perceptron multicouche).

Les différentes versions du théorème, démontrées entre 1989 et 1999, ont été cruciales pour relancer l’enthousiasme des chercheurs pour les réseaux de neurones, après l’échec du perceptron de Rosenblatt à apprendre la fonction OU exclusif. En effet, la plupart des problèmes traités par les réseaux de neurones se résument soit à séparer différents ensembles de points par des fonctions (par exemple pour la classification de données), soit à approximer une fonction sur un compact (par exemple pour la prédiction de variables continues, comme la température), d’où les différentes versions du théorème.

Histoire

Une des premières versions du théorème est démontrée par George Cybenko (en) en 1989 pour des fonctions d'activation sigmoïdes^[1]. Kurt Hornik montre en 1991^[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multicouche à propagation avant qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993^[3] et plus tard Allan Pinkus en 1999^[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.

Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017^[5], Boris Hanin et Mark Sellke en 2018^[6], et Patrick Kidger et Terry Lyons en 2020^[7]. Le résultat sur la largeur minimal par couche a été raffiné en 2020^[8]^,^[9] pour les réseaux résiduels.

Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues^[3], à des domaines non compacts^[7], à des réseaux certifiables^[10], et à des architectures de réseaux et des topologies alternatives^[7]^,^[11].

Énoncés

Notations

On note ${\mathcal {M}}_{d}(\sigma )$ l'ensemble des fonctions associées à un perceptron multicouche à une couche caché de $d$ neurones utilisant $\sigma$ comme fonction d'activation, c'est à dire que :

${\mathcal {M}}_{d}(\sigma )=\left\{x\mapsto \sum _{i=1}^{d}w_{i}^{(2)}\sigma \left(\langle w_{i}^{(1)},x\rangle +b_{i}^{(1)}\right)\,{\Big |}\,\,w_{i}^{(1)}\in \mathbb {R} ^{n},b_{i}^{(1)}\in \mathbb {R} ,w_{i}^{(2)}\in \mathbb {R} \right\}.$ Les vecteurs $w_{i}$ sont les poids du réseau de neurone, et les scalaires $b_{i}$ sont ses biais. On note également ${\mathcal {M}}(\sigma )=\bigcup _{d\in \mathbb {N} }{\mathcal {M}}_{d}(\sigma )$ ^[12].

Les réseaux de neurones générant de telles fonctions peuvent être représentés par le graphe orienté ci-dessous. La couche des sorties de ces réseaux utilise l'application identité comme fonction d'activation et ne possède pas de biais, ces deux éléments n'augmentant pas les capacités d'approximation du perceptron multicouche.

Cas général

La version la plus générale du théorème est démontrée en 1999 par Allan Pinkus :

Théorème d'approximation universelle (Pinkus, 1999^[13]) — Soit $\sigma \in C^{0}(\mathbb {R} ,\mathbb {R} )$ , alors ${\mathcal {M}}(\sigma )$ est dense dans $C^{0}(\mathbb {R} ^{n},\mathbb {R} )$ pour la topologie de la convergence uniforme sur les compacts si et seulement si $\sigma$ n'est pas un polynôme.

Notes et références

↑ G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, n^o 4,‎ 1989, p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeer^x 10.1.1.441.7873)
↑ Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, n^o 2,‎ 1991, p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)
↑ ^{a et b} Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, n^o 6,‎ janvier 1993, p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)
↑ Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)
↑ Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ 2017, p. 6231–6239 (arXiv 1709.02540, lire en ligne)
↑ Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, n^o 10,‎ mars 2019, p. 992 (DOI 10.3390/math7100992 , arXiv 1710.11278)
↑ ^{a b et c} Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » (Juillet 2020) (arXiv 1905.08539)
—Conference on Learning Theory
↑ Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » (Octobre 2020) (arXiv 1905.08539)
—Conference on Learning Theory
↑ Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » (2020) (arXiv 2007.06007)
—ICLR
↑ Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » (2020) (lire en ligne)
—ICLR
↑ Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » (2018) (lire en ligne)
— « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ 2018, p. 6169–6178
↑ Myriam Maumy-Bertrand, Gilbert Saporta, Christine Thomas-Agnan et Société française de statistique, Apprentissage statistique et données massives, Editions Technip, 2018 (ISBN 978-2-7108-1182-4 et 2-7108-1182-0, OCLC 1056200223, lire en ligne), p. 536
↑ Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (ISSN 0962-4929 et 1474-0508, DOI 10.1017/s0962492900002919, lire en ligne, consulté le 9 mai 2022)

[cyb-1] G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, n^o 4,‎ 1989, p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeer^x 10.1.1.441.7873)

[horn-2] Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, n^o 2,‎ 1991, p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)

[leshno-3] {a et b} Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, n^o 6,‎ janvier 1993, p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)

[pinkus-4] Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)

[ZhouLu-5] Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ 2017, p. 6231–6239 (arXiv 1709.02540, lire en ligne)

[hanin-6] Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, n^o 10,‎ mars 2019, p. 992 (DOI 10.3390/math7100992 , arXiv 1710.11278)

[kidger-7] {a b et c} Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » (Juillet 2020) (arXiv 1905.08539)
—Conference on Learning Theory

[park-8] Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » (Octobre 2020) (arXiv 1905.08539)
—Conference on Learning Theory

[tabuada-9] Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » (2020) (arXiv 2007.06007)
—ICLR

[10] Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » (2020) (lire en ligne)
—ICLR

[11] Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » (2018) (lire en ligne)
— « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ 2018, p. 6169–6178

[12] Myriam Maumy-Bertrand, Gilbert Saporta, Christine Thomas-Agnan et Société française de statistique, Apprentissage statistique et données massives, Editions Technip, 2018 (ISBN 978-2-7108-1182-4 et 2-7108-1182-0, OCLC 1056200223, lire en ligne), p. 536

[13] Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (ISSN 0962-4929 et 1474-0508, DOI 10.1017/s0962492900002919, lire en ligne, consulté le 9 mai 2022)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]