Utilisateur:Louis PL/Brouillon/1

Une page de Wikipédia, l'encyclopédie libre.

Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'il est possible d'approximer n'importe quelle fonction continue sur des sous-ensembles compacts de Rn avec un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (par exemple, un perceptron multicouche).

Les différentes versions du théorème, démontrées entre 1989 et 1999, ont été cruciales pour relancer l’enthousiasme des chercheurs pour les réseaux de neurones, après l’échec du perceptron de Rosenblatt à apprendre la fonction OU exclusif. En effet, la plupart des problèmes traités par les réseaux de neurones se résument soit à séparer différents ensembles de points par des fonctions (par exemple pour la classification de données), soit à approximer une fonction sur un compact (par exemple pour la prédiction de variables continues, comme la température), d’où les différentes versions du théorème.

Histoire[modifier | modifier le code]

Une des premières versions du théorème est démontrée par George Cybenko (en) en pour des fonctions d'activation sigmoïdes[1]. Kurt Hornik montre en 1991[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multicouche à propagation avant qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993[3] et plus tard Allan Pinkus en 1999[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.

Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017[5], Boris Hanin et Mark Sellke en 2018[6], et Patrick Kidger et Terry Lyons en 2020[7]. Le résultat sur la largeur minimal par couche a été raffiné en 2020[8],[9] pour les réseaux résiduels.

Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues[3], à des domaines non compacts[7], à des réseaux certifiables[10], et à des architectures de réseaux et des topologies alternatives[7],[11].

Énoncés[modifier | modifier le code]

Notations[modifier | modifier le code]

On note l'ensemble des fonctions associées à un perceptron multicouche à une couche caché de neurones utilisant comme fonction d'activation, c'est à dire que :

Les vecteurs sont les poids du réseau de neurone, et les scalaires sont ses biais. On note également [12].

Les réseaux de neurones générant de telles fonctions peuvent être représentés par le graphe orienté ci-dessous. La couche des sorties de ces réseaux utilise l'application identité comme fonction d'activation et ne possède pas de biais, ces deux éléments n'augmentant pas les capacités d'approximation du perceptron multicouche.

Schéma des perceptrons multicouches générant les fonctions de l'ensemble .

Cas général[modifier | modifier le code]

La version la plus générale du théorème est démontrée en 1999 par Allan Pinkus :

Théorème d'approximation universelle (Pinkus, 1999[13]) — Soit , alors est dense dans pour la topologie de la convergence uniforme sur les compacts si et seulement si n'est pas un polynôme.

Notes et références[modifier | modifier le code]

  1. G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, no 4,‎ , p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeerx 10.1.1.441.7873)
  2. Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, no 2,‎ , p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)
  3. a et b Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, no 6,‎ , p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)
  4. Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ , p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)
  5. Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ , p. 6231–6239 (arXiv 1709.02540, lire en ligne)
  6. Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, no 10,‎ , p. 992 (DOI 10.3390/math7100992 Accès libre, arXiv 1710.11278)
  7. a b et c Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » () (arXiv 1905.08539)
    Conference on Learning Theory
  8. Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » () (arXiv 1905.08539)
    Conference on Learning Theory
  9. Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » () (arXiv 2007.06007)
    ICLR
  10. Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » () (lire en ligne)
    ICLR
  11. Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » () (lire en ligne)
    « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ , p. 6169–6178
  12. Myriam Maumy-Bertrand, Gilbert Saporta, Christine Thomas-Agnan et Société française de statistique, Apprentissage statistique et données massives, Editions Technip, (ISBN 978-2-7108-1182-4 et 2-7108-1182-0, OCLC 1056200223, lire en ligne), p. 536
  13. Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ , p. 143–195 (ISSN 0962-4929 et 1474-0508, DOI 10.1017/s0962492900002919, lire en ligne, consulté le )