Apprentissage profond

Un article de Wikipédia, l'encyclopédie libre.
Apprentissage profond
Partie de
Méthode d'apprentissage automatique (d)Voir et modifier les données sur Wikidata

L'apprentissage profond[1],[2] ou apprentissage en profondeur[1] (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires[source secondaire souhaitée]. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. Durant les années 2000, ces progrès ont suscité des investissements privés, universitaires et publics importants, notamment de la part des GAFAM (Google, Apple, Facebook, Amazon, Microsoft)[3].

Définition[modifier | modifier le code]

L'apprentissage automatique classique est généralement effectué sur des représentations des données obtenues par extraction de caractéristiques, cette dernière étant effectuée au moyen d'un algorithme. En apprentissage profond, cette extraction de caractéristiques résulte elle-même d'un processus d'apprentissage: on parle donc d'apprentissage de représentations. En pratique, on apprend en fait une hiérarchie de représentations, souvent les couches cachées de réseaux de neurones artificiels, chacune étant définie à partir de représentations plus simples[DLB2016 1]. Ces représentations étant apprises directement à partir des données, cela évite que les humains aient à expliciter la manière de les construire au moyen d'un algorithme. Si l'on représente la manière dont ces représentations sont construites les unes à partir des autres au moyen d'un graphe, celui-ci sera profond, avec de multiples couches, justifiant ainsi la qualification de « profond ».

Au lieu de couches cachées de réseaux de neurones artificiels, on peut utiliser des « machines de Boltzmann restreintes » et des séries de calculs propositionnels complexes.

Description et contexte[modifier | modifier le code]

L’apprentissage profond fait partie d’une famille de méthodes d'apprentissage automatique fondées sur l’apprentissage de représentations de données. Une observation peut être représentée de différentes façons. Une image peut être représentée par exemple par un vecteur, une matrice ou un tenseur de données décrivant la scène observée, notamment en fonction :

  • de l’intensité des pixels dont elle est constituée ;
  • des contours de ce qu'elle représente ;
  • des formes qu'elle comporte.

Certaines[Lesquelles ?] représentations et une bonne capacité d'analyse automatique des différenciations[4][Quoi ?] rendent la tâche d’apprentissage plus efficace[Combien ?].

Une des finalités des techniques d'apprentissage profond consiste à supprimer certaines tâches simples telles que des calculs mathématiques, encore relativement laborieux, par des modèles algorithmiques d’apprentissage supervisé et non supervisé (c’est-à-dire ne prenant pas en compte pas des connaissances spécifiques du domaine étudié) ou encore par des techniques d’extraction hiérarchique[Quoi ?] des caractéristiques.

Les recherches dans ce domaine s’efforcent de construire de meilleures représentations du réel et de créer des modèles capables d’apprendre ces représentations[pas clair] à partir de données brutes et non-travaillées en amont par l'homme, et ce à grande échelle. Certaines[Lesquelles ?] de ces représentations s’inspirent des dernières avancées en neuroscience. Il s'agit, donc pour résumer d'interprétations du traitement de l'information et des modèles de communication du système nerveux, à l'image de la façon dont le système nerveux établit des connexions en fonction des messages reçus[pas clair], de la réponse neuronale[Quoi ?] et du poids des connexions[Quoi ?] entre les neurones du cerveau.

Les différentes architectures d’apprentissage profond telles que les réseaux de neurones profonds, les réseaux neuronaux convolutifs « convolutional deep neural networks », et les réseaux de croyance profonde (en) ont plusieurs champs d’application :

Dans ces deux derniers domaines, notamment, elles ont obtenu des résultats très prometteurs[réf. nécessaire].

Historique[modifier | modifier le code]

Le concept d'apprentissage profond prend forme dans les années 2010, avec la convergence de quatre facteurs :

En , le programme AlphaGo, à qui l'on a « appris » à jouer au jeu de go grâce à la méthode de l'apprentissage profond, bat le champion européen Fan Hui[12] par 5 parties à 0. En , le même programme bat le champion du monde Lee Sedol par 4 parties à 1[13].

Domaines d'application[modifier | modifier le code]

L'apprentissage profond s'applique à divers secteurs des NTIC, notamment :

Dans le système de santé, l'apprentissage profond peut aussi[3] :

En physique, l'apprentissage profond est utilisé pour la recherche sur les particules exotiques[41].

Réactions[modifier | modifier le code]

Sont pointés de possibles usages malveillants du deep learning. Il devient ainsi possible d'incruster le visage d'une personne sur une autre, à son insu, et de lui faire faire ou dire des choses qu'elle n'a pas faites (comme dans le film Running man de 1986), le deep learning recréant les mouvements du visage en rendant l'incrustation ressemblante. Ainsi, plusieurs actrices comme Gal Gadot, Emma Watson, Cara Delevingne, Emma Stone, Natalie Portman ou Scarlett Johansson se sont retrouvées avec leur visage incrusté sur celui d'une actrice pornographique à l'aide d'un logiciel accessible au grand public nommé Deepfakes, soulevant des craintes quant à la généralisation d'un tel usage, permettant à n'importe qui de nuire à la réputation d'une autre personne[42]. Face à ce danger, plusieurs plates-formes telles que PornHub, Twitter et Reddit ont réagi en interdisant la publication de telles vidéos, et l'utilisateur « deepfakes », créateur du logiciel éponyme permettant à tout usager de créer des fausses vidéos à caractère pornographique, a été banni de reddit et son fil dédié supprimé[43].

En 2019, OpenAI a publié plusieurs intelligences artificielles très performantes permettant de générer un texte synthétique à partir d'un résumé. Tout en exprimant leurs inquiétudes sur les détournements possibles de ce type de technologie, les chercheurs de l'association ont renoncé à partager la version complète de l'intelligence artificielle[44].

Notes et références[modifier | modifier le code]

  1. a et b « apprentissage profond », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  2. [PDF] Commission d'enrichissement de la langue française, « Vocabulaire de l’intelligence artificielle (liste de termes, expressions et définitions adoptés) », Journal officiel de la République française no 0285 du [lire en ligne].
  3. a et b "Deep learning" : les dessous d'une technologie de rupture, analyse prospective, Futurible.
  4. A. G. Baydin, B. A. Pearlmutter, A. A. Radul et J. M. Siskind (2015), « Automatic differentiation in machine learning: a survey », arXiv preprint arXiv:1502.05767 . 185.
  5. a et b J. Zhou et O. G. Troyanskaya (2015), « Predicting effects of noncoding variants with deep learning-based sequence model », Nature Methods, 12(10), 931-934 (résumé).
  6. a et b B. Alipanahi, A. Delong, M. T. Weirauch et B. J. Frey (2015), « Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning », Nature Biotechnology (résumé).
  7. (en) Jumper J., « Highly accurate protein structure prediction with AlphaFold », Nature,‎ , p. 583–589 (lire en ligne Accès libre)
  8. J. Schmidhuber (2015), « Deep learning in neural networks: An overview », Neural Networks, 61, 85-117.
  9. Collobert, R. (2011). Deep learning for efficient discriminative parsing. In AISTATS'2011 . 95.
  10. D. H. Ackley, G. E. Hinton et T. J. Sejnowski (1985), « A learning algorithm for Boltzmann machines », Cognitive Science, 9, 147{169. 590.
  11. USI Events, « Deep learning - Yann LeCun, à l'USI », sur youtube.com.
  12. David Larousserie et Morgane Tual, « Première défaite d’un professionnel du go contre une intelligence artificielle », Le Monde,‎ (lire en ligne).
  13. William Audureau, « Jeu de go : pour Lee Sedol, la victoire de la machine est moins tactique que psychologique », Le Monde.fr,‎ (ISSN 1950-6244, lire en ligne, consulté le ).
  14. (en) Dan Cireşan, Ueli Meier, Jonathan Masci et Jürgen Schmidhuber, « Multi-column deep neural network for traffic sign classification », Neural Networks, vol. 32 « Selected Papers from IJCNN 2011 »,‎ , p. 333-338 (ISSN 0893-6080, e-ISSN 1879-2782, PMID 22386783, DOI 10.1016/j.neunet.2012.02.023).
  15. (en-US) lmunoz, « Dissecting Artificial Intelligence to Better Understand the Human Brain », sur Cognitive Neuroscience Society, (consulté le ).
  16. (en) Matthew Veres, Griffin Lacey et Graham W. Taylor, « Deep Learning Architectures for Soil Property Prediction », dans 2015 12th Conference on Computer and Robot Vision (CRV), (ISBN 978-1-4799-1986-4, DOI 10.1109/CRV.2015.15 Accès payant, lire en ligne [PDF]).
  17. (en) D. Held, S. Thrun et S. Savarese (2015), « Deep Learning for Single-View Instance Recognition », arXiv preprint arXiv:1507.08286.
  18. (en) I. Mariolis, G. Peleka, A. Kargakos et S. Malassiotis, « Pose and category recognition of highly deformable objects using deep learning », International Conference on Advanced Robotics (ICAR), juillet 2015, p. 655-662, IEEE (résumé).
  19. M. Oberweger, P. Wohlhart et V. Lepetit (2015), « Hands Deep in Deep Learning for Hand Pose Estimation », arXiv preprint arXiv:1502.06807.
  20. A. Kendall et R. Cipolla (2015), « Modelling Uncertainty in Deep Learning for Camera Relocalization », arXiv preprint arXiv:1509.05909 (résumé).
  21. (en) Rose Moskolai, Wahabou Abdou, Albert Dipanda et Kolyang, « Application of Deep Learning Architectures for Satellite Image Time Series Prediction: A Review », Remote Sensing, vol. 13, no 23,‎ , p. 4822 (lire en ligne).
  22. « DeepArt, l'ordinateur qui peint votre portrait », sur actu.epfl.ch, (consulté le ).
  23. (en) M. Cai, Y. Shi et J. Liu (2013), « Deep maxout neural networks for speech recognition », Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop, p. 291-296, IEEE, 198.
  24. (en) W. Y. Lim, A. Ong, L. L. Soh et A. Sufi (2016), « Teachers' Voices and Change: The Structure and Agency Dialectics that Shaped Teachers' Pedagogy Toward Deep Learning », Future Learning in Primary Schools, p. 147-158, Springer Singapore.
  25. (en) S. E. Kahou, X. Bouthillier, P. Lamblin, C. Gulcehre, V. Michalski, K. Konda, … et Y. Bengio (2015). EmoNets: Multimodal deep learning approaches for emotion recognition in video. arXiv preprint arXiv:1503.01800.
  26. A. Halpern et J. R. Smith (octobre 2015), « Deep Learning, Sparse Coding, and SVM for Melanoma Recognition in Dermoscopy Images », dans Machine Learning in Medical Imaging: 6th International Workshop, MLMI 2015, organisé en conjunction avec MICCAI 2015, Munich, Allemagne, , Proceedings (Vol. 9 352, p. 118), Springer (résumé).
  27. (en) Andre Esteva, Brett Kuprel, Roberto A. Novoa et Justin Ko, « Dermatologist-level classification of skin cancer with deep neural networks », Nature, vol. 542, no 7639,‎ , p. 115–118 (ISSN 0028-0836 et 1476-4687, PMID 28117445, PMCID PMC8382232, DOI 10.1038/nature21056, lire en ligne, consulté le ).
  28. (en) Laetitia Jeancolas, Dijana Petrovska-Delacrétaz, Graziella Mangone, Badr-Eddine Benkelfat, Jean-Christophe Corvol, Marie Vidailhet, Stéphane Lehéricy et Habib Benali, « X-Vectors: New Quantitative Biomarkers for Early Parkinson's Disease Detection From Speech », Frontiers in Neuroinformatics, vol. 15,‎ (ISSN 1662-5196, DOI 10.3389/fninf.2021.578369, lire en ligne).
  29. (en) Varun Gulshan, Lily Peng, Marc Coram et Martin C. Stumpe, « Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs », JAMA, vol. 316, no 22,‎ , p. 2402 (ISSN 0098-7484, DOI 10.1001/jama.2016.17216, lire en ligne, consulté le ).
  30. « NASA/ADS », sur ui.adsabs.harvard.edu (consulté le ).
  31. (en) Travers Ching, Daniel S. Himmelstein, Brett K. Beaulieu-Jones et Alexandr A. Kalinin, « Opportunities and obstacles for deep learning in biology and medicine », Journal of The Royal Society Interface, vol. 15, no 141,‎ , p. 20170387 (ISSN 1742-5689 et 1742-5662, PMID 29618526, PMCID PMC5938574, DOI 10.1098/rsif.2017.0387, lire en ligne, consulté le ).
  32. (en) Patrick Schwab, Gaetano Scebba, Jia Zhang et Marco Delai, « Beat by Beat: Classifying Cardiac Arrhythmias with Recurrent Neural Networks », .
  33. (en) G. S. Collins, J. B. Reitsma, D. G. Altman et K. G. M. Moons, « Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement », BMJ, vol. 350, no jan07 4,‎ , g7594–g7594 (ISSN 1756-1833, DOI 10.1136/bmj.g7594, lire en ligne, consulté le ).
  34. (en) Alvin Rajkomar, Eyal Oren, Kai Chen et Andrew M. Dai, « Scalable and accurate deep learning with electronic health records », npj Digital Medicine, vol. 1, no 1,‎ (ISSN 2398-6352, PMID 31304302, PMCID PMC6550175, DOI 10.1038/s41746-018-0029-1, lire en ligne, consulté le ).
  35. (en) Riccardo Miotto, Fei Wang, Shuang Wang et Xiaoqian Jiang, « Deep learning for healthcare: review, opportunities and challenges », Briefings in Bioinformatics, vol. 19, no 6,‎ , p. 1236–1246 (ISSN 1467-5463 et 1477-4054, PMID 28481991, PMCID PMC6455466, DOI 10.1093/bib/bbx044, lire en ligne, consulté le ).
  36. (en) Riccardo Miotto, Li Li, Brian A. Kidd et Joel T. Dudley, « Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records », Scientific Reports, vol. 6, no 1,‎ (ISSN 2045-2322, PMID 27185194, PMCID PMC4869115, DOI 10.1038/srep26094, lire en ligne, consulté le ).
  37. Olivier Lascar, « Le système de reconnaissance visuelle Horus destiné aux aveugles doit tout au "deep learning" », sur Sciences et Avenir.fr, (consulté le ).
  38. (en) H. Tembine, « Deep Learning Meets Game Theory: Bregman-Based Algorithms for Interactive Deep Generative Adversarial Networks », IEEE Transactions on Cybernetics,‎ , p. 1–14 (DOI 10.1109/TCYB.2018.2886238, lire en ligne, consulté le ).
  39. P. Baldi et S. Brunak (1998), « Bioinformatics, the Machine Learning Approach », MIT Press, 579.
  40. (en) Anindya Gupta, Philip J. Harrison, Håkan Wieslander et Nicolas Pielawski, « Deep Learning in Image Cytometry: A Review », Cytometry Part A, vol. 95, no 4,‎ , p. 366–380 (ISSN 1552-4930, DOI 10.1002/cyto.a.23701, lire en ligne, consulté le ).
  41. (en) P. Baldi, P. Sadowski et D. Whiteson (2014), « Searching for exotic particles in highenergy physics with deep learning », Nature Communications, 5. 23.
  42. (en-US) « Facial Recognition for Porn Stars Is a Privacy Nightmare Waiting to Happen », Motherboard,‎ (lire en ligne, consulté le ).
  43. « Le porno avec des stars incrustées dedans n’est pas le bienvenu sur Internet », madmoiZelle.com,‎ (lire en ligne, consulté le ).
  44. (en) « Better Language Models and Their Implications », sur OpenAI, (consulté le ).
  1. p. 1.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Notions[modifier | modifier le code]

Logiciels[modifier | modifier le code]

Théoriciens[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]