« Whisper (système de reconnaissance vocale) » : différence entre les versions

Informations
Créateur	OpenAI OpCo (d) et OpenAI
Développé par	OpenAI
Dépôt	github.com/openai/whisper
Type	Bibliothèque logicielle Python (d); Machine learning model (d); Apprentissage automatique
Licence	Licence MIT

Modification suivante →

Contenu supprimé Contenu ajouté

VisuelWikicode

Intégrés

Version du 20 décembre 2023 à 19:45

Whisper est un modèle d'apprentissage automatique pour la reconnaissance et la transcription vocales, créé par OpenAI et publié pour la première fois en tant que logiciel open source en septembre 2022 ^[1].

Il est capable de transcription en anglais, en français et dans d’autres langues ^[2] et peut également traduire vers l'anglais. OpenAI affirme que la variété des sources langagières mobilisées lors de son développement l’a rendu peu sensible aux différences d’accents, au bruit de fond et même à l’usage de jargons par rapport à d’autres logiciels développés antérieurement^[3]

Whisper s’appuie sur les techniques propres à OpenAi, notamment l'apprentissage profond faiblement supervisé, réalisé à l'aide d'une architecture de transformateur codeur-décodeur .

Contexte de développement

La reconnaissance vocale a été étudiée de longue date; les premières approches utilisaient des méthodes statistiques, telles que la déformation temporelle dynamique,puis plus tard ont été testés des modèles de Markov cachés . Autour des années 2010, les modèles les plus courants se sont appuyés sus de réseaux neuronaux profonds, ce qui devenu possibles par les progrès du Big Data et des processeurs plus puissants^[4]. Les premières approches mobilisant l'apprentissage profond pour la reconnaissance vocale ont intégré des réseaux de neurones convolutifs. Ceux-ci étaient toutefois limités du fait de leur limitation pour capturer des données séquentielles, ce qui a ensuite conduit au développement des approches Seq2seq, qui incluent des réseaux de neurones récurrents utilisant la LSTM (long short-term memory) .

Les transformateurs, introduits en 2017 par Google, se sont substitués à des approches antérieures pour progresser dans la résolution des difficultés posées par l'apprentissage automatique et sont devenu l'architecture neuronale de base dans plusieurs domaines comme la modélisation du langage et la vision par ordinateur ; ^[5] les approches faiblement supervisées de formation de modèles d’apprentissages de la reconnaissance vocale ont été reconnues au début des années 2020 comme les plus prometteuses utilisant des réseaux de neurones profonds. ^[6]

Sources d’apprentissage et capacités

Whisper a été formé par apprentissage semi-supervisé sur 680 000 heures de données multilingues, dont environ un cinquième (117 000 heures) étaient des données audio non anglaises. Whisper ne surpasse pas les modèles spécialisés dans l' ensemble de données LibriSpeech, mais lorsqu'il est testé sur des ensembles de données plus variés, il apparait plus robuste et commet de l’ordre de 50 % d'erreurs en moins que les autres modèles en cours à la même époque. ^[7]

Whisper a un taux d'erreur différent en ce qui concerne la transcription de différentes langues, avec un taux d'erreur de mot plus élevé dans les langues sous-représentées dans les données qui ont servi de base à son entraînement^[8]

↑ (en-US) Golla, « Here Are Six Practical Use Cases for the New Whisper API » [archive du 25 mars 2023], Slator, 6 mars 2023 (consulté le 12 août 2023)
↑ (en-US) Dickson, « How will OpenAI's Whisper model impact AI applications? » [archive du 15 mars 2023], VentureBeat, 3 octobre 2022 (consulté le 12 août 2023)
↑ (en-US) Wiggers, « OpenAI open-sources Whisper, a multilingual speech recognition system » [archive du 12 février 2023], TechCrunch, 21 septembre 2022 (consulté le 12 février 2023)
↑ (en) Dong Yu et Li Deng, Automatic speech recognition: a deep learning approach, London Heidelberg, 2015th, coll. « Signals and communication technology », 2014, 9 p. (ISBN 978-1-4471-5778-6)
↑ (en) Uday Kamath, Kenneth L. Graham et Wael Emara, Transformers for machine learning: a deep dive, Boca Raton London New York, First, coll. « Chapman & Hall/CRC machine learning & pattern recognition », 2022, xix (ISBN 978-0-367-76734-1)
↑ (en) Gerhard Paaß et Sven Giesselbach, Foundation Models for Natural Language Processing, coll. « Artificial Intelligence: Foundations, Theory, and Algorithms », 16 février 2023, 313–382 p. (ISBN 978-3-031-23189-6, DOI 10.1007/978-3-031-23190-2_7, arXiv 2302.08575, S2CID 257019816), « Foundation Models for Speech, Images, Videos, and Control »
↑ (en-US) « Introducing Whisper » [archive du 20 août 2023], openai.com, 21 septembre 2022 (consulté le 21 août 2023)
↑ (en-US) Wiggers, « OpenAI debuts Whisper API for speech-to-text transcription and translation » [archive du 18 juillet 2023], TechCrunch, 1^er mars 2023 (consulté le 21 août 2023)

[1] (en-US) Golla, « Here Are Six Practical Use Cases for the New Whisper API » [archive du 25 mars 2023], Slator, 6 mars 2023 (consulté le 12 août 2023)

[2] (en-US) Dickson, « How will OpenAI's Whisper model impact AI applications? » [archive du 15 mars 2023], VentureBeat, 3 octobre 2022 (consulté le 12 août 2023)

[3] (en-US) Wiggers, « OpenAI open-sources Whisper, a multilingual speech recognition system » [archive du 12 février 2023], TechCrunch, 21 septembre 2022 (consulté le 12 février 2023)

[deepasr-4] (en) Dong Yu et Li Deng, Automatic speech recognition: a deep learning approach, London Heidelberg, 2015th, coll. « Signals and communication technology », 2014, 9 p. (ISBN 978-1-4471-5778-6)

[5] (en) Uday Kamath, Kenneth L. Graham et Wael Emara, Transformers for machine learning: a deep dive, Boca Raton London New York, First, coll. « Chapman & Hall/CRC machine learning & pattern recognition », 2022, xix (ISBN 978-0-367-76734-1)

[6] (en) Gerhard Paaß et Sven Giesselbach, Foundation Models for Natural Language Processing, coll. « Artificial Intelligence: Foundations, Theory, and Algorithms », 16 février 2023, 313–382 p. (ISBN 978-3-031-23189-6, DOI 10.1007/978-3-031-23190-2_7, arXiv 2302.08575, S2CID 257019816), « Foundation Models for Speech, Images, Videos, and Control »

[whisperoff-7] (en-US) « Introducing Whisper » [archive du 20 août 2023], openai.com, 21 septembre 2022 (consulté le 21 août 2023)

[8] (en-US) Wiggers, « OpenAI debuts Whisper API for speech-to-text transcription and translation » [archive du 18 juillet 2023], TechCrunch, 1^er mars 2023 (consulté le 21 août 2023)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]