« Whisper (système de reconnaissance vocale) » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
SarmentFurtif (discuter | contributions)
Créé en traduisant la page « Whisper (speech recognition system) »
(Aucune différence)

Version du 20 décembre 2023 à 19:45

Whisper

Informations
Créateur OpenAI OpCo (d) et OpenAIVoir et modifier les données sur Wikidata
Développé par OpenAIVoir et modifier les données sur Wikidata
Dépôt github.com/openai/whisperVoir et modifier les données sur Wikidata
Type Bibliothèque logicielle Python (d)
Machine learning model (d)
Apprentissage automatiqueVoir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata

Whisper est un modèle d'apprentissage automatique pour la reconnaissance et la transcription vocales, créé par OpenAI et publié pour la première fois en tant que logiciel open source en septembre 2022 [1].

Il est capable de transcription en anglais, en français et dans d’autres langues [2] et peut également traduire vers l'anglais. OpenAI affirme que la variété des sources langagières mobilisées lors de son développement l’a rendu peu sensible aux différences d’accents, au bruit de fond et même à l’usage de jargons par rapport à d’autres logiciels développés antérieurement[3]

Whisper s’appuie sur les techniques propres à OpenAi, notamment l'apprentissage profond faiblement supervisé, réalisé à l'aide d'une architecture de transformateur codeur-décodeur .

Contexte de développement

La reconnaissance vocale a été étudiée de longue date; les premières approches utilisaient des méthodes statistiques, telles que la déformation temporelle dynamique,puis plus tard ont été testés des modèles de Markov cachés . Autour des années 2010, les modèles les plus courants se sont appuyés sus de réseaux neuronaux profonds, ce qui devenu possibles par les progrès du Big Data et des processeurs plus puissants[4]. Les premières approches mobilisant l'apprentissage profond pour la reconnaissance vocale ont intégré des réseaux de neurones convolutifs. Ceux-ci étaient toutefois limités du fait de leur limitation pour capturer des données séquentielles, ce qui a ensuite conduit au développement des approches Seq2seq, qui incluent des réseaux de neurones récurrents utilisant la LSTM (long short-term memory) .

Les transformateurs, introduits en 2017 par Google, se sont substitués à des approches antérieures pour progresser dans la résolution des difficultés posées par l'apprentissage automatique et sont devenu l'architecture neuronale de base dans plusieurs domaines comme la modélisation du langage et la vision par ordinateur ; [5] les approches faiblement supervisées de formation de modèles d’apprentissages de la reconnaissance vocale ont été reconnues au début des années 2020 comme les plus prometteuses utilisant des réseaux de neurones profonds. [6]

Sources d’apprentissage et capacités

Whisper a été formé par apprentissage semi-supervisé sur 680 000 heures de données multilingues, dont environ un cinquième (117 000 heures) étaient des données audio non anglaises. Whisper ne surpasse pas les modèles spécialisés dans l' ensemble de données LibriSpeech, mais lorsqu'il est testé sur des ensembles de données plus variés, il apparait plus robuste et commet de l’ordre de 50 % d'erreurs en moins que les autres modèles en cours à la même époque. [7]

Whisper a un taux d'erreur différent en ce qui concerne la transcription de différentes langues, avec un taux d'erreur de mot plus élevé dans les langues sous-représentées dans les données qui ont servi de base à son entraînement[8]


  1. (en-US) Golla, « Here Are Six Practical Use Cases for the New Whisper API » [archive du ], Slator, (consulté le )
  2. (en-US) Dickson, « How will OpenAI's Whisper model impact AI applications? » [archive du ], VentureBeat, (consulté le )
  3. (en-US) Wiggers, « OpenAI open-sources Whisper, a multilingual speech recognition system » [archive du ], TechCrunch, (consulté le )
  4. (en) Dong Yu et Li Deng, Automatic speech recognition: a deep learning approach, London Heidelberg, 2015th, coll. « Signals and communication technology », , 9 p. (ISBN 978-1-4471-5778-6)
  5. (en) Uday Kamath, Kenneth L. Graham et Wael Emara, Transformers for machine learning: a deep dive, Boca Raton London New York, First, coll. « Chapman & Hall/CRC machine learning & pattern recognition », , xix (ISBN 978-0-367-76734-1)
  6. (en) Gerhard Paaß et Sven Giesselbach, Foundation Models for Natural Language Processing, coll. « Artificial Intelligence: Foundations, Theory, and Algorithms », , 313–382 p. (ISBN 978-3-031-23189-6, DOI 10.1007/978-3-031-23190-2_7, arXiv 2302.08575, S2CID 257019816), « Foundation Models for Speech, Images, Videos, and Control »
  7. (en-US) « Introducing Whisper » [archive du ], openai.com, (consulté le )
  8. (en-US) Wiggers, « OpenAI debuts Whisper API for speech-to-text transcription and translation » [archive du ], TechCrunch, (consulté le )