GPT-3

Un article de Wikipédia, l'encyclopédie libre.
GPT-3

Informations
Développé par OpenAIVoir et modifier les données sur Wikidata
Première version Voir et modifier les données sur Wikidata
Dernière version 175B[1]Voir et modifier les données sur Wikidata
Dépôt github.com/openai/gpt-3Voir et modifier les données sur Wikidata
Type Modèle de langage
Modèle autorégressif
Modèle Transformer
Modèle génératifVoir et modifier les données sur Wikidata
Licence Licence propriétaireVoir et modifier les données sur Wikidata
Site web arxiv.org/abs/2005.14165Voir et modifier les données sur Wikidata

Chronologie des versions

GPT-3 est un modèle de langage développé par la société OpenAI annoncé le 28 mai 2020 et ouvert aux utilisateurs via l'API d'OpenAI en juillet 2020.

Au moment de son annonce, GPT-3 est le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. GPT-2, sorti en 2019, n'avait que 1,5 milliard de paramètres[2].

OpenAI ouvre une version bêta en juillet 2020 et ambitionne d'en faire un produit commercial par la suite[2].

Capacités[modifier | modifier le code]

Une prépublication arXiv du 28 mai 2020 par un groupe de 31 ingénieurs et chercheurs de OpenAI[note 1] présentait le développement de GPT-3, un « modèle linguistique de pointe » de troisième génération[3],[4]. L'équipe a augmenté la capacité de GPT-3 de plus de deux ordres de grandeur par rapport à celle de son prédécesseur, GPT-2[5]. Le nombre plus élevé de paramètres de GPT-3 lui confère une plus grande précision par rapport aux versions précédentes à plus faible capacité[6]. La capacité de GPT-3 est dix fois supérieure à celle du NLG de Turing de Microsoft[4].

60% de l'ensemble de données pondérées de pré-apprentissage pour le modèle GPT-3 provient d'une version filtrée du corpus Common Crawl consistant en 410 milliards d'unités textuelles sous-lexicales encodées par l'algorithme BPE[3]. Les autres sources sont 19 milliards d'unités du corpus WebText2 représentant 22 % du total pondéré, 12 milliards d'unités du corpus Books1 représentant 8 %, 55 milliards du corpus Books2 représentant 8 % et 3 milliards d'unités de Wikipedia représentant 3 %[3]. GPT-3 a été entrainé sur des centaines de milliards de mots et est capable de programmer en CSS, JSX, Python, entre autres[7].

Les données d'apprentissage de GPT-3 étant globales, il ne nécessite pas d'apprentissage supplémentaire pour des tâches linguistiques distinctes[7]. Le 11 juin 2020, OpenAI a annoncé que les utilisateurs pouvaient demander l'accès à son API GPT-3 - un ensemble d'outils d'apprentissage machine - pour aider OpenAI à explorer « les forces et les limites » de cette nouvelle technologie[8],[9]. L'invitation décrivait comment cette API disposait d'une interface « entrée /sortie texte » polyvalente qui permettait d'effectuer presque « n'importe quelle tâche en anglais », au lieu du cas d'utilisation unique habituel[8]. Selon un utilisateur, qui avait accès à une version préliminaire privée de l'API GPT-3 d'OpenAI, GPT-3 était « étrangement doué » pour écrire « un texte étonnamment cohérent » avec seulement quelques instructions simples[10].

Parce que GPT-3 peut « générer des articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains »[4], GPT-3 a le "potentiel de faire progresser les applications tant bénéfiques que néfastes des modèles de langage. »[3]. Dans leur article du 28 mai 2020, les chercheurs ont décrit en détail les « effets néfastes potentiels du GPT-3 »[4] qui comprennent « la désinformation, le spam, l'hameçonnage, l'abus des processus légaux et gouvernementaux, la rédaction frauduleuse d'essais universitaires sous prétexte d'ingénierie sociale »[3]. Les auteurs attirent l'attention sur ces dangers pour demander des recherches sur l'atténuation des risques[3].

Usages[modifier | modifier le code]

L'artiste Mario Klingemann a utilisé GPT-3 pour générer des pastiches de grands auteurs (en anglais)[2].

Parmi les utilisations possibles figurent des recherches en langue naturelle dans des documents. Par exemple GPT-3 peut répondre en langue naturelle à la question « pourquoi le pain est gonflé » en se basant sur l'article Wikipédia « pain »[11].

Il est possible d'avoir des discussions rapides, complexes et cohérentes en langue naturelle dans le but de générer des idées, recommander des livres et des films, raconter des histoires interactives ou à participer à une réunion[11]. GPT-3 peut fournir une assistance aux clients automatique en ligne sur les sites internet par exemple[11].

GPT-3 permet d'analyser et synthétiser du texte sous forme de tableaux, de résumer des discussions, d'élargir des contenus à partir d'idées de base[11].

GPT-3 peut être utilisé pour traduire des textes d'une langue à l'autre[11]. Il peut également transformer un texte en langue courante en un texte juridique[12].

GPT-3 peut être utilisé pour générer des codes informatiques à partir d'instructions en langue naturelle par exemple des boutons, des tableaux de données, ou même la recréation de la page d'accueil de Google[13].

La start-up française SourceAI a conçu un outil permettant de générer du code en plus de 40 langages informatiques.

Limites[modifier | modifier le code]

À l'instar d'autres modèles concurrents : BERT de Google, ou XLM-R de Facebook, GPT-3 n'est pas capable de raisonnement, par exemple de raisonnement par analogie ; en effet, il n'a pas de représentation du monde[14].

Contrairement à ses concurrents, du fait de sa taille, GPT-3 ne peut pas être exécuté sur un ordinateur personnel : le stockage des paramètres à lui seul requiert au moins 175 Gigaoctets de mémoire vive, ce qui en 2020 excède largement la capacité des machines typiquement disponibles sur le marché, ou constructibles à partir de matériel grand public.

Contrairement à GPT-2, le précédent modèle de langage développé par OpenAI, GPT-3 est livré sous forme d'une API et le code source n'est pas ouvert.

En 2020, la start-up française Nabla a conçu un chatbot médical en anglais basé sur GPT-3, malgré les contre-indications d'OpenAI. Lors des phases de test, le chatbot a conseillé à un patient simulé de se suicider[15],[16].

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario

Références[modifier | modifier le code]

  1. (en) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever et Dario Amodei, « Language Models are Few-Shot Learners », ArXiv,‎ (ISSN 2331-8422, OCLC 228652809, arXiv 2005.14165, lire en ligne) :

    « To study the dependence of ML performance on model size, we train 8 different sizes of model, ranging over three orders of magnitude from 125 million parameters to 175 billion parameters, with the last being the model we call GPT-3. »

    Voir et modifier les données sur Wikidata
  2. a b et c (en) Will Douglas Heaven, « OpenAI’s new language generator GPT-3 is shockingly good—and completely mindless », MIT Technology Review,‎ (lire en ligne).
  3. a b c d e et f (en) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah et Jared Kaplan « Language Models are Few-Shot Learners », {{{year}}}.
  4. a b c et d Ram Sagar, « OpenAI Releases GPT-3, The Largest Model So Far », Analytics India Magazine,‎ (lire en ligne, consulté le )
  5. « Language Models are Unsupervised Multitask Learners », OpenAI blog,‎ (lire en ligne, consulté le ) :

    « "GPT-2, is a 1.5B parameter Transformer" »

  6. Tiernan Ray, « OpenAI’s gigantic GPT-3 hints at the limits of language models for AI », sur ZDNet, (consulté le )
  7. a et b Frederik Bussler, « Will GPT-3 Kill Coding? », sur Towards Data Science, (consulté le )
  8. a et b « OpenAI API », sur OpenAI,
  9. « TechCrunch – Startup and Technology News », sur TechCrunch, (consulté le ) : « If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.” »
  10. Arram, « GPT-3: An AI that's eerily good at writing almost anything », sur Arram Sabeti, (consulté le )
  11. a b c d et e (en) « OpenAI API », sur beta.openai.com (consulté le )
  12. (en-GB) artificiallawyer, « GPT-3 – A Game Changer For Legal Tech? », sur Artificial Lawyer, (consulté le )
  13. (en) Frederik Bussler, « Will GPT-3 Kill Coding? », sur Medium, (consulté le )
  14. (en) Tom Simonite, « Did a Person Write This Headline, or a Machine? », Wired,‎ (lire en ligne).
  15. « Utilisé comme chatbot médical, GPT-3 conseille à un patient de se suicider », sur Siècle Digital, (consulté le )
  16. « Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider lors d'un test réalisé par Nabla », sur Developpez.com (consulté le )

Articles connexes[modifier | modifier le code]