Modèle de langage

Un article de Wikipédia, l'encyclopédie libre.

En traitement automatique des langues, un modèle de langage est un modèle statistique qui modélise la distribution de séquences de mots, plus généralement de séquences de symboles discrets (lettres, phonèmes, mots), dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant une séquence de mots[1].

Un modèle de langue de grande taille (Large Language Model ou LLM en anglais) est un modèle de traitement de langage naturel qui utilise un grand nombre de données textuelles pour apprendre à prédire les mots et les phrases suivants dans un texte donné. Ces modèles sont généralement entraînés à partir de vastes ensembles de données, tels que des corpus de textes de diverses sources, tels que des livres, des articles de presse, des pages Web et des réseaux sociaux.

Les LLMs sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Parmi les exemples de LLMs les plus connus, on peut citer GPT-3 et GPT-4 de OpenAI et BERT de Google.

Critiques[modifier | modifier le code]

Bender et al. 2021 remet en cause la pertinence des énormes modèles de langage préentraînés[2].

Liens externes[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. (en) Yoshua Bengio, « Neural net language models », dans Scholarpedia (lire en ligne).
  2. (en) Emily Bender, Timnit Gebru, Angelina McMillan-Major et Shmargaret Shmitchell, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 », FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency,‎ , p. 610–623 (DOI 10.1145/3442188.3445922)