BERT (modèle de langage)

Informations
Développé par	Google Research (d)
Première version	2018
Dépôt	github.com/google-research/bert
Taille des données	110 M paramètre et 340 M paramètre
Type	Grand modèle de langage; Modèle transformateur; Modèle de langage entraîné par masquage (d)
Licence	Licence Apache 2.0
Site web	arxiv.org/abs/1810.04805

En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues.

Description du modèle

BERT est basé sur le Transformeur, n'utilisant que sa partie "encodeur". BERT consiste en une première couche de plongement lexical pour représenter les mots sous forme de vecteur. Ces plongements sont ensuite donnés en entrée aux blocs de Transformeur successifs. Le modèle se termine par une couche appelée "tête" qui aligne les vecteurs résultants du dernier bloc de Transformeur avec le vocabulaire du modèle, permettant l'obtention d'une distribution de probabilité sur le lexique pour prédire un mot manquant^[1].

BERT a été construit de sorte à pouvoir recevoir jusqu'à deux phrases en entrée. La suite d'unités lexicales (tokens en anglais) en entrée commence systématiquement par une unité spéciale " [CLS] " (pour "classify") et est terminée par l'unité spéciale [SEP] (pour "separate"). Dans le cas où la suite d'unités contient deux phrases, une autre unité [SEP] est insérée entre les deux phrases.

BERT est un modèle pré-entrainé pour les deux objectifs suivants :

Masked Language Modeling : une des unités de la suite est remplacée par l'unité [MASK]. L'objectif est alors que la distribution de probabilité en sortie du modèle maximise la probabilité de prédiction de l'unité masquée.
Next Sentence Prediction : la suite en entrée est composé de deux phrases. Le modèle doit prédire (vrai ou faux) si les deux phrases sont successives dans les données d'entrainement ou non.

Deux versions pré-entrainées de BERT ont été distribuées :

la version "base" est composée de 12 blocs "encodeurs" de Transformeur avec 12 têtes d'attention, pour un total de 110 millions de paramètres. Les représentations vectorielles des couches intermédiaires du modèle sont de dimension 768.
la version "large" est composée de 24 blocs encodeurs avec 16 têtes d'attention, pour un total de 340 millions de paramètres. Les représentations vectorielles intermédiaires sont de dimension 1024.

Usage dans des applications

Le 25 octobre 2019, Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)^[2] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelle RankBrain avait été lancé.

La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT^[3] et FlauBERT^[4]. CamemBERT a été pré-entraîné sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.

Bibliographie

(en) Toutanova, Kristina, « BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding », sur arXiv.org, 11 octobre 2018 (consulté le 21 décembre 2023).

Voir aussi

Articles connexes

Liens externes

(en) répertoire Github

Notes et références

↑ Hang Le, Loïc Vial, Jibril Frej et Vincent Segonne, « FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français (FlauBERT : Unsupervised Language Model Pre-training for French) », Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, ATALA et AFCP,‎ juin 2020, p. 268–278 (lire en ligne, consulté le 9 mai 2024)
↑ (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).
↑ (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.
↑ (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1] Hang Le, Loïc Vial, Jibril Frej et Vincent Segonne, « FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français (FlauBERT : Unsupervised Language Model Pre-training for French) », Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, ATALA et AFCP,‎ juin 2020, p. 268–278 (lire en ligne, consulté le 9 mai 2024)

[2] (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).

[3] (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.

[4] (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1]

[2]

[3]

[4]