Utilisateur:Qwltrd/Brouillon

Description du modèle

BERT est basé sur le Transformeur, n'utilisant que sa partie "encodeur". BERT consiste en une première couche de plongement lexical pour représenter les mots sous forme de vecteur. Ces plongements sont ensuite donné en entrée aux blocs de Transformeur successifs. Le modèle se termine par une couche appelée "tête" qui alignent les vecteurs résultants du dernier bloc de Transformeur avec le vocabulaire du modèle, permettant l'obtention d'une distribution de probabilité sur le lexique pour prédire un mot manquant.

BERT a été construit de sorte à pouvoir recevoir jusqu'à deux phrases en entrée. La suite d'unités lexicales (tokens en anglais) en entrée commence systématiquement par une unité spéciale " [CLS] " (pour "classify") et est terminée par l'unité spéciale [SEP] (pour "separate"). Dans le cas où la suite d'unités contient deux phrases, une autre unité [SEP] est insérée entre les deux phrases.

BERT est un modèle pré-entrainé pour les deux objectifs suivants :

Masked Language Modeling : une des unités de la suite est remplacée par l'unité [MASK]. L'objectif est alors que la distribution de probabilité en sortie du modèle maximise la probabilité de prédiction de l'unité masquée.
Next Sentence Prediction : la suite en entrée est composé de deux phrases. Le modèle doit prédire (vrai ou faux) si les deux phrases sont successives dans les données d'entrainement ou non.

Deux versions pré-entrainées de BERT ont été distribuées :

la version "base" est composée de 12 blocs "encodeurs" de Transformeur avec 12 têtes d'attention, pour un total de 110 millions de paramètres. Les représentations vectorielles des couches intermédiaires du modèle sont de dimension 768.
la version "large" est composée de 24 blocs encodeurs avec 16 têtes d'attention, pour un total de 340 millions de paramètres. Les représentations vectorielles intermédiaires sont de dimension 1024.