BERT (modèle de langage)

Informations
Développé par	Google Research (d)
Première version	2018
Dépôt	github.com/google-research/bert
Taille des données	110 M paramètre et 340 M paramètre
Type	Grand modèle de langage; Modèle transformateur; Modèle de langage entraîné par masquage (d)
Licence	Licence Apache version 2.0
Site web	arxiv.org/abs/1810.04805

En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues.

Usage dans des applications[modifier | modifier le code]

Le 25 octobre 2019, Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)^[1] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelle RankBrain avait été lancé.

La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT^[2] et FlauBERT^[3]. CamemBERT a été pré-entraîné sur un corpus de 138 Go de texte et FlauBERT sur un corpus de 71 Go de texte.

Bibliographie[modifier | modifier le code]

(en) Toutanova, Kristina, « BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding », sur arXiv.org, 11 octobre 2018 (consulté le 21 décembre 2023).

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

(en) répertoire Github

Notes et références[modifier | modifier le code]

↑ (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).
↑ (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.
↑ (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1] (en) Jacob Devlin et Ming-Wei Chang, « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », sur Google AI Blog, 2 novembre 2018 (consulté le 30 octobre 2019).

[2] (en) Louis Martin et al., « CamemBERT: a Tasty French Language Model », 2020.

[3] (en) Hang Le et al., « FlauBERT: Unsupervised Language Model Pre-Training for French », 2020.

[1]

[2]

[3]