BERT (modèle de langage)
Pour les articles homonymes, voir Bert.
Développé par | Google Research (d) |
---|---|
Première version | |
Dépôt | github.com/google-research/bert |
Taille des données | 110 000 000 paramètre et 340 000 000 paramètre |
Type |
Modèle de langage Modèle transformeur |
Licence | Licence Apache version 2.0 |
Site web | ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html |
En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues[1].
Usage dans des applications[modifier | modifier le code]
Le , Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)[2] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelle RankBrain avait été lancé.
La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT[3] et FlauBERT[4]. CamemBERT a été pré-entraîné sur un corpus de 138Go de texte et FlauBERT sur un corpus de 71Go de texte.