Français : La description de l'architecture du Transformeur se compose de plusieurs couches d'apprentissage. Le transformeur se distingue d'autres algorithmes d'apprentissage profond par l'ajout de couches "d'attention multi-têtes" permettant de gérer des données séquentielles sans qu'elles soient nécessairement traitées dans l'ordre, favorisant ainsi une plus grande parallélisation que d'autres algorithmes tels que les RNN.
de partager – de copier, distribuer et transmettre cette œuvre
d’adapter – de modifier cette œuvre
Sous les conditions suivantes :
paternité – Vous devez donner les informations appropriées concernant l'auteur, fournir un lien vers la licence et indiquer si des modifications ont été faites. Vous pouvez faire cela par tout moyen raisonnable, mais en aucune façon suggérant que l’auteur vous soutient ou approuve l’utilisation que vous en faites.
partage à l’identique – Si vous modifiez, transformez, ou vous basez sur cette œuvre, vous devez distribuer votre contribution sous la même licence ou une licence compatible avec celle de l’original.
Architecture d'un Transformeur (Apprentissage Profond). Ce schéma est une réplique traduite des schémas présents dans l'article "Attention is all you need", A. Vaswani et al., 2017