Fonction softmax

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

En mathématiques, la fonction softmax, ou fonction exponentielle normalisée, est une généralisation de la fonction logistique qui prend en entrée un vecteur de nombres réels et qui en sort un vecteur de nombres réels strictement positifs et de somme .

La fonction est définie par :

pour tout .

C'est-à-dire que la composante du vecteur est égale à l'exponentielle de la composante du vecteur divisée par la somme des exponentielles de toutes les composantes de .

En théorie des probabilités, la sortie de la fonction softmax peut être utilisée pour représenter une loi catégorielle – c’est-à-dire une loi de probabilité sur différents résultats possibles.

La fonction softmax est également connue pour être utilisée dans diverses méthodes de classification en classes multiples, par exemple dans le cas de réseaux de neurones artificiels.

Exemple[modifier | modifier le code]

Considérons un vecteur

de six nombres réels. La fonction softmax donne en sortie (en valeurs approchées à près) :

.

Régression logistique[modifier | modifier le code]

Une utilisation courante de la fonction softmax apparaît dans le champ de l'apprentissage automatique, en particulier dans la régression logistique : on associe à chaque possibilité de sortie un score, que l'on transforme en probabilité avec la fonction softmax.

Concrètement, on a en entrée un vecteur, qui est donc une matrice colonne, notée , de lignes. On va la multiplier par une matrice dite « de poids » de lignes et de colonnes, afin de transformer en un vecteur de éléments (appelés logits). La fonction softmax est utilisée pour transformer les logits dans un vecteur de probabilités, indiquant la probabilité que appartienne à chacune des classes de sortie .

Par exemple, si on donne en entrée la couleur des pixels d'une image de chat, on aura pour chaque ligne de des nombres, des « poids », propres à chaque animal, et ainsi chaque logit sera le score d'un animal. Si le score du chat est le plus important, alors la probabilité donnée par la fonction softmax que l'image est un chat sera la plus importante, d'après l'étude de la couleur des pixels. Mais on peut travailler sur d'autres caractéristiques, et ainsi obtenir d'autres probabilités, afin de déterminer l'animal sur la photo. Au fur et à mesure que l'intelligence artificielle aura d'exemples, plus la matrice de poids s'affinera, et plus le système sera performant : on parle d'apprentissage automatique.

Notes et références[modifier | modifier le code]

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Softmax function » (voir la liste des auteurs).