Précision et rappel

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Lorsqu’une personne interroge une base de données (que ce soit un logiciel documentaire ou un moteur de recherche), elle attend un nombre de réponses (sous forme de documents) supérieur ou égal à un. À partir de l'ensemble de réponses obtenus mis en regard de l’attente de l’utilisateur, on peut mesurer les performances de l'algorithme de recherche mis en œuvre pour retrouver un document. Les critères de mesure des performances sont le rappel et la précision.

Le rappel[modifier | modifier le code]

Le rappel est défini par le nombre de documents pertinents retrouvés au regard du nombre de documents pertinents que possède la base de données. Cela signifie que lorsque l’utilisateur interroge la base il souhaite voir apparaître tous les documents qui pourraient répondre à son besoin d'information. Si cette adéquation entre le questionnement de l’utilisateur et le nombre de documents présentés est importante alors le taux de rappel est élevé. À l’inverse si le système possède de nombreux documents intéressants mais que ceux-ci n’apparaissent pas dans la liste des réponses, on parle de silence. Le silence s’oppose au rappel.


Rappel_i = \frac{documents~correctement~attribu\acute{e}s~\grave{a}~la~classe~i}{nombre~de~documents~appartenant~\grave{a}~la~classe~i}

En statistique, le rappel est appelé sensibilité.

La précision[modifier | modifier le code]

La précision est le nombre de documents pertinents retrouvés rapporté au nombre de documents total proposé par le moteur de recherche pour une requête donnée.

Le principe est le suivant : quand un utilisateur interroge une base de données, il souhaite que les documents proposées en réponse à son interrogation correspondent à son attente. Tous les documents retournés superflus ou non pertinents constituent du bruit. La précision s’oppose à ce bruit documentaire. Si elle est élevée, cela signifie que peu de documents inutiles sont proposés par le système et que ce dernier peut être considéré comme "précis". On calcule la précision avec la formule suivante :


Pr\acute{e}cision_i = \frac{documents~correctement~attribu\acute{e}s~\grave{a}~la~classe~i}{nombre~de~documents~attribu\acute{e}s~\grave{a}~la~classe~i}

La précision et le rappel dans un cadre multi-classe[modifier | modifier le code]

Dans le cadre multi-classes (ou n est supérieur à 1), les moyennes globales de la précision et du rappel sur l'ensemble des classes i peuvent être évaluées par la macro-moyenne qui calcule d'abord la précision et le rappel sur chaque classe i suivie d'un calcul de la moyenne des précisions et des rappels sur les n classes :


Pr\acute{e}cision = \frac{\sum_{i=1}^{n} pr\acute{e}cision_i }{n}


Rappel = \frac{\sum_{i=1}^{n} rappel_i }{n}

Interprétation des résultats de précision et rappel[modifier | modifier le code]

Un système de recherche documentaire parfait fournira des réponses dont la précision et le rappel sont égaux à 1 (l'algorithme trouve la totalité des documents pertinents - rappel - et ne fait aucune erreur - précision). Dans la réalité, les algorithmes de recherche sont plus ou moins précis, et plus ou moins pertinents. Il sera possible d'obtenir un système très précis (par exemple un score de précision de 0,99), mais peu performant (par exemple avec un rappel de 0.10, qui signifiera qu'il n'a trouvé que 10 % des réponses possibles). Dans le même ordre d'idée, un algorithme dont le rappel est fort (par exemple 0,99 soit la quasi-totalité des documents pertinents), mais la précision faible (par exemple 0.10) fournira en guise de réponse de nombreux documents erronés en plus de ceux pertinents: il sera donc difficilement exploitable.

Par exemple, un système de recherche documentaire qui renvoie la totalité des documents de sa base aura un rappel de 1 (mais une mauvaise précision). Tandis qu'un système de recherche qui renvoie uniquement la requête de l'utilisateur aura une précision de 1 pour un rappel très faible. La valeur d'un classifieur ne se réduit donc pas à un bon score en précision ou en rappel.

F-mesure[modifier | modifier le code]

Une mesure populaire qui combine la précision et le rappel est leur pondération, nommée F-mesure (soit F-measure en anglais) ou F-score :

F = \frac{2 \cdot (\mathrm{pr\acute{e}cision} \cdot \mathrm{rappel})}{ (\mathrm{pr\acute{e}cision} + \mathrm{rappel})}\,

Ceci est connu comme mesure F_1, car précision et rappel sont pondérés de façon égale. Il s'agit d'un cas particulier de la mesure générale F_\beta (pour des valeurs réelles positives de \beta):

F_\beta = \frac{(1 + \beta^2) \cdot (\mathrm{pr\acute{e}cision} \cdot \mathrm{rappel})}{(\beta^2 \cdot \mathrm{pr\acute{e}cision} + \mathrm{rappel})}\,

Exemples[modifier | modifier le code]

Si une personne s’intéresse aux chats siamois et que dans une barre de recherche d’une interface de base de données elle tape « chat siamois », les documents qui ont été indexés avec pour seul terme le mot « chat » n’apparaîtront pas. Or certains de ces documents pourraient être pertinents. Cela va donc produire un silence documentaire et la valeur du rappel diminuera d’autant. Inversement si pour pallier ce risque la personne tape seulement « chat », alors qu’elle s’intéresse seulement aux chats siamois, le système lui présentera des documents dans lesquels les chats siamois ne sont pas mentionnés (ce pourra être les momies de chat en Égypte, voire la vie du poisson-chat). La précision sera faible et le bruit important.

Articles connexes[modifier | modifier le code]