Modèle probabiliste de pertinence

Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones^[1]. Elle est utilisée en recherche d'information pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable pour l'utilisateur. L'une des applications directes de ce modèle est la méthode de pondération Okapi BM25, considérée comme l'une des plus performantes dans le domaine.

Modélisation[modifier | modifier le code]

Étant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.

Similairement à d'autres modèles, on suppose que :

il existe des documents pertinents pour cette requête du point de vue de l'utilisateur (ensemble $R$ de documents, les documents non pertinents étant le complément ${\bar {R}}$ de cet ensemble dans la base)
la pertinence d'un document est indépendante des jugements portés sur les autres documents
l'utilité d'un document pertinent est indépendante du nombre de documents pertinents précédemment renvoyé

Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas :

s(D|q)={\frac {P(R|D)}{P({\bar {R}}|D)}}

Considérant un vocabulaire $T={t_{1},\dots ,t_{m}}$ , un document est caractérisé par la présence (noté abusivement $t_{i}=1$ ) ou l'absence ( $t_{i}=0$ ) de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme:

s(D|q)=\sum _{i=1}^{m}{w_{i}\times t_{i}}

Où le poids $w_{i}$ dépend de la probabilité de présence du terme $t_{i}$ dans l'ensemble des documents pertinent et son complément.

Expression du poids[modifier | modifier le code]

Considérons une base de $N$ documents, dont $n$ sont considérés pertinents pour la requête. En notant $R_{i}$ le nombre de documents contenant le terme $t_{i}$ , et $r_{i}$ le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par :

w_{i}=log\left({\frac {\frac {r_{i}}{n-r_{i}}}{\frac {R_{i}-r_{i}}{N-R_{i}-n+r_{i}}}}\right)=log\left({\frac {r_{i}(N-R_{i}-n+r_{i})}{(n-r_{i})(R_{i}-r_{i})}}\right)

Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule :

w_{i}=log\left({\frac {\frac {r_{i}+0.5}{n-r_{i}+0.5}}{\frac {R_{i}-r_{i}+0.5}{N-R_{i}-n+r_{i}+0.5}}}\right)=log\left({\frac {(r_{i}+0.5)(N-R_{i}-n+r_{i}+0.5)}{(n-r_{i}+0.5)(R_{i}-r_{i}+0.5)}}\right)

Si on néglige de considérer les documents pertinents pour la requête ( $n=r_{i}=0$ ), on retrouve l'expression dite probabiliste de la fréquence inverse de document :

w_{i}=log\left({\frac {N-R_{i}}{R_{i}}}\right)

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

modèles probabilistes (dans un cours de Recherche d'information)

Références[modifier | modifier le code]

↑ (en) Stephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, n^o 3,‎ mai-juin 1976, p. 129–146 (lire en ligne)

[1] (en) Stephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, n^o 3,‎ mai-juin 1976, p. 129–146 (lire en ligne)

[1]