La théorie de la détection du signal est une application de la théorie de la décision concernant la détection d'une information ou d'un motif dans un signal mesuré en présence de bruit. Cette théorie décrit comment choisir de manière optimale un critère permettant de discerner l'information jugée utile - le signal - du bruit environnant, en tenant compte de la nature probabiliste de la source du signal, des différentes sources de bruit et du récepteur, à savoir l'outil de mesure du signal. Elle définit en outre des critères de qualité de la détection obtenue et plus généralement de la performance du récepteur.
Les débuts de la théorie de la détection du signal remontent au développement des récepteurs radar.
C'est le cas le plus simple, dans lequel on cherche à différencier deux états possibles, généralement la présence ou l'absence d'une information dans un ou plusieurs signaux déterministes en présence de bruit aléatoire. Cela revient aussi à un problème de classification automatique supervisée dans le cas où il y a deux classes.
On considère un ensemble de n signaux pouvant être émis aléatoirement par l'une de deux sources H1 et H2, avec des probabilités p1 et p2 (telles que ), appelées probabilités a priori. Ceci produit une variable aléatoire continueX sur un espace d'observation dont les probabilités conditionnelles sont définies par les fonctions densité de probabilité fX|H1 et fX|H2.
On cherche une partition de l'espace d'observation
telle que .
Étant donnée une réalisation x de X, c'est-à-dire une mesure du signal,
on lui associe les décisions :
D1 si x est dans
D2 si x est dans
Relations entre les hypothèses, l'espace d'observation et les décisions
Toutes les décisions ne sont pas équivalentes quant à leur utilité. On associe donc un coût à chaque événement Ci , j correspondant à la décision Di sous hypothèse Hj.
En général les mauvaises décisions sont plus coûteuses et on a et .
On cherche ensuite le niveau de seuil qui minimise le coût moyen
.
Celui ci est obtenu pour
c'est le seuil obtenu selon le critère de Bayes.
Démonstration
Le coût moyen se développe en
et puisque par définition , on a
Les deux premiers termes sont constants, tandis que les deux derniers termes dépendent de la partition choisie et par suite du niveau de seuil, car .
On peut alors écrire
avec
Minimiser C revient à choisir la partition qui rend le terme sous l'intégrale négatif, c'est-à-dire et et
et donc
On retrouve à gauche de cette inégalité le rapport de vraisemblance et donc à droite le niveau de seuil obtenu en minimisant C.
Si on choisit de pénaliser uniquement et uniformément les mauvaises détections et , le coût moyen devient .
Ce choix particulier revient à minimiser la probabilité totale de mauvaise détection.
Le niveau de seuil devient alors
On peut montrer que dans ce cas la règle de décision peut se reformuler sous la forme suivante :
conduit à la décision D2
conduit à la décision D1
étant la probabilité conditionnelle a posteriori de l'hypothèse Hj.
Cette règle revient donc à choisir à chaque fois le maximum de la probabilité a posteriori[1].
Démonstration
La règle de décision portant sur le rapport de vraisemblance s'écrit
conduit à choisir D2,
soit encore
(et l'autre inégalité conduit à la décision H1).
Par ailleurs, la probabilité conditionnelle a posteriori de l'hypothèse Hj étant donné X est définie par , avec la fonction densité de probabilité de la variable aléatoire X.
Celle-ci se simplifie dans le rapport de vraisemblance, ce qui laisse apparaître le rapport des probabilités a posteriori
Le critère de Bayes suppose la connaissance des probabilités a priori, ce qui n'est pas toujours le cas. On va donc essayer de se placer dans le pire cas du critère de Bayes, c'est-à-dire rechercher une des probabilités a priori, par exemple , de sorte à avoir
étant le coût moyen précédemment défini.
La valeur de seuil reste celle définie par le critère de Bayes
et la probabilité qui maximise le coût est solution de l'équation caractéristique
Les deux probabilités conditionnelles dépendent implicitement de au travers de .
Démonstration
Sachant que par définition des probabilités et , et en introduisant temporairement la notation , la fonction coût moyen du critère de Bayes se réécrit en
La fonction coût ainsi formulée dépend explicitement de deux variables, la probabilité a priori et le seuil .
Représentation du coût moyen défini par le critère de Bayes (la courbe en bleu), et du coût moyen réel (la droite en gris). Des trois cas présentés, le premier est impossible, et le troisième montre qu'au maximum, le coût moyen réél est une tangente horizontale, et c'est aussi un majorant du coût. Ce point définit la valeur de la probabilité a priori du critère minimax.
La probabilité étant inconnue, on peut étudier les différents cas qui peuvent exister si l'on se donne arbitrairement une valeur pour définir le seuil par le critère de Bayes défini plus haut.
Le niveau de seuil étant fixé, le coût moyen réel ne dépend plus que linéairement de la probabilité .
Dans le cas I, représenté sur la figure, la courbe bleue représente le coût moyen déduit du critère de Bayes en ce point et la droite en gris représente le coût moyen réél . En fait ce cas est interdit car pour une valeur le coût réél serait inférieur au coût donné par le critère de Bayes, ce qui est impossible car ce critère fournit le coût minimum pour une valeur de connue.
Donc, seul le cas II représenté sur la figure est possible : la droite du coût moyen réél est tangente en tout point à la courbe bleue. De plus celle-ci est nécessairement concave au sens de l'analyse. Toute partie convexe est interdite car elle permettrait de trouver une valeur du coût inférieur à celui donné par le critère de Bayes.
Finalement, dans le cas III de la figure, lorsque est choisi de sorte à satisfaire le maximum de , le coût moyen réel est une tangente horizontale en ce point, et par suite ce point est le seul à pouvoir majorer le coût moyen réél quel que soit .
De plus, la pente de la droite tangente est obtenue en dérivant partiellement par rapport à , et l'équation caractéristique est obtenue en annulant cette expression de la pente :
On peut représenter graphiquement le critère minimax en remarquant que puisque l'équation caractéristique est aussi l'équation d'une droite dans le plan . Son intersection avec la courbe caractéristique opérationnelle du récepteur donne directement les probabilités conditionnelles satisfaisant le critère minimax.
Intersection de la droite représentative de l'équation caractéristique avec la courbe caractéristique opérationnelle du récepteur
Les critères précédents supposent tous qu'il est possible de définir le coût associé aux différentes décisions. Toutefois lorsque ceci n'est pas possible, il existe une autre approche consistant à fixer a priori le taux de faux positif à une valeur et à rendre maximum le taux de bonne détection .
Ceci revient à chercher un niveau de seuil intervenant dans la règle
de décision
tel que
Démonstration
Il faut démontrer que le choix ci-dessus du seuil est en fait optimal, c'est-à-dire qu'il maximise le taux de bonne détection .
On recherche donc une partition de l'espace d'observation qui maximise
étant un multiplicateur de Lagrange. De par la définition des probabilités conditionnelles en termes de densité de probabilité conditionnelles , la fonction coût ci-dessous peut encore s'exprimer sous la forme
Maximiser J revient à rendre l'intégrande positif si x est dans et négatif lorsque x est dans :
conduit à la décision D2
et
conduit à la décision D1
En faisant apparaître le rapport de vraisemblance, on voit que le multiplicateur de Lagrange est exactement le seuil optimal recherché.
On peut interpréter graphiquement le critère de Neyman-Pearson à l'aide de la courbe caractéristique opérationnelle du récepteur. Le taux de faux positif en abscisse est directement donné par le niveau désiré . D'autre part, une propriété de la caractéristique opérationnelle du récepteur est que sa pente est égale au niveau de seuil . Le critère de Neyman-Pearson revient donc à mesurer la pente de la courbe au point d'abscisse considéré.
Application au cas d'un signal en présence de bruit gaussien
H2 : la variable aléatoire X est distribuée suivant une loi normale d'espérance (que l'on suppose plus grande que ) et de même variance .
Autrement dit, le signal peut prendre deux valeurs déterministes et auxquelles un bruit gaussien est ajouté.
Le critère du maximum a posteriori fournit la règle de décision suivante sur la valeur mesurée x :
conduit à la décision D2
conduit à la décision D1
avec une valeur de seuil
Fonctions densité de probabilité conditionnelle pour les deux hypothèses, distribuées suivant deux lois normales de même variance et d'espérances et et probabilités conditionnelles de mauvaise détection pour une valeur du seuil de détection
Les probabilités conditionnelles sont données ici par :
La probabilité totale de mauvaise détection résultant de ce choix est donc
Une autre facçon d'évaluer la détection est de tracer la courbe de la caractéristique opérationnelle du récepteur, c'est-à-dire en fonction de lorsqu'on fait varier de à .
Caractéristique opérationnelle du récepteur correspondant à différentes valeurs du ratio
↑Bernard Dubuisson, Cours de théorie statistique de la décision pour le diplôme d'études approfondies en contrôle des systèmes : Détection et estimation, Université de Technologie de Compiègne,