Aller au contenu

Détection d'objet

Un article de Wikipédia, l'encyclopédie libre.
Détection de visage avec la méthode de Viola et Jones.

En vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la recherche d'image par le contenu ou la vidéo surveillance.

Problématique

[modifier | modifier le code]

Selon la terminologie usuelle[1] on peut distinguer la détection, de la localisation et de la reconnaissance d'objets :

  • détection (ou classification) : présence d'une instance de l'objet (« une voiture ») dans l'image
  • reconnaissance : identification d'une instance particulière (« la voiture de Michael Schumacher », « le visage de Gilles Deleuze »...)
  • localisation (ou parfois detection) : situation précise de l'instance (détectée ou reconnue) dans l'image (cadre englobant ou segmentation de la zone)

Pour des entités visuelles localisées (objet, visage, personne...), la détection et la localisation se confondent souvent. C'est différent pour des entités plus « abstraites » telles qu'intérieur/extérieur, jour/nuit, campagne/ville, etc. qui concernent plutôt la reconnaissance de scènes visuelles. Dans ce dernier cas, la localisation n'a pas toujours de sens puisque le concept est présent dans toute l'image.

La détection d'une classe d'objets est généralement considérée comme un problème plus difficile que la reconnaissance d'une instance particulière, puisqu'il faut identifier les caractéristiques communes à la classe en faisant abstraction de la variété des différentes instances au sein de ladite classe[2]. Cette variété peut être due à de multiples facteurs, notamment les conditions d'illumination ou le point de vue sous lequel a été prise la photo. Elle accroît encore dans le cas d'objets articulés (i.e non rigides) tels que les piétons ou les animaux.

Approche générale

[modifier | modifier le code]

L'approche générale pour détecter un objet dans une image (sans connaissance a priori sur les conditions de prise de vue) consiste en trois étapes :

Méthodes spécifiques

[modifier | modifier le code]

Des méthodes spécifiques ont été développées pour certains types d'objets, par exemple pour la détection de visage ou la détection de personne. Ces méthodes peuvent prendre en compte des caractéristiques spécifiques de l'objet comme le rapport largeur/hauteur, la présence des yeux et de la bouche dans le cas des visages, etc.

Mise en correspondance

[modifier | modifier le code]

La mise en correspondance vise à recaler les images (Exemple: SIFT)

Recherche à grande échelle

[modifier | modifier le code]

Quand les bases d'images sont grandes, les techniques de mise en correspondance deviennent inopérantes car trop gourmandes en calcul. La méthode bag-of-visterms consiste alors à agréger les détecteurs locaux selon un vocabulaire prédéfini, le dictionnaire. Inspiré de la technique connue depuis longtemps dans le domaine du texte (bag-of-words), elle a été proposée en 2003 pour la vidéo[3].

Notes et références

[modifier | modifier le code]
  1. voir par exemple le site de la campagne internationale PascalVOC erreur modèle {{Lien archive}} : renseignez un paramètre « |titre= » ou « |description= »
  2. K. Murphy, A. Torralba, D. Eaton, W. T. Freeman, Object detection and localization using local and global features Lecture Notes in Computer Science (unrefeered). Sicily workshop on object recognition, 2005
  3. Josef Sivic, Andrew Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, international conference on computer vision 2003