Détection de personnes

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Un exemple de détection de personnes sur une voie de circulation

La détection de personnes est un domaine de la vision par ordinateur consistant à détecter un humain dans une image numérique. C'est un cas particulier de détection d'objet, où l'on cherche à détecter la présence et la localisation précise, dans une image, d'une ou plusieurs personnes, en général dans une posture proche de celle de la station debout ou de la marche. On parle également de détection de piéton, en raison de l'importance des applications en vidéosurveillance et pour les systèmes de vision embarqués dans des véhicules.

Étudiée à partir de la fin des années 1990, la détection de personne s'est révélée être un sujet assez difficile, en raison de la grande variété d'apparences des personnes, de l'articulation du corps humain et des phénomènes d'occultations. Bénéficiant des progrès méthodologiques réalisés en détection de visage, la détection de personne a inspiré des méthodes spécifiques, comme les histogrammes de gradient orienté, particulièrement performants. Les méthodes les plus efficaces construisent des modèles statistiques par apprentissage supervisé, à partir de caractéristiques de forme ou d'apparence, calculées sur de nombreux exemples d'images de personnes.

Problématique[modifier | modifier le code]

Détection de piétons dans diverses situations sur la voirie.

La détection de personnes est un sujet particulièrement difficile, en raison notamment de la grande variabilité d'apparences et de situations possibles :

  • grande variabilité de l'apparence des êtres humains, ainsi que de leurs vêtements ;
  • articulation du corps humain (bras, jambes, torse) ;
  • occultations par des objets (mobilier urbain par exemple) ;
  • occultations par d'autres personnes et phénomènes de foule.

Généralement, la détection doit s'effectuer dans des conditions difficiles et en environnement non contraint, en utilisant du matériel de prise de vue fournissant des images de faible qualité : caméras de vidéosurveillance de faible résolution, caméras embarquées dans un véhicule, etc.

Le problème est donc de trouver une représentation d'un humain qui soit à la fois suffisamment générique pour englober tous les types de situations, et suffisamment discriminante pour ne représenter que les humains[1]. Pour cela, on utilise en général une représentation intermédiaire, fondée sur le calcul d'une ou plusieurs caractéristiques, permettant de mieux résumer l'information que les seules valeurs des pixels[1],[2].

Historique[modifier | modifier le code]

Les premiers travaux sur la détection de personnes datent de la fin des années 1990[3],[4]. Dans l'une des premières méthodes proposées, la stéréovision est utilisée pour détecter des objets au moyen d'une transformée de Hough. La méthode peut détecter des piétons, mais n'est pas exclusive à ce type d'objet[4]. En 1998, Heisele et Wöhler utilisent le mouvement des jambes des piétons pour réaliser la détection et la classification, avec des contraintes sur la localisation des piétons par rapport au sol[3]. Ces méthodes restent cependant spécifiques à une application et peu génériques.

À partir des années 2000, le domaine bénéficie des avancées effectuées en détection de visage et notamment de la méthode de Viola et Jones, qui est étendue en 2005 à la détection de personnes en utilisant le mouvement[5]. La méthode permet une détection plus générique, ne nécessitant pas d'information a priori sur la structure de la scène, et donne de bons résultats avec un temps d'exécution proche du temps-réel. Poussée notamment par les campagnes d'évaluation internationales (e.g PASCAL VOC), la recherche se concentre sur ce type de méthode de détection générique. En 2005, des chercheurs de l'INRIA proposent les histogrammes de gradient orienté (HOG)[6], dont les excellents résultats en font rapidement une méthode standard[7],[8]. En 2008, des chercheurs de l'Université Rutgers utilisent un descripteur construit comme une matrice de covariance, qui permet d'obtenir des performances encore meilleures[9]. Également en 2008, des chercheurs de l'université de Pékin utilisent avec succès les motifs binaires locaux (LBP), un type de caractéristiques qui s'était révélé efficace en détection de visage[10].

Techniques de détection de zones[modifier | modifier le code]

Il existe un grand nombre de techniques pour la détection de personnes dans une image ou une vidéo numérique, répondant aux différentes contraintes des applications. Certaines peuvent être combinées entre elles (stéréovision, infrarouge et fenêtre glissante par exemple). Dans le cas où l'on maîtrise le système d'acquisition de l'image ou de la vidéo, on peut choisir un système de stéréovision, un système d'imagerie à grande gamme dynamique, ou travailler dans le domaine infrarouge avec une caméra thermique. Les techniques mises en œuvre lorsque l'on recherche une personne dans une image existante, sans aucune information a priori sur le contenu, sont généralement différentes.

Le point commun de ces techniques est de calculer un certain nombre de caractéristiques à partir des pixels de l'image. Celles-ci peuvent être globales ou locales, et rendre compte d'informations de forme, de couleur, de texture ou de mouvement. Les caractéristiques des zones contenant des personnes sont en général utilisées par une méthode d'apprentissage supervisé, qui peut être l'implémentation d'un modèle génératif ou discriminant[7], pour déterminer un modèle de personne. Ce dernier sert alors à classer une zone de l'image comme étant une personne ou non, à partir d'un vecteur de caractéristiques calculé sur cette zone. Celle-ci peut être déterminée par un pré-traitement, par exemple par la détection du mouvement au moyen d'une étape de soustraction de fond. Une alternative est d'explorer toutes les zones possibles de l'image, comme c'est le cas avec les méthodes de détection par fenêtre glissante.

Pré-traitement[modifier | modifier le code]

Certaines méthodes utilisent une étape de pré-sélection des zones à analyser. Ceci permet de réduire la complexité algorithmique ou d'écarter d'emblée toute zone sans intérêt, en particulier en fonction de critères géométriques.

Utilisation de la stéréovision[modifier | modifier le code]

La stéréovision est l'utilisation de plusieurs caméras pour capturer la même scène, vue sous des angles différents, ce qui permet une reconstitution en 3D de la scène.

On peut ainsi, moyennant une calibration des caméras, estimer les distances et la taille des objets. C'est une technique essentiellement utilisée pour les systèmes d'aide à la conduite automobile, application pour laquelle elle se révèle meilleure que les techniques fondées sur une seule vue[11]. L'information 3D est utilisée pour localiser des régions d'intérêts, c'est-à-dire des zones pouvant contenir une personne, à partir de la géométrie de la scène (localisation du sol) et de contraintes géométriques de la région (taille et rapport hauteur/largeur). On suppose souvent par simplification que la route sur laquelle se déplace le véhicule est plane[11], mais plusieurs méthodes ont été développées pour outrepasser cette hypothèse[12],[13]. La stéréovision seule ne suffisant pas à détecter des personnes, les régions d'intérêts détectées sont ensuite généralement traitées lors d'une étape de classification.

Les systèmes stéréo présentent plusieurs qualités telle que la possibilité d'évaluer les distances de façon satisfaisante et une bonne robustesse aux variations brusques d'illuminations et occultations[11],[14]. Ils sont par contre plus lents, le traitement de la stéréovision étant consommatrice en calcul. De plus, ils peuvent présenter des zones aveugles dans les régions non texturées et nécessitent un post-traitement des régions détectées, afin de ne sélectionner que celles pouvant correspondre à une personne, identifiées à partir de contraintes de taille et de distance[11],[14].

Les systèmes utilisant la stéréovision peuvent indifféremment être utilisés dans le domaine visible ou infrarouge, ou combiner les deux[11].

Utilisation du mouvement[modifier | modifier le code]

Quand le système acquiert une vidéo, il est intéressant de tirer parti du mouvement de la personne pour faciliter sa détection. Une étape de segmentation spatiale de l'image en avant et arrière-plan est effectuée préalablement à la détection proprement dite. Cette segmentation se fait généralement en utilisant une méthode de soustraction de fond, qui consiste à estimer un modèle de l'arrière-plan (le fond), qu'il suffit ensuite de soustraire à l'image courante pour en obtenir les parties en mouvement[15]. D'autres méthodes permettant d'obtenir le mouvement sont possibles, comme l'utilisation d'une variante du mean shift[16]. Il s'ensuit une étape de détection de blob, visant à déterminer un ensemble cohérent de pixels formant potentiellement un objet. Les objets détectés sont ensuite analysés afin de déterminer s'ils représentent une personne ou non. On se ramène alors au problème de détection de personne dans une image fixe, pour lequel on peut extraire plusieurs caractéristiques (forme, couleur, mouvement…) pour la classification[17].

L'avantage de ces méthodes est de réduire la complexité du problème de classification, en présentant au détecteur un certain nombre de candidats probables. Elles sont par contre dépendantes de la qualité des méthodes de soustraction de fond, qui présentent des limitations, notamment dans des environnements dynamiques (variations brusques de luminosités, mouvements des arbres, etc.)[15]. Ce type de méthodes est par ailleurs limité à des scénarios où la caméra est fixe, ce qui est nécessaire afin d'estimer le fond, mais qui restreint en général leur usage à une application de type vidéo-surveillance.

Détection par fenêtre glissante[modifier | modifier le code]

La technique la plus générique et aussi la plus employée est la détection par fenêtre glissante, consistant en un parcours exhaustif de l'image, par application du détecteur à de très nombreuses positions et échelles[7]. La détection par fenêtre glissante est surtout utilisée dans des applications où l'information a priori sur le contenu est pauvre, en particulier quand le choix du capteur n'est pas maitrisé. Le balayage de l'ensemble de l'image est alors une méthode privilégiée.

Ce genre de méthode est en général utilisé pour des applications de recherche d'image par le contenu, ou de vidéo-surveillance. Elles sont cependant moins utilisées pour des applications d'assistance à la conduite en raison des contraintes imposées par leur implémentation dans un système embarqué[11].

Différents types de caractéristiques[modifier | modifier le code]

Une image de piéton (à gauche) et son gradient (à droite)

Si des caractéristiques globales, par exemple fondées sur la détection de contour[18], ont parfois été utilisées, elles restent cependant assez limitées dans les types d'images qu'elle peuvent traiter, et ont le défaut d'être peu robustes aux occultations[1]. La plupart des systèmes utilisent des caractéristiques locales, telles que les caractéristiques pseudo-Haar[19]. Dans les premiers systèmes développés, les caractéristiques étaient choisies manuellement, en fonction de connaissances a priori, principalement des critères géométriques que doit respecter un objet pour être identifié comme étant une personne[7]. Proposée à l'origine pour la détection de visage[2], et ensuite étendue à la détection de personne[5], la méthode de Viola et Jones permet de s'affranchir de cette étape manuelle en sélectionnant automatiquement les meilleures caractéristiques par AdaBoost[7].

Une amélioration importante des performances est obtenue par l'introduction d'une nouvelle caractéristique, les histogrammes de gradient orienté (HOG), calculée à partir d'histogrammes de l'orientation du gradient de l'image, sur une grille dense avec des recouvrements[6]. Cette représentation s'est révélée particulièrement efficace, bien qu'assez lente lors de la détection[8]. Utilisés au départ avec un classifieur assez simple, fondé sur les machines à vecteurs de support, la méthode a ensuite été améliorée, en utilisant une cascade de classifieurs, similaire à celle présente dans la méthode de Viola et Jones. Ceci permet des résultats similaires en qualité par rapport aux HOG classiques, mais avec des temps de détection jusqu'à 70 fois plus rapide[20].

La covariance de région est un descripteur construit comme une matrice de covariance de caractéristiques simples (intensité, gradient), calculée localement sur une région d'intérêt, à l'aide d'une image intégrale[21]. Ce descripteur est appliqué à la détection de personnes, en construisant les matrices de covariance de chaque région à partir d'un ensemble de 8 caractéristiques. La classification est réalisée à partir d'une cascade de classifieurs boostés, en utilisant une variante d'AdaBoost, logitBoost, et en modifiant l'algorithme de classification pour prendre en compte le fait que le descripteur appartient à une variété riemannienne et non à un espace vectoriel classique[9]. Cette méthode obtient d'excellent résultats, supérieurs aux HOG[9].

Se démarquant des caractéristiques fondées sur le gradient, les motifs binaires locaux (LBP) sont un type de caractéristiques construites comme un code binaire à partir du seuillage local des intensités. Les LBP permettent d'éviter certaines pertes d'informations liées à l'utilisation du gradient, et permettent de capturer d'autres types de structures locales[10]. Des chercheurs de l'université de Pékin ont montré que moyennant une adaptation de la représentation des LBP au problème de détection de personne, ces caractéristiques permettaient d'obtenir des résultats supérieurs aux HOG et à la covariance de région[10].

Combinaison de caractéristiques[modifier | modifier le code]

Plusieurs études ont montré que l'utilisation simultanée ou alternée de plusieurs types de descripteurs permettait une amélioration significative des résultats. Par exemple l'utilisation combinée des HOG et LBP permet d'obtenir des résultats supérieurs à une utilisation indépendante[22]. L'utilisation combinée des HOG et des caractéristiques pseudo-Haar permet également d'obtenir de meilleurs résultats[23],[24].

L'idée sous-jacente à l'utilisation combinée de plusieurs caractéristiques est qu'elles encodent une information différente dans leur représentation (hautes ou basses fréquences…) et que ces informations sont plus ou moins pertinentes selon les cas[23]. La combinaison de descripteurs permet de pallier certaines déficiences d'une famille de descripteurs. Il est également possible d'utiliser plusieurs familles de descripteurs de façon alternée, en utilisant par exemple les plus rapides au début de la détection et les plus complexes à la fin[25].

Détection par parties[modifier | modifier le code]

Certaines méthodes modélisent une personne comme un ensemble de parties, et cherchent à détecter ces parties du corps indépendamment les unes des autres, avant de fusionner l'ensemble des indices. Wu et Nevatia proposent des détecteurs à base de classifieurs faibles boostés, utilisant des caractéristiques locales fondées sur la forme, nommées edglets. Ils séparent le corps en trois parties : tête-épaules, torse, jambes[26]. Mikolajczyk, Schmid et Zisserman divisent quant à eux une personne en sept parties, et entraînent pour chacune de ces parties un détecteur fondé sur la méthode de Viola et Jones appliquée à des caractéristiques d'orientation similaires aux SIFT. La combinaison des réponses des détecteurs de parties est réalisée dans un cadre probabiliste bayésien[27].

Ces approches, grâce à leur fonctionnement par parties, sont certes construites pour être robustes aux occultations ainsi qu'aux variations d'apparences dues à l'articulation du corps humain, mais la détection d'une partie du corps reste une tâche très difficile.

Détection dans le domaine infrarouge[modifier | modifier le code]

Une image infrarouge d'un groupe de personnes.

Le domaine infrarouge possède des propriétés intéressantes pour la détection de personnes, en particulier pour les applications de vidéo-surveillance ou de sécurité automobile, qui doivent être opérationnelles à toute heure, y compris la nuit ou dans des conditions d'illumination difficiles. L'image produite par une caméra infrarouge est fondée sur l'émission de chaleur dans la scène, apportant ainsi des informations différentes de celles du spectre visible. Le corps humain est généralement une source de rayonnement suffisamment forte et localisée pour être différenciée de son environnement, et donc être détectable. Cela permet de s'affranchir des problèmes d'illumination, ainsi que de l'ombre[28]. Toutefois, d'autres corps peuvent également émettre de la chaleur (véhicules, animaux…) et l'image pouvant être très bruitée, particulièrement en environnement urbain, il s'avère donc toujours nécessaire de détecter une personne à partir de caractéristiques d'apparence et de forme[28].

Les mêmes types de méthodes que dans le domaine visible peuvent aussi s'appliquer : soustraction de fond, détection par fenêtre glissante… Zhang, Wu et Nevatia ont à ce titre montré qu'il est possible d'obtenir les mêmes performances dans le domaine infrarouge en utilisant certaines des méthodes développées pour le domaine visible, en particulier les HOG[29]. Certaines méthodes connaissent toutefois des pertes de performances, dues au fait que les images infrarouges sont moins texturées que dans le visible[29].

Modèles pour la classification[modifier | modifier le code]

La majorité des techniques de détection de personnes utilise un modèle statistique entraîné avec des vecteurs de caractéristiques calculés sur de nombreux exemples d'images de personnes. Le modèle détermine ainsi la fonction de décision qui permet de séparer au mieux les exemples positifs (représentant une personne) des exemples négatifs (le reste).

Les modèles discriminants cherchent à déterminer la meilleure frontière de décision permettant de trouver l'hyperplan optimal séparant les vecteurs positifs des vecteurs négatifs dans l'espace de représentation des vecteurs. Les machines à vecteurs de support font partie des modèles les plus employés et les plus efficaces dans ce domaine. Ils ont été utilisés pour la détection de personnes avec un noyau linéaire, des noyaux gaussiens ou polynomiaux[7]. Un autre type de modèle discriminant très utilisé est la cascade de classifieurs boostés, construite comme dans la méthode de Viola et Jones[7]. L'emploi d'un classifieur dans une structure en cascade permet d'obtenir des temps de détection très courts[20], les performances en détection dépendant des caractéristiques et des classifieurs faibles utilisés. Les réseaux de neurones peuvent également être employés, par exemple un perceptron multicouche modifié afin que les neurones cachés ne reçoivent leurs entrées que d'une région spatiale locale[7].

Des modèles génératifs ont également été utilisés, mais ils restent néanmoins moins répandus. Ceux-ci modélisent explicitement la loi jointe des observations et des classes. Certains auteurs utilisent un modèle génératif pour générer des échantillons afin d'améliorer l'apprentissage d'un modèle discriminant, qui est utilisé pour la classification proprement dite[30].

Évaluation et performances[modifier | modifier le code]

Afin de connaitre précisément les performances des différents algorithmes, des bases d'images et de vidéos contenant des personnes ont été constituées et la position de chaque personne annotée manuellement. Ceci permet de juger les performances de l'algorithme de détection, par rapport à une « vérité terrain (en) » estimée par un humain. Certaines de ces bases ont été rendues publiques, ce qui permet la comparaison entre plusieurs algorithmes. L'une des bases les plus utilisées quelle que soit l'application envisagée est la base INRIA, constituée par Dalal et Triggs en 2005[note 1],[6],[24]. Des bases plus spécialisées existent, comme les bases Daimler, plus orientées vers la détection de piétons vu d'une automobile[note 2],[7]. La base Caltech est également destinée à cette application et contient 10 heures de vidéo, enregistrées à partir d'un véhicule en mouvement[24]. Ces bases doivent être représentatives de situations réelles, et contenir des cas difficiles : occultations, groupes de personnes, variations de luminosité, etc. Des bases spécifiques existent pour les données de stéréovision[31].

La mesure des performances peut se faire par image ou par fenêtre. La mesure par image consiste à mesurer la performance finale dans l'image : une personne est correctement détectée (vrai positif), manquée (faux négatif), ou le détecteur s'est trompé (faux positif, fausse alarme). Une détection est considérée comme correcte si elle partage une surface commune avec la vérité terrain supérieure à un seuil défini (un taux de 50 % est considéré comme raisonnable[24]). La mesure par fenêtre est spécifique aux algorithmes fonctionnant par fenêtre glissante : on mesure les performances dans chaque fenêtre testée, qui est soit positive ou négative. Cette mesure est assez utilisée en détection de personne, à la suite de son utilisation par Dalal et Triggs pour les HOG. Elle est toutefois critiquée par certains auteurs, qui lui reprochent de ne pas mesurer véritablement la performance finale de la détection, ni d'être suffisamment générique, de nombreux algorithmes n'utilisent pas de fenêtres glissantes[24].

La détection de personnes est une tâche assez difficile, les performances des différents algorithmes restent assez modestes. Ainsi, les HOG, considérés comme l'une des meilleures méthodes existantes[24],[7],[23], obtiennent un taux de rappel de 80 % sur la base INRIA, et de 60 % sur la base Caltech, pour un taux de 1 fausse alarme par image[24],[7]. Les performances dépendent toutefois beaucoup de la base de test et de la base d'apprentissage. Les algorithmes ont des difficultés à gérer les occultations, les faibles résolutions, les objets de ratio largeur/hauteur non standards[24]. Les méthodes obtenant les meilleurs résultats sont celles qui utilisent plusieurs types de caractéristiques différentes (HOG+Haar, HOG+LBP)[24].

Applications[modifier | modifier le code]

Un ensemble de caméras de vidéo-surveillance, opérant dans le domaine visible et infrarouge, équipées de systèmes de détection de personnes.

L'une des applications les plus importantes de la détection de personne est la vidéo-surveillance. Elle peut permettre la détection d'intrusion dans des zones interdites (par exemple un piéton sur l'autoroute), le comptage de personnes, l'estimation et la visualisation des flux de personnes (par exemple dans les gares et stations de métro), l'aide à l'analyse vidéo, etc. La détection de personnes sur des flux vidéos de surveillance sur de longues périodes de temps permet aussi d'obtenir des statistiques sur l'usage d'un lieu en fonction du temps, constituant ainsi une aide intéressante à la planification, en fournissant des évaluations chiffrées des flux de personnes au cours du temps[32]. La détection de personne peut également servir d'étape d'initialisation à un algorithme de suivi de personne[33].

Une autre application importante se trouve dans les systèmes d'assistance à la conduite automobile. Le but est de concevoir des systèmes intelligents capables d'avertir ou de prévenir les accidents, en surveillant les alentours du véhicule par une ou plusieurs caméras. Le système de détection peut soit prévenir le conducteur de la présence d'un piéton, soit directement agir sur les freins du véhicule[11],[34]. Les systèmes de détection de piétons sont également considérés nécessaires pour les systèmes de conduite automatisés.

La détection de personnes se rencontre aussi dans la recherche d'images par le contenu et l'indexation d'images et de vidéos. Déterminer si une ou plusieurs personnes sont présentes dans une image et indiquer à quel endroit elles apparaissent est une information sémantique importante, permettant d'améliorer la compréhension du sens de l'image[24]. C'est également une technologie intéressante en robotique (car permettant aux robots de « distinguer » les humains), ou pour des interfaces homme-machine avancées[24].

Notes et références[modifier | modifier le code]

Notes
Références
  1. a, b et c Yannick Benezeth, Détection de la présence humaine par vision : Thèse, Université d'Orléans,‎ 2009 (lire en ligne), p. 31.
  2. a et b (en) Paul Viola et Michael Jones, « Robust Real-time Object Detection », IJCV,‎ 2001 (lire en ligne).
  3. a et b (en) B. Heisele et C. Wöhler, « Motion-based recognition of pedestrians », dans Proceedings of the 14th International Conference on Pattern Recognition, vol. 2, Brisbane, Australie,‎ 16-20 août 1998 (ISBN 0-8186-8512-3), p. 1325-1330.
  4. a et b (en) U. Franke et I. Kutzbach, « Fast stereo based object detection for Stop & Go traffic », dans Proceedings of the IEEE Intelligent Vehicles Symposium, Tokyo,‎ 1996, p. 339–344.
  5. a et b (en) P. Viola, M. Jones et D. Snow, « Detecting Pedestrians using Patterns of Motion and Appearance », IJCV, vol. 63, no 2,‎ 2005, p. 153-161.
  6. a, b et c Navneet Dalal et Bill Triggs, Histograms of Oriented Gradients for Human Detection, Conference on Computer Vision and Pattern Recognition, 2005
  7. a, b, c, d, e, f, g, h, i, j et k Markus Enzweiler, Dariu Gavrila, Monocular Pedestrian Detection:Survey and Experiments, TPAMI, Vol 31, no 12, décembre 2009. p. 2179-2195
  8. a et b Szeliski (2010), p. 658-661.
  9. a, b et c (en) Oncel Tuzel, Fatih Porikli et Peter Meer, « Pedestrian detection via classification on Riemannian manifolds », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no 10,‎ octobre 2008, p. 1713-1727 (ISSN 0162-8828, lire en ligne).
  10. a, b et c Mu, Y., Yan, S., Liu, Y., Huang, T., and Zhou, B. (2008). Discriminative local binary patterns for human detection in personal album. CVPR 2008, 1 :1–8.
  11. a, b, c, d, e, f et g (en) David Gerónimo, Antonio M. López, Angel D. Sappa,Thorsten Graf, « Survey of Pedestrian Detection for Advanced Driver Assistance Systems », dans IEEE Transactions on Pattern Analysis and Machine Intelligence,‎ juillet 2010, 1239-1258 p. (lire en ligne), partie 32, chap. 7.
  12. A. Sappa, F. Dornaika, D. Ponsa, D. Ger´onimo, and A. L´opez, An efficient approach to onboard stereo vision system pose estimation, IEEE Trans. on Intelligent Transportation Systems, vol. 9, no. 3, p. 476–490, 2008.
  13. Vincent Lemonde, Michel Devy, http://orasis2005.univ-bpclermont.fr/papers/015.pdf, ORASIS 2005
  14. a et b L. Zhao and C. Thorpe, “Stereo and neural network–based pedestrian detection”, IEEE Trans. on Intelligent Transportation Systems, vol. 1, no. 3, p. 148–154, 2000
  15. a et b Zhou, J. and Hoang, J. Real time robust human detection and tracking system. CVPR 2005
  16. Beleznai, C., Fruhstuck, B., and Bischof, H. (2004). Human detection in groups using a fast mean shift procedure. In Proceedings of International Conference on Image Processing 2004, volume 1, p. 349–352
  17. Ogale, N.A.: A survey of techniques for human detection from video. Master's thesis, University of Maryland (mai 2006)
  18. D.M. Gavrila, J. Giebel, and S. Munder. Vison-based pedestrian detection: The protector system. Intelligent Vehicles Symposium, pages 13-18, 2004
  19. Papageorgiou, C.Poggio, T, Trainable pedestrian detection, ICIP, vol. 4, p. 35-39, 1999.
  20. a et b Q. Zhu, S. Avidan, M. Yeh, and K. Cheng, Fast Human Detection Using a Cascade of Histograms of Oriented Gradients, Proc. IEEE International Conference on Computer Vision and Pattern Recognition, p. 1491-1498, 2006
  21. Tuzel, O.; Porikli, F.; Meer, P., "Region Covariance: A Fast Descriptor for Detection and Classification", European Conference on Computer Vision (ECCV), May 2006.
  22. Xiaoyu Wang, Tony X. Han, Shuicheng Yan, An HOG-LBP Human Detector with Partial Occlusion Handling, ICCV 2009
  23. a, b et c C. Wojek and B. Schiele. A performance evaluation of single and multi-feature people detection. In DAGM, 2008
  24. a, b, c, d, e, f, g, h, i, j et k Dollar, P. ; Wojek, C. ; Schiele, B. ; Perona, P, Pedestrian Detection: A Benchmark. CVPR 2009, p. 304-311, (ISBN 978-1-4244-3992-8)
  25. Xavier Perrotton, Détection automatique d’objets dans les images numériques : application aux images aériennes, (thèse), Télécom ParisTech,‎ 2009, 180 p., p. 113-123.
  26. Bo Wu and Ram Nevatia, “Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors”, IEEE International Conference on Computer Vision, pages 1:90-97, 2005
  27. Mikolajczyk, K. and Schmid, C. and Zisserman, A. “Human detection based on a probabilistic assembly of robust part detectors”, The European Conference on Computer Vision (ECCV), vol. 3021/2004, p. 69-82, 2005.
  28. a et b M. Bertozzi, A. Broggi, T. Graf, P. Grisleri et M. Meinecke, « Pedestrian Detection in Infrared Images », in Proc. IEEE Intelligent Vehicles Symposium 2003, June 2003
  29. a et b L. Zhang, B. Wu et R. Nevatia, « Pedestrian detection in infrared images based on local shape features », in Proc. IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, MN, USA, 2007, p. 1-8.
  30. M. Enzweiler and D.M. Gavrila, « A Mixed Generative-Discriminative Framework for Pedestrian Classification », Proc. IEEE International Conference on Computer Vision and Pattern Recognition, 2008.
  31. Philip Kelly, Noel E. O’Connor, Alan F. Smeaton, A Framework for Evaluating Stereo-Based Pedestrian Detection Techniques IEEE Transactions on Circuits and Systems for Video Technology, 2008, volume 8, p.  1163-1167
  32. Carincotte, Naturel, Hick, Odobez, Yao, Bastide, Corbucci, Understanding Metro Station Usage using Closed Circuit Television Cameras Analysis, 11th International IEEE Conference on Intelligent Transportation Systems (ITSC), Pékin, 2008
  33. Hee-Deok Yang, Bong-Kee Sin, Seong-Whan Lee, Automatic Pedestrian Detection and Tracking for Real-Time Video Surveillance, international conference on Audio- and video-based biometric person authentication, 2003
  34. (en) Zhenjiang Li;Kunfeng Wang;Li Li;Fei-Yue Wang, « Review on Vision-Based Pedestrian Detection for Intelligent Vehicles », dans IEEE International Conference On Vehicular Electronics and Safety,‎ décembre 2006, 57-62 p., partie 32, chap. 7.

Bibliographie[modifier | modifier le code]

Liens externes[modifier | modifier le code]