Point Distribution Model

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En vision artificielle, le Point Distribution Model (PDM, ou Modèle à Distribution de Points) est un modèle d'analyse et de représentation de forme. Il consiste en un prototype d'une forme moyenne doté de modes de variation combinables appris à partir d'un ensemble d'apprentissage d'instances de la forme étudiée. Il a été mis au point par Cootes, Taylor et al[1],[2], et représente un standard en vision par ordinateur pour la délinéation d'images 2D et 3D[1], avec des applications possibles en morphométrique statistique[3].

En vision par ordinateur, un modèle explicite de forme est un atout lorsqu'il s'agit d'interpréter des images localement ou globalement bruitées, peu contrastées, voire présentant des artefacts: autant de défauts inhérents à diverses modalités d'imagerie médicale en particulier. Les méthodes exploitant le PDM pour la délinéation sont l'Active shape model (ASM) et l'Active Appearance Model (AAM), qui consiste à générer des instances d'image autour de l'objet appris jusqu'à l'atteinte d'une similarité satisfaisante avec l'image à identifier.

Les PDMs reposent sur l'annotation des instances de l'ensemble d'apprentissage par des Points correspondants, ou amers (landmark en anglais). Un amer est un point labellisé, déposé par un expert anatomiste (ou du domaine applicatif concerné) sur le même locus (endroit de forme) pour toute instance de l'ensemble d'apprentissage. Par exemple, lorsqu'on annotera une population de contours 2D de mains posés à plat par 50 landmarks, le landmark n°25 désignera systématiquement le sommet de l'index.

L'Analyse en composantes principales (ACP), par exemple, est une méthode d'analyse statistique apte à capturer les corrélations de mouvement entre les landmarks d'un ensemble d'apprentissage. Typiquement, l'ACP détecte que les points sur l'index bougent de concert sur toutes les instances de mains posées à plat de l'ensemble d'apprentissage.


Les principales étapes à réaliser sont les suivantes:

  1. Annotation des instances de l'ensemble d'apprentissage par des landmarks en quantité suffisante pour approximer la géométrie de la forme (i.e rendre reconnaissable la forme). C'est un problème ouvert en général[3], bien qu'assez facile pour des formes simples (par exemple: mains 2D[1],[3]).
  2. Alignement des instances annotées en utilisant l'analyse généralisée de Procrustes (Generalized procrustes analysis). Selon la définition de forme de Kendall[4], la forme est une information géométrique invariante par rotation, translation, et (généralement: cf "size-and-shape[4]") homothétie. Une forme moyenne, correspondant au prototype, peut alors être déterminée après l'alignement.
  3. À ce stade, l'ensemble d'apprentissage annoté de n landmarks aligné peut être considéré comme un nuage de points dans un espace de dimension 2n ou 3n (2D/3D), dont l'origine est la forme moyenne. Dans cet espace, les coordonnées d'une instance de forme sont simplement obtenues par concaténation des coordonnées de ses n landmarks. En supposant que la répartition des points dans cet espace soit gaussienne, l'ACP est l'outil le plus simple et approprié à son étude.
  4. L'ACP calcule les vecteurs et valeurs propres normalisées de la matrice de covariance de l'ensemble d'apprentissage aligné. Chaque vecteur propre décrit un mode de variation de forme déduit de l'ensemble d'apprentissage, et la valeur propre correspondante indique l'importance que représente ce mode par rapport à la dispersion totale.


Comme l'ACP réalise une réduction de données, on constate que les premiers modes de variation représentent l'essentiel de la variance totale (5 modes pour 92 % dans[5]) : on peut donc réduire nos n_s instances de dimension 2n_l(3n_l) à n_s instances de dimension 2*5(3*5) dans l'espace de forme. Si une telle décroissance n'est pas constatée, il est probable que les landmarks aient été mal choisis et disposés en tant qu'invariants de forme qu'ils devraient être.

En se plaçant à nouveau dans l'espace Euclidien, on peut considérer un vecteur propre comme une séquence de n_s vecteurs de dimension 2(3) associés à chaque landmark et indiquant un déplacement linéaire pour chacun d'eux, soit un déplacement non-linéaire par morceaux à l'échelle de la forme. En général, la méthode parvient bien à analyser et approximer des variations non-linéaires modérées (cf. [1]), bien que des méthodes d'ACP à noyaux soient recommandées en cas de fortes non-linéarités.

Sélection d'articles de référence (en anglais)[modifier | modifier le code]

  1. a, b, c et d "D.H. Cooper and T.F. Cootes and C.J. Taylor and J. Graham", "Active shape models - their training and application",‎ 1995, "38--59" p., chap. 61
  2. T. F. Cootes, Statistical models of appearance for computer vision,‎ mai 2004, [PDF]http://www.isbe.man.ac.uk/~bim/Models/app_models.pdf
  3. a, b et c "Rhodri H. Davies and Carole J. Twining and P. Daniel Allen and Tim F. Cootes and Chris J. Taylor", "Shape discrimination in the Hippocampus using an MDL Model",‎ 2003 [PDF] http://www2.wiau.man.ac.uk/caws/Conferences/10/proceedings/8/papers/133/rhhd_ipmi03%2Epdf
  4. a et b "Statistical Shape Analysis", "Ian L. Dryden and Kanti V. Mardia",‎ 1998 (ISBN 0-471-95816-6)
  5. Stegmann, M. B. et Gomez, D. D., A Brief Introduction to Statistical Shape Analysis,‎ 2002, http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=403

Articles en langue française[modifier | modifier le code]

Voir aussi, sur Wikiedia.en[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Le rapport suivant synthétise les principales avancées dans la discipline : http://www.isbe.man.ac.uk/~bim/Models/app_models.pdf