Qualité perceptuelle d'images

Un article de Wikipédia, l'encyclopédie libre.

La qualité perceptuelle d'image est une mesure de la perception de la dégradation des images (souvent par comparaison à une image dite de référence non dégradée). Les systèmes de traitement des signaux introduisent souvent des artefacts (ou distorsions) dans le signal. Aussi, la mesure de qualité est devenue importante. On distingue habituellement trois catégories de mesure de qualité d'images :

  • La mesure subjective qui fait intervenir des personnes pour juger de la qualité des images. Ces mesures servent à évaluer l'efficacité d'algorithmes fournissant des mesures objectives. Elles sont également utilisées dans certaines œuvres artistiques lorsque les effets des déformations sont partie intégrante de l'œuvre ;
  • La mesure de qualité dans le cadre de la photographie — les déformations proviennent des conditions de prise de vues et de la qualité du matériel utilisé ;
  • La mesure dans le cadre du multimédia — les déformations mesurées par des algorithmes (mesures objectives) ou observées (mesures subjectives) proviennent alors des techniques de transmission et de compression.

Mesure de qualité dans le cadre de la photographie[modifier | modifier le code]

La prise d'images par des appareils photographiques ou par des caméras est la formation sur le plan image de mesures obtenue électroniquement dans le cas d'appareils numériques ou chimiquement dans le cas d'appareils analogiques. Classiquement le modèle projectif dit du Sténopé (ou « trou d'épingle »)[1],[2] schématise le fonctionnement de l'appareil de prise de vue par son centre focal et son plan image tel que les rayons lumineux convergent vers le centre focal en impactant le plan image[3]. Dans les faits, ce modèle est une approximation de la formation de l'image et la qualité d'images informe sur la valeur de cette approximation.

Un modèle idéal décrivant la mesure de lumière de la caméra lors d'une photographie devrait décrire le taux de lumière qui arrive en chacun des points à un moment donné. Ce type de modèle n'est qu'approximatif et la qualité d'images mesure le taux de dérive entre ce modèle et la réalité. Cette mesure doit répondre à plusieurs questions dont :

  • Le modèle projectif est-il suffisamment fidèle ?
  • Comment percevons nous la « traduction » des couleurs dans les images noir et blanc ?
  • Comment sont elles restituées dans les images couleurs ?
  • Quel est l'impact du bruit ? Est-il important ? Fortement corrélé à l'information contenue dans l'image ?
  • Etc.

Dans le domaine de la photographie, nous avons des outils tel que le critère de Johnson (en) qui détermine la qualité nécessaire d'une image pour la détection de cibles en vision de nuit.

Les éléments caractéristiques de la mesure de qualité d'images[modifier | modifier le code]

Les causes de perte de qualité dans les images sont diverses et multiples[4],[5],[6]. En voici quelques-unes concernant tantôt le domaine de la photographie tantôt celui du multimédia :

La netteté ou piqué d'une image
La netteté (Sharpness en anglais) définit la finesse des détails d'une image. Sa perception est affectée par le jeu de lentilles utilisé (conception et fabrication des lentilles, distance focale, diaphragme et distance au centre de l'image) et par le jeu de capteurs (nombre de pixels, filtre antialiasing) La perception de la texture peut également être affectée par les secousses de la caméra lors des prises de vues (un bon trépied peut être utile), la précision de la mise au point et les perturbations atmosphériques. Souvent les pertes en netteté d'une image ne peuvent être que partiellement réparées par des procédés de restauration car à trop vouloir restaurer une image on peut la dégrader ! Ceci se traduit fréquemment par des « halos » autour des frontières de contraste. Malheureusement, il s'avère que ce risque de sur-restaurer une image survient parfois avec les caméras numériques compactes afin de compenser la relativement faible qualité des images obtenues.
Le bruit
Le bruit est une variation aléatoire[7] de l'intensité de l'image perceptible comme le sont le grain des films ou la variation du nombre de pixels dans une image numérique (sous-échantillonnage). Il provient de phénomènes physiques au sein des capteurs images : la nature des photons et l'énergie thermique de la chaleur. Le lissage est un des processus classiques de réduction du bruit en évitant les frontières entre contrastes. Ce procédé bien qu'efficace détériore les contrastes faibles.
La dynamique
La dynamique d'une caméra représente l'intervalle d'intensités qu'elle peut capturer, habituellement mesurée en EV (valeur d'exposition) ou zones. Elle entretient un lien étroit avec le bruit et la texture puisque les EV sont une combinaison entre le temps d'exposition et l'ouverture du diaphragme (f-number) ; plus le temps d'exposition est long plus la texture est dégradée ; de même plus le f-number est faible plus il y a de lumière incidente aux capteurs.
La reproduction des teintes (en)
La reproduction des teintes correspond à la capacité de traduire correctement la luminance (intensité lumineuse émise par les objets) en termes de luminosité (perception de la luminosité par l'humain et l'appareil numérique). Typiquement la reproduction des couleurs d'une scène dans une photographie noir-et-blanc.
Contraste
Contraste - Les surbrillances détériorent l'image dans leurs voisinage. En haut l'image originale ; en bas, les zones rouges indiquent les zones de surbrillances qui affectent la qualité de perception.
Le contraste est une mesure relative et non absolue de l'intensité lumineuse. Cette mesure s'exprime par la différence d'intensité entre deux régions ou deux objets. C'est une des caractéristiques fondamentales du système visuel humain. Un fort contraste entraîne une diminution de la dynamique qui se traduit par des pertes des détails, des masquages de l'information provoqués par les surbrillances et les ombres.
La fidélité des couleurs reproduites
La fidélité des couleurs reproduites est d'importance bien que délicate du fait de la haute subjectivité de cette caractéristique pour le système visuel humain. De surcroît, contrairement à notre impression première, cette caractéristique n'intervient que faiblement dans le processus d'analyse et d'interprétation des données visuelles par le cerveau humain.
Les distorsions focales
Les distorsions focales provoquent des déformations importantes comme l'effet en barillet, en coussinet ou en moustache. Ces phénomènes apparaissent avec des caméras à faible coût ou encore avec un objectif grand angle. Des logiciels de calibration permettent de corriger ces distorsions.
Le vignetage
Le vignettage est l'assombrissement des bords de l'image. Ce phénomène provient d'une mauvaise qualité de l'objectif photographique soit d'une mauvaise adaptation de l'objectif au plan image : il ne couvre pas entière le plan image ; soit par un filtre pour un effet volontaire ou pas.
Le temps d'exposition
La finesse du réglage du temps d'exposition peut s'avérer très utile avec les caméras complètement automatisées et autres caméscopes qui n'offrent pas ou très peu de possibilité d'ajuster les teintes (cf. reproduction des teintes) en post-traitement. Certains appareils proposent une mémorisation des paramètres d'exposition : certains objets plus brillants ou plus sombres que la scène peuvent alors apparaître dans celle-ci sans perturber les réglages de la prise de vue.
Les aberrations chromatiques
Aberration chromatique - En haut, la photographie a été prise avec l'objectif fourni l'APN (Sony V3) ; en bas, la photographie a été prise avec le même APN mais en utilisant un grand angle. Les aberrations chromatique provoque des franges de dispersion chromatique qui se traduisent par une dégradation des contours sombres (zones bleues à droite de l'image).
Les aberrations chromatiques, ou franges de dispersion chromatique, proviennent principalement d'un défaut de qualité des lentilles de l'objectif. Ce phénomène est plus facilement observable avec des objectifs grand angle dont les lentilles sont plus délicates à concevoir. Il s'agit d'une décomposition involontaire de la lumière sur les bords des lentilles due à la variation de l'indice de réfraction du matériau. Ces aberrations ont des effets nuisibles sur le dématriçage des APN (cf. matrice de Bayer)
Reflets focaux
Les reflets focaux, facteur de flare, voile, dus par une diffusion parasite de la lumière à l'intérieur d'un objectif provoquent une baisse générale du contraste de l'image obtenue et, de surcroît, de sa dynamique en intensité et en chromatique. Plus le jeu de lentilles est complexe avec de multiples lentilles plus ces reflets ont de risques d'apparaître.
Le moiré chromatique
Le moiré chromatique - Le moiré est un effet parfois utilisé à des fins artistiques : Móvil de « efecto Moiré » (1972) de Eusebio Sempere (1923–1985)
Le moiré chromatique présente des bandes de couleur artificielles dans l'image dont les motifs des hautes fréquences sont répétées provoquant des illusions d'optique. La finesse des lentilles, les filtres antialiasing (passe-bas) et le dématriçage en sont les principales causes.

Mesure de qualité dans le cadre du multimédia[modifier | modifier le code]

Dans certains cas, l'image dont nous souhaitons connaître la qualité n'est pas directement obtenue au format brut (RAW) d'un appareil photographique numérique (APN) mais a subi des déformations dues aux techniques de codage des images, de stockage sur disque et à la transmission sur réseaux. À moins d'avoir utilisé une technique de compression sans perte telles que GIFF ou PNG, l'image décompressée n'est pas identique à l'image capturée initialement. Par exemple, une photographie numérique (obtenue par un APN) qui a été compressée en JPEG et transmise sur un réseau sans-fil puis qui a été décompressée a obligatoirement subi des pertes qui peuvent être ou pas perceptiblement gênante.

La mesure de qualité est alors la différence perceptible entre les images originale (format RAW) et décompressée. Les artefacts désignent généralement les détériorations dues aux traitements que subit l'image lors de sa télétransmission ou lors de son passage du format RAW à tout autre format provoquant des pertes tels que JPEG[8] et JPEG2000[9]. Ces mêmes artefacts se retrouvent évidemment dans les vidéos numériques.

Quand la mesure de qualité d'images est automatisée par algorithme, la mesure est dite objective. Nous devons alors pouvoir vérifier que l'algorithme utilisé est correct. Autrement dit, la mesure objective doit être en adéquation avec la perception humaine. Pour ce faire, elle est évaluée à l'aide de bases d'images tests munies de mesures subjectives, des mesures faites par des testeurs soit en aval de l'algorithme, soit en amont[10],[11].

Différents types de mesure de qualité d'images[modifier | modifier le code]

Il existe plusieurs techniques et mesures de qualité d'images qui peuvent développées sous forme d'algorithme de mesure objective de qualité d'images. Ces algorithmes peuvent être classés entre trois grandes catégories[12] :

  • Avec référence (Full-Reference : FR) La mesure est opérée en connaissant l'image de référence (l'image sans déformation) ; par exemple, comparer une image de référence avec sa version compressée par JPEG ;
  • Avec référence réduite (Reduced-Reference : RR) Seule une partie de l'information contenue dans l'image de référence est utilisée pour effectuer la mesure ;
  • Sans référence (Null-Reference : NR) La mesure est faite sans rien connaître de l'image de référence.

Algorithmes avec références[modifier | modifier le code]

Parmi les algorithmes FR, nous trouvons VIF[13], IFC[13],[14], SSIM[15], VSNR[16] et MSVD[17].

Grâce à des modèles de mélange de gaussiennes multiéchelles, VIF et IFC modélisent d'une part la perception qu'à le cerveau de l'image de référence et d'autre part la perception de l'image déformée. VIF et IFC estiment l'information mutuelle entre ces deux modèles à tous les niveaux de résolution. IFC offre la mesure objective actuellement la meilleure, en comparaison avec les mesures subjective faites en amont.

SSIM est indubitablement le plus performant aussi bien en complexité algorithmique qu'en termes d'adéquation d'avec la perception humaine. Son principe général repose sur les statistiques que l'on sait identifier dans les scènes dites naturelles. Le critère de qualité comporte trois mesures suivant les changements de contraste, de luminosité et de structure entre l'image de référence et l'image déformée. Il est à noter que SSIM fournit à la fois une mesure de qualité comprise entre 0 (qualité basse) et 1 (qualité haute) et une carte des déformations associée à l'image déformée observée. Pour chaque pixel, cette carte indique l'intensité de la déformation supposée. Grâce à celle-ci, les détériorations sont localisées ce qui permet d'envisager l’utilisation de SSIM au sein de logiciel de compression/décompression pour en augmenter les performances.

Il existe plusieurs versions de SSIM dont notamment M-SSIM [REF] et IW-SSIM [REF]. M-SSIM utilise une analyse multirésolution (AMR) en ondelettes pour prendre compte le fait que l'information est déformée à plusieurs niveaux d'échelle. À chaque niveau de résolution, SSIM est appliqué. La mesure globale est une somme des SSIM de chaque niveau de résolution pondérée par l'inverse du niveau de résolution. Tout en reprenant le principe de SIIM, IW-SSIM met l'accent sur l'étape de sommation (pooling stage) des valeurs de déformation pixellaires.

VSNR utilise une AMR des deux images de référence et déformée pour mesurer les déformations. MSVD mesure les différences énergétiques des deux images à tous les niveaux de résolutions. Cet algorithme propose une approche fondée sur les gradients d'intensité des images de référence et déformée. Des modules et des phases de ces gradients sont extraits les contours, les zones texturées et uniformes. La distance de Hamming est utilisée pour mesurer les différences au sein de chacune de ces composantes. La mesure finale est la somme des distances obtenues.

Notes et références[modifier | modifier le code]

  1. O. D. Faugeras : Three-Dimensional Computer Vision: a Geometric Viewpoint, MIT Press, 1993. (ISBN 0-262-06158-9).
  2. A. Harltey, A. Zisserman : Multiple view geometry in computer vision (2. ed.)., Cambridge University Press, p I-XVI, 1-655, 2006, (ISBN 978-0-521-54051-3).
  3. Le modèle projectif est adéquat pour les caméras et appareils photographiques numériques à l'exception des caméras omnidirectionnelles (en) et des scanners à balayage (en). Il est à noter que la distinction entre caméra et appareil numérique est de plus en plus ténue.
  4. F. Cottet : Traitement des signaux et acquisition de données, Collection: Sciences Sup - 3e éd., Dunod, 2009, (ISBN 9782100525386).
  5. F. Cottet : Aide-Mémoire de traitement du signa, Collection: Sciences Sup - 2e éd., Dunod, 2011, (ISBN 9782100565443).
  6. R. C. Gonzalez, R. E. Woods : Multiple view geometry in computer vision (2. ed.)., Prentice Hall, 2008, (ISBN 9780131687288).
  7. G. Blanchet, M. Charbit : Signaux et images sous Matlab: méthodes, applications et exercices corrigés, Hermes Science Publications, 2001 - 689 pages
  8. W. B. Pennebaker, J. L. Mitchell : JPEG: Still Image Data Compression Standard, Springer, 1993, (ISBN 0-442-01272-1 et 978-0-442-01272-4).
  9. D. Taubman and M. W. Marcellin, JPEG2000 Image Compression Fundamentals, Standards and Practice, Springer, 2002, (ISBN 9780792375197).
  10. Base d'images LIVE
  11. Base d'images TID
  12. H.R. Sheikh, A.C. Bovik : Information Theoretic Approaches to Image Quality Assessment, in Handbook of Image and Video Processing. Elsevier, 2005, Rédacteur A.C. Bovik.
  13. a et b (en) H.R. Sheikh et A.C. Bovik, « Image information and visual quality », IEEE Transactions on Image Processing, vol. 15, no 2,‎ , p. 430- 444 (lire en ligne)
  14. (en) H.R. Sheikh, A.C. Bovik et G. de Veciana, « An information fidelity criterion for image quality assessment using natural scene statistics », IEEE Transactions on Image Processing, vol. 14, no 12,‎ , p. 2117- 2128 (lire en ligne)
  15. (en) Z. Wang, E. P. Simoncelli et A. C. Bovik, « Multi-scale structural similarity for image quality assessment », IEEE Asilomar Conference Signals, Systems and Computers,‎
  16. (en) D. M. Chandler et S. S. Hemami, « VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images », IEEE Transactions on Image Processing, vol. 16, no 9,‎ , p. 2284-2298 (lire en ligne)
  17. (en) Wujie Zhou, Gangyi Jiang, Xiaodong Wang, Mei Yu, Feng Shao et Zongju Peng, « A Novel Image Quality Assessment Metric based on Image Gradient Vectors », International Journal on Advances in Information Sciences and Service Sciences, vol. 4, no 18,‎ (lire en ligne)

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]