Effet McGurk

Un article de Wikipédia, l'encyclopédie libre.

L’effet McGurk est un phénomène illusoire perceptif qui montre une interférence entre l'audition et la vision lors de la perception de la parole[1]. Cet effet suggère une multimodalité de la perception de la parole. L'effet McGurk (également appelé effet McGurk-MacDonald) se produit lorsque la vision et l’audition fournissent des signaux de parole incongrus. Deux types de phénomènes découlent de cette perception erronée : la fusion et la combinaison[2],[3].

Historique[modifier | modifier le code]

La découverte accidentelle de l’effet McGurk remonte aux années 1970 alors qu’Harry McGurk et John MacDonald, psychologues du développement à l’Université de Surrey en Angleterre, étudiaient la perception de la parole chez les enfants à différentes périodes de leur développement. Les sujets regardaient une présentation vidéo d’une mère qui parlait. La vidéo était couplée avec une présentation auditive venant d’un endroit différent dans la salle. La syllabe /ba/ était entendu, mais la suite « ga » était présentée à l'écran. Lors du visionnement initial de la cassette, les chercheurs perçurent une troisième syllabe /da/ qui se situait au niveau articulatoire entre les deux premières. Ainsi, selon l'effet McGurk, voir quelqu'un prononcer la syllabe /ga/ alors qu'on entend la syllabe /ba/ provoque l'illusion perceptuelle /da/. C'est après avoir testé des enfants et des adultes avec la vidéo que les chercheurs ont publié pour la première fois en 1976 dans le journal Nature l'illusion perceptuelle qu'ils avaient remarqué. Cet article est intitulé : Hearing Lips and Seeing Voice[2]. L'effet McGurk fut reproduit et réétudié par de nombreuses équipes de recherche par la suite.

Complémentarité de l’audition et de la vision dans la perception de la parole[modifier | modifier le code]

La perception de la parole fut considérée pendant longtemps comme un processus exclusivement auditif. Durant la seconde moitié du XXe siècle, plusieurs études considéraient l’information visuelle comme une contribution essentielle dans la perception de la parole. En 1954, les chercheurs William H. Sumby et Irwin Pollack démontrèrent que l’intelligibilité d’un signal acoustique mêlé à du bruit ambiant est fortement améliorée par la lecture labiale. Celle-ci contribue également à la perception de la parole même si le bruit environnant augmente[4]. Selon ces chercheurs, la lecture labiale est un atout et un moyen compensatoire pour les personnes souffrant d’une déficience auditive. Elle participe également à l’acquisition du langage oral chez les enfants sourds[5]. La lecture labiale améliore la compréhension d’un signal de parole clair avec un contenu sémantique complexe[6]. Elle peut améliorer la compréhension d’énoncés prononcés dans une langue étrangère[7],[8] par un locuteur avec un accent étranger[9] et lorsqu'il y a une conversation entre plusieurs locuteurs dans un endroit avec du bruit ambiant[7],[9],[6],[8].

Phénomènes reliés à l’effet McGurk[modifier | modifier le code]

La fusion et la combinaison sont les deux types de phénomènes illusoires observés lors de l’effet McGurk. Chaque phénomène est associé à un type de consonnes (phonème). La séquence d'évènements de l'effet reste la même. Ainsi, les syllabes auditives de type CV (/ba/) sont couplées avec une présentation visuelle des mouvements articulatoires correspondant à une autre syllabe de type CV (/ga/) qui produit un conflit subtil entre la modalité visuelle et auditive. Ces modalités font alors une synthèse des différentes informations perçues[2]. Ces phénomènes peuvent être utilisés, par exemple, dans la confection de programmes de reconnaissance vocale.

Fusion[modifier | modifier le code]

Le phénomène de fusion résulte de la simulation d'une production dite intermédiaire à la suite de la fusion d'une syllabe perçue et d'une syllabe entendue. Une syllabe commençant par une consonne vélaire (g,k,w) est présentée visuellement. Elle est couplée avec une syllabe commençant par une consonne bilabiale (p,b,m) qui est présentée sous forme sonore. La fusion des deux informations simule une production intermédiaire (ex.: /da/)[2].

L'exemple illustre le phénomène de fusion :

  • Vu : « ga » (consonne vélaire)
  • Entendu : /ba/ (consonne bilabiale)
  • Perçu : ⁄da ⁄ (résultat = phénomène de fusion)

Combinaison[modifier | modifier le code]

Le phénomène de combinaison combine la présentation visuelle d'une syllabe commençant avec une consonne bilabiale avec l'écoute d'une syllabe commençant par une consonne vélaire. Il y a une addition des deux phénomènes. Une présentation visuelle d’une consonne bilabiale (p,b,m) est présentée. Elle est couplée avec la présentation auditive d’une consonne vélaire (g,k,w). Le sujet combine les informations vues et entendues. Il perçoit par exemple une combinaison du type /bga/[2].

Voici un exemple qui illustre le phénomène de combinaison:

  • Vu : « ba » (bilabiale)
  • Entendu : /ga/ (vélaire)
  • Perçu /bga/ (Résultat de la combinaison)

Caractéristiques de l’effet McGurk[modifier | modifier le code]

L’effet McGurk est un effet robuste. La structure syllabique, le contexte des mots ou des phrases n’influencent pas l’apparition des phénomènes (voir section 2) et ce, peu importe la longueur des mots ou des phrases[10],[11]. Par exemple la structure syllabique n’a pas d’importance, qu’elle soit CV, VCV ou même VC, une vélaire visuelle doublée d’une bilabiale à l’oral résultera toujours en la perception d’une fusion. L’effet est également applicable aux mots et aux phrases, tant que ceux-ci opposent une vélaire à une bilabiale.

Syllabe:

CV :    Entendu:/ba/

            Vu :/ga/

            Perçu :/da/, V

            VCV : Entendu :/aba/

            Vu :/aga/

            Perçu :/ada/

Mot :

            Entendu :/mail/

            Vu :/deal/

            Perçu :/nail/

Phrase :

        Entendu :/ my bab pope me poo brive /

         Vu : / my gag koke me koo grive /

         Perçu : / my dad taught me to drive /

L’effet McGurk est irrépressible. Un individu ne peut pas s'empêcher d'être sensible aux mécanismes phonatoires, même si son intention est contraire. Il sera sensible aux différents mécanismes malgré lui. Cette notion implique que l’esprit est cognitivement impénétrable et qu’il effectue ses traitements sans être affecté par d’autres domaines cognitifs (mémoire, raisonnement, mécanismes attentionnels, etc.). Ce processus d’analyse est donc au même terme qu’un réflexe rapide, obligatoire et inflexible[12].

Modularité de l’effet[modifier | modifier le code]

L’effet McGurk est influencé par plusieurs variables dans différents contextes expérimentaux. Premièrement, plusieurs auteurs ont démontré que l'effet McGurk peut être influencé par l’orientation spatiale du visage du locuteur, plus précisément lorsque le visage est incliné[13]. Deuxièmement, lorsque la désynchronisation temporelle des stimuli dépasse 200ms, l'effet McGurk est influencé[14]. Troisièmement, la langue testée peut faire varier certains résultats. Cette variable renvoie aux propriétés des stimuli. Des études réalisées dans plusieurs langues (anglais, espagnol, malais, coréen, français, etc.) ont obtenu des résultats variables. Dans certaines langues, l’effet McGurk semble moins robuste. Par exemple, les locuteurs chinois et japonais sont peu sensibles à l’effet McGurk. Ces résultats pourraient être expliqués en termes culturels; il est considéré impoli de regarder le visage du locuteur et ce dans les deux cultures. La variabilité de l'effet pourrait être liée aux différences au niveau des systèmes phonétiques des langues, des différentes contraintes phonotactiques et des différences culturelles[15].

En opposition, certaines variables n'ont pas d'influence sur l'effet McGurk. La séparation spatiale entre les stimuli auditifs et visuels n’influence pas la force de l’effet, tel que rapporté dans l'étude de Colin, Radeau, Deltenre et Morais en 2001[16].

Références[modifier | modifier le code]

  1. (en) Calvert GA, Bullmore ET, Brammer MJ, et coll., « Activation of auditory cortex during silent lipreading », Science, vol. 276,‎ , p. 593-596
  2. a b c d et e McGurk, H., MacDonald, J., (1976) « Hearing lips and seeing voices  »,Nature, vol. 264, no 5588, p. 746–748
  3. https://www.youtube.com/watch?v=aFPtc8BVdJk&ab_channel=hmcnallyonYouTube The McGurk effect
  4. Sumby, W.H., Pollack, I. (1954). Visual contribution to speech intelligibility in noise. Journal of the acoustical Society of America, 26, 212-215.
  5. Dodd, B., McIntosh, B., & Woodhouse, L. (1998). Early lipreading ability and speech and language development of hearing-impaired pre-schoolers. In R. Campbell, B. Dodd, & D. Burnham (Eds.), Hearing by eye II (pp. 229–242). Hove, East Sussex: Psychology Press.
  6. a et b Reisberg, D., McLean, J., & Goldfield, A. (1987). Easy to hear but hard to understand: A lipreading advantage with intact auditory stimuli. In B. Dodd & R. Campbell (Eds.), Hearing by eye: The psychology of lip -reading. Hillsdale, NJ: Lawrence Erlbaum Assoc
  7. a et b Davis, C., & Kim, J. (1998). Repeating and remembering foreign language words: Does seeing help? Proceedings of Audio-Visual Speech Processing’98 (pp. 121-125). Sydney.
  8. a et b Burnham, D. (1998) Langguage specificity in the development of auditory-visual speech perception. In R. Campbell, B. Dodd & D. Burnham. Hearing by Eye II
  9. a et b L. Cerrato, F. Albano Leoni, M, Falcone Is it possible to evaluate the contribution of visual information to the process of speech comprehension? in Proceedings of the AVSP 98, International Conference on Auditory-Visual Speech Processing, Terrigal Australia Dec. 4-7 1998 ed. by Burnham D., Robert-Ribes J., Vatikiotis-Bateson E. pp.141-145
  10. McGurk, Harry (1988) "Developmental psychology and the vision of speech ", In AVSP-1998, 3-20
  11. McGurk, H. (1981). Listening with eye and ear (paper discussion). In T. Myers, J. Laver, & J. Anderson (Eds.) The Cognitive Representation of Speech. Amsterdam: North-Holland.
  12. Fodor, Jerry A. (1983).Modularity of Mind: An Essay on Faculty Psychology. Cambridge, Mass.: MIT Press. (ISBN 0-262-56025-9)
  13. Jordan, T.R., Bevan, K. (1997) Seeing and hearing rotated faces : Influences of facial orientation on visual and audiovisual speech recognition, Journal of Experimental Psychology: Human Perception and Performance, 25 (2), 388-403
  14. Jones, J.A., Munhall, K. G. (1996) Spatial and temporal influences on audio-visual speech and perception, International Journal of Psychology, 31, 473-474.
  15. Sekiyama, K. (1997) Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects, Perception and Psychophysics, 59 (1), 73-80
  16. Colin, C., Radeau, M., Deltenre, P., Morais, J. (2001) Rules of intersensory integration in spatial scene analysis and speechreading, Psychologica Belgica, 41 (3), 131-144

Liens externes[modifier | modifier le code]