Reconnaissance automatique des émotions

Un article de Wikipédia, l'encyclopédie libre.

La reconnaissance automatique des émotions est le processus d'identification des émotions humaines par des technologie numériques. Ces outils sont issus d'un domaine encore émergeant de la recherche, qui a beaucoup progressé dans les années 2020. Ils permettent d'identifier des émotions à partir d'une image, d'une vidéo, de la voix ou d'un texte (ou de manière multimodale à partir de plusieurs de ces voies, avec alors de meilleurs résultats).

GPT-4o, qui a commencé à être déployé par OpenAI en mai 2024, est la première intelligence artificielle publiquement disponible à en être nativement capable.

Les individus humains varient considérablement dans leur capacité à reconnaître leurs émotions et celles des autres. La reconnaissance des signes d'émotions sur le visage et le corps (langage non verbal), peut aider des aveugles ou personnes malvoyantes à interpréter les émotions d'interlocuteurs. Elle peut aider des personnes concernées par un trouble du spectre autistique (TSA) à exprimer ce qu'elle ressentent, et à mieux comprendre ce qu'une autre personne ressent (Matthew D. Lieberman et al., en 2007, ont montré grâce à l'IRM, que le simple fait de nommer l'émotion diminue l'activation physiologique associée dans l'amygdale et le système limbique, au profit d'une activation du cortex préfrontal ventrolatéral droit[1].

Cette reconnaissance automatique des émotions transmises par le visage, la voix et les mouvements et postures est cruciale pour améliorer les interactions et collaborations homme-machine[2] (car pouvant permettre à des robots, des machines, des véhicules et à divers logiciels (y compris de jeux vidéo) d'interpréter les expressions faciales pour enclencher des rétroactions plus adaptées, « intelligentes » et empathiques.

L'outil est en soi neutre, mais il est puissant et peut avoir des usages malveillants ou sociétalement dangereux :

  • il peut servir le bien commun, par exemple pour un « diagnostic en ligne » ou en télémédecine[3] notamment pour l'évaluation de la douleur[4] et de la santé mentale (schizophrénie par exemple)[5], dépression[5], maladie de Parkinson[6], somnolence[7], fatigue, fatigue chronique[8], TDAH[8], trouble panique, ou pour mieux comprendre un[9]bébé, un malade ou une personne âgée qui ne seraient pas en état de parler, ou pour mieux veiller à distance sur des patients présents dans un centre de soins connecté[10] ; pour savoir si des élèves ou étudiants ou des personnes apprenant en ligne comprennent ce qu'ils lisent ou entendent, pour permettre à une intelligence artificielle de détecter des indices d'alcoolémie et/ou des signes d'inattention ou d'endormissement d'un conducteur ou d'un travailleur et ainsi diminuer le risque d'accident[11]. Il peut aussi intéresser les autorités en charge de la sécurité[12] ;
  • il peut être utilisé pour des sondages ou études de marché ;
  • Il peut aussi être utilisé de manière malveillante : il peut en effet intrusivement, illégalement, et secrètement, révéler des aspects intimes et secrets de la personnalité des internautes ou de toute personne filmée dans une entreprise ou dans l'espace public (ou privé). Ceci peut avoir de graves conséquences dans un système judiciaire (car l'IA peut se tromper notamment parce qu'elle a surtout été formée avec les émotions de personnes adultes, blanches et plutôt masculines, et non ou peu avec des aveugles, autistes ou personnes paralysées ou victimes d'un AVC ou d'un handicap faisant que leur visage, leur voix et leur gestuelle exprime aucune émotion ou les exprime très différemment), dans le contexte d'une société et économie de la surveillance et/ou dans un régime autoritaire ou dictatorial. En complément des outils numérique d'analyses dans le Web de l'opinion publique et individuelle (opinion mining), il peut faciliter les techniques de manipulation psychologique d'internautes, d'acheteurs ou d'électeurs, notamment via les réseaux sociaux comme on l'a vu dès le milieu des années 2010 avec le scandale Facebook-Cambridge Analytica/AggregateIQ qui grâce à une intelligence artificielle baptisée RIPON a pu conduire à l'élection de Donald Trump, au Brexit et à d'autres fraudes ou manipulations électorales.

Historique[modifier | modifier le code]

Certaines machines tendent à être conçues pour de plus en plus se comporter comme des humains pour diverses applications[12]. Cette tendance a encouragé la création d'outils de reconnaissance automatisée des émotions humaines.

Ce domaine a émergé avec les logiciels de reconnaissance faciale qui a évolué vers l'automatisation de la reconnaissance des expressions faciales, à partir d'images et de vidéos, mais aussi à partir des expressions parlées (audio), écrites, et parfois à partir de la physiologie (pouls, électrocardiogramme, électroencéphalogramme (EEG)[13],[14],[15], de peau (mesurées par la réponse galvanique de la peau), tremblements, couleur et aspect de la peau, mouvements des sourcils, des yeux, des narines, des oreilles, de la bouche, et diamètre de la pupille, humectation de la bouche, microréactions musculaires réflexes, etc.).

L'IA peut aussi contribuer à l'évaluation en temps réel de la charge mentale pesant sur un individu[16]. Dans le domaine de la kinésique, on sait que les postures et mouvements corporels transmette des informations spécifiques aux émotions. On a récemment proposé et testé un système de coussin intelligent qui, associé à des capteurs inertiels sur les poignets, mesure via l'analyse des postures et gestes de la personne son état émotionnel. Il pourrait par exemple aider au diagnostic d'employés de bureau, navetteurs, conducteurs longue distance ou personnes à mobilité réduite.

Quelques rappels sur les émotions[modifier | modifier le code]

Selon sa personnalité et selon le contexte, chaque humains est plus ou moins introverti ou extraverti pour ce qui concerne ses émotions et ses intentions (plus ou moins guidées par ses émotions).

L'émotion peut être définie comme l'état psycho-physiologique et psychologique d'un être humain à un instant donné https://www.sciencedirect.com/science/article/pii/S0169260722000311.

Les humains présentent en outre une grande variabilité dans leurs capacités à reconnaître, en eux et/ou chez les autres les émotions primaires telles que le bonheur, la peur, la colère, la surprise, la tristesse ou le dégoût et d'autres émotions secondaires plus complexes ; de même pour l'intensité et la valence (émotion positive ou négative) de l'expression émotionnelle, autant de paramètres que l'intelligence artificielle peut analyser.

La capacité humaine à reconnaitre ses propres émotions et celles d'autrui varie en outre avec l'âge, l'attention et la qualité de la vue, de l'audition et du système perceptif.

Un défaut inné (ou acquis, par exemple suite à un traumatisme cérébral) de capacité à reconnaitre ses propres émotions et/ou celles des autres est dénommée alexithymie. Une difficulté à regarder un interlocuteur et/ou à interpréter les émotions, des visages notamment, est l'un des critères importants de diagnostic du trouble du spectre autistique.

Le cerveau humain peut parfois faire des erreurs d'interprétation. De telles erreurs peuvent provenir de l'interlocuteur, qui peut être un acteur et/ou savoir simuler ou cacher des émotions (il peut par exemple se sentir triste et néanmoins se forcer à afficher un grand sourire, et ainsi parfois tromper son entourage).

Dans de nombreuses cultures, on apprend aux garçons et/ou aux filles à ne pas extérioriser, voire à soigneusement cacher certaines émotions. Le maquillage, le voile, des lunettes noires, peuvent cacher de nombreux signaux émotionnels.

Au XXIe siècle, des concepteurs d'intelligences artificielles cherchent à leur inculquer une capacité à identifier en temps réel les émotions des personnes. Ils le font en imitant plus ou moins le cerveau humain, qui peut détecter de nombreux signaux, pour beaucoup non verbaux et discrets, relatifs aux émotions.

Si dans ces cas présentés plus haut, une méthode automatisée de reconnaissance des émotions obtient des résultats similaires à ceux d'un groupe d'observateurs, elle est généralement considérée comme précise (même si, comme on l'a vu, elle ne mesure pas réellement ce que ressent la personne).

Les alexithymiques (enfants autistes en particulier), n'ont généralement pas une représentation claire de leurs sentiments intérieurs. Et souvent, ils ne disposent pas des mots, chiffres, codes et concepts leur permettant de communiquer leurs émotions aux autres. Dans ces cas, Nursuriati Jamil et al. ont en 2015 suggéré d'analyser la locomotion d'enfants atteints de TSA, comme alternative à l'analyse des émotions du visage ou de la voix, pour au moins détecter des états émotionnels neutres, heureux, tristes ou de colère).

Dans la lignée de l'informatique émotionnelle[17], une intelligence artificielle peut désormais détecter en temps quasi-réel des indices émotionnels discrets que l'humain ne repère pas.

Comprendre ses émotion peut demander un certain travail, qui peut être accompagné par un psychologue et peut être bientôt par des intelligences artificielles.

Reconnaissance automatique[modifier | modifier le code]

Des décennies de recherche en psychologie en psychanalyse et psychiatrie, et les progrès récents de la reconnaissance d'image puis de l'intelligence artificielle ont abouti à des méthodes de plus en plus fiables, précises et rapides de reconnaissance automatisée des émotions.

Une littérature abondante porte notamment sur le traitement du signal, l'apprentissage automatique, la vision par ordinateur et le traitement de la parole qui, tous, ont bénéficié des progrès des réseaux bayésiens[18], de modèle de mélange gaussien[19] et de modèles de Markov cachés[20] et de l'apprentissage profond par les réseaux de neurones artificiels[21].

Approches[modifier | modifier le code]

On est passé de systèmes expert dans les années 2010, à des approches algorithmiques unimodales des émotions, puis à des approches fusionnées[22] puis dans les années 2020 à de premières analyses multimodales[22], bien plus complexes, et bien plus précises[23],[24] car s'appuyant à la fois sur les textes, la physiologie, l'audio et/ou la vidéo[25]. Différents signaux émotionnels sont alors combinés en intégrant des indications provenant des expressions faciales, des mouvements et gestes du corps, de la parole ou des écrits[26].

Trois grandes approches co-existent :

  1. techniques basées sur la connaissance ;
  2. méthodes statistiques ;
  3. approches hybrides[27].

Certains auteurs estiment que ce type de technologie contribue déjà à l'émergence d'un Internet dit "émotionnel"[28].

Techniques basées sur la connaissance[modifier | modifier le code]

Parfois aussi appelées techniques « basées sur le lexique », elles utilisent la connaissance du domaine et les caractéristiques sémantiques et syntaxiques du texte et du langage, pour détecter certains types d'émotions[29].

Pour classer les émotions, elles s'appuient souvent sur des ressources dites « basées sur les connaissances » telles que WordNet, SenticNet[30], ConceptNet et EmotiNet[31], pour n'en nommer que quelques-uns[32]. Un avantage de cette approche est l'accessibilité et l'économie induites par la grande disponibilité de ces ressources[27]. Mais une limite de cette technique est son incapacité à gérer les nuances conceptuelles et les règles linguistiques complexes[27].

  1. Deux grandes techniques basées sur la connaissance coexistent: les approches basées sur des dictionnaires et celles basées sur des corpus.[réf. nécessaire]
  2. Les approches basées sur un dictionnaire recherchent des mots-clés relatifs aux émotions (ou aux opinions dans le contexte de l'opinion mining). Les mots recherchés sont tirés d'un dictionnaire de référence ; leurs synonymes et antonymes sont aussi recherchés pour élargir la liste initiale de mots indiquant les émotions[33].
  3. En revanche, les approches basées sur un corpus commencent par une liste de départ de mots d'émotion, et élargissent la base de données en trouvant d'autres mots présentant des caractéristiques spécifiques au contexte dans un vaste corpus[33]. Bien que les approches basées sur des corpus prennent en compte le contexte, leurs performances varient toujours selon les domaines puisqu'un mot trouvé dans un domaine peut avoir un autre sens dans un autre domaine[34].

Méthodes statistiques[modifier | modifier le code]

Elles utilisent différents algorithmes d'apprentissage automatique supervisé, où un large ensemble de données annotées sont introduites dans les algorithmes pour que le système puisse apprendre et prédire les types d'émotions qu'li rencontrera[27].

Les algorithmes d'apprentissage automatique fournissent généralement une précision de classification plus intéressante que d'autres approches.

Mais l'un des défis pour obtenir de bons résultats dans ce processus de classification est qu'il faut disposer d'emblée d'un large ensemble de données de formation[27].

Certains des algorithmes d'apprentissage automatique les plus utilisés incluent les machines à vecteurs de support (SVM), Naive Bayes et Maximum Entropy[35].

L'apprentissage profond, qui fait partie de la famille non supervisée de l'apprentissage automatique, est aussi très utilisé pour la reconnaissance des émotions[36],[37],[38]. Les algorithmes d'apprentissage en profondeur connus incluent différentes architectures de réseaux neuronaux artificiels (ANN) telles que[35] :

  1. le réseau neuronal convolutif (CNN) https://www.sciencedirect.com/science/article/pii/S1746809420300501,
  2. la mémoire à long terme (LSTM)
  3. l'Extreme Learning Machine (ELM).

La popularité de l'apprentissage profond dans ce domaine vient sans-doute de son succès dans des applications connexes telles que la vision par ordinateur, la reconnaissance vocale et le traitement du langage naturel (NLP)[35].

Approches hybrides[modifier | modifier le code]

Elles combinent les avantages des deux technique précédentes (basées sur la connaissance et statistiques)[27], ce qui les rend plutôt plus performantes, mais avec l'inconvénient d'une plus grande complexité informatique[32].

Certains des travaux qui ont appliqué un ensemble d'éléments linguistiques et de méthodes statistiques axés sur la connaissance incluent l'informatique sentique (Sentic computing) et "iFeel", qui ont tous deux intégré la ressource basée sur la connaissance au niveau conceptuel SenticNet[39],[40].

Le rôle des ressources basées sur la connaissance dans la mise en œuvre d'approches hybrides est très important dans le processus de classification des émotions[32].

Ensembles de données[modifier | modifier le code]

La donnée numérique est au cœur des approches récente de reconnaissance des émotions.

Or il est difficile d'obtenir des données annotées non biaisées et représentatives de toutes les populations, de toutes les cultures, et de toutes les émotions. Or des données de qualité et représentatives sont nécessaires à la formation des algorithmes d'apprentissage automatique[33].

Pour la tâche de classer différents types d'émotions provenant de sources multimodales sous forme de textes, d'audio, de vidéos ou de signaux physiologiques, les ensembles de données suivants sont disponibles :

  1. HUMAINE : fournit des clips naturels avec des mots émotionnels et des étiquettes de contexte dans plusieurs modalités[41]
  2. Base de données de Belfast : fournit des clips avec un large éventail d'émotions provenant de programmes télévisés et d'enregistrements d'interviews[42]
  3. SEMAINE : fournit des enregistrements audiovisuels entre une personne et un agent virtuel et contient des annotations d'émotions telles que la colère, la joie, la peur, le dégoût, la tristesse, le mépris et l'amusement[43]
  4. IEMOCAP : fournit des enregistrements de sessions dyadiques entre acteurs et contient des annotations d'émotions telles que le bonheur, la colère, la tristesse, la frustration et l'état neutre[44]
  5. eNTERFACE : fournit des enregistrements audiovisuels de sujets de sept nationalités et contient des annotations d'émotions telles que le bonheur, la colère, la tristesse, la surprise, le dégoût et la peur[45]
  6. DEAP : fournit des enregistrements d'électroencéphalographie (EEG), d'électrocardiographie (ECG) et de vidéos faciales, ainsi que des annotations d'émotions en termes de valence, d'éveil et de dominance des personnes regardant des extraits de films[46]
  7. DREAMER : fournit des enregistrements d'électroencéphalographie (EEG) et d'électrocardiographie (ECG), ainsi que des annotations d'émotions en termes de valence, de dominance des personnes regardant des extraits de films[47]
  8. MELD : est un ensemble de données conversationnelles multipartites où chaque énoncé est étiqueté avec émotion et sentiment. MELD[48] propose des conversations au format vidéo et convient donc à la reconnaissance multimodale des émotions et à l'analyse des sentiments. MELD est utile pour l'analyse multimodale des sentiments et la reconnaissance des émotions, les systèmes de dialogue et la reconnaissance des émotions dans les conversations[49].
  9. MuSe : propose des enregistrements audiovisuels d'interactions naturelles entre une personne et un objet[50]. Il contient des annotations d'émotions discrètes et continues en termes de valence, d'excitation et de fiabilité, ainsi que des sujets de discours utiles pour l'analyse multimodale des sentiments et la reconnaissance des émotions.
  10. UIT-VSMEC : est un corpus d'émotions sur les réseaux sociaux vietnamiens standard (UIT-VSMEC) avec environ 6 927 phrases annotées par des humains avec six étiquettes d'émotion, contribuant à la recherche sur la reconnaissance des émotions en vietnamien, une langue à faibles ressources en traitement du langage naturel (NLP)[51].
  11. BED : apporte de la valence et de l'excitation aux personnes qui regardent des images. Il comprend également des enregistrements d'électroencéphalographie (EEG) de personnes exposées à divers stimuli (SSVEP, repos les yeux fermés, repos les yeux ouverts, tâches cognitives) pour la tâche de biométrie basée sur l'EEG[52].

Applications[modifier | modifier le code]

La reconnaissance des émotions intéresse divers secteurs, pour des raisons différentes.

À titre d'exemple, Affectiva, issue du MIT, fournit un logiciel d'intelligence artificielle qui rend plus efficace l'exécution de tâches auparavant effectuées manuellement par des personnes. Il aide au recueil d'informations pertinentes sur les expressions faciales et vocales, dans des contextes spécifiques où les téléspectateurs ont consenti à partager ces informations. Ici, au lieu de répondre à une longue enquête sur ce qu'il ressent par exemple en regardant une vidéo éducative ou une publicité, le spectateur peut consentir à ce qu'une caméra filme votre visage et écoute ses réactions. Des observateurs notent quand, au cours de l'expérience, ce spectateur montre des expressions telles que l'ennui, l'intérêt, la confusion ou le sourire. (il ne s'agit pas ici de lire les sentiments les plus intimes, mais uniquement ce que le visage et la voix expriment extérieurement).

Affectiva permet aussi à des enfants autistes et à des personnes aveugles de se faire « traduire » les expressions faciales. Affectiva peut aussi aider des robots à interagir plus « intelligemment » avec les humains, ou et surveiller les signes d'attention d'un conducteur durant la conduite d'un véhicule, dans le but d'améliorer la sécurité routière et celle du conducteur[53].

La recherche universitaire l'utilise de plus en plus pour certaines questions de sciences sociales liées aux sentiments, aux élections, aux manifestations et à la démocratie. Certaines études se concentrent sur les expressions faciales des candidats politiques sur les réseaux sociaux, révélant par exemple le caractère extraverti des politiciens, qui expriment facilement leur bonheur[54],[55],[56].

Les chercheurs étudient les manifestations, guerres, ou contextes de violence, etc., où l'on s'attend à des affects plus complexes et parfois négatifs tels que la colère, la douleur, la dépression, la tristesse, la frustration, l'empathie, etc., ont du développer leurs propres modèles pour mieux distinguer ces émotions[57].

La recherche montre aussi qu'en 2020, les outils de vision par ordinateur tels qu'Amazon Rekognition ne sont précis que pour détecter le bonheur (« détecteurs de bonheur »)[54].

Un brevet[58] déposé par Snapchat en 2015 porte sur un moyen d'extraire des données à partir d'images de foules, lors d'événements publics, en effectuant une reconnaissance algorithmique des émotions sur les selfies géolocalisés des utilisateurs[59].

« Emotient » était une startup dédiée à la reconnaissance des émotions par une intelligence artificielle analysant les combinaisons de froncements de sourcils, de sourires et d'autres expressions des visages, pour prédire « les attitudes et les actions basées sur les expressions faciales »[60]. Apple a acheté Emotient en 2016 et utilise la technologie de reconnaissance des émotions pour améliorer l'intelligence émotionnelle de ses produits[60].

nViso fournit un outil de reconnaissance des émotions en temps réel, pour les applications Web et mobiles, via une API en temps réel[61].Visage Technologies AB propose une estimation des émotions dans le cadre de son SDK Visage à des fins marketing et scientifiques et à des fins similaires[62].

Eyeris travaille pour des fabricants de systèmes embarqués, dont des constructeurs automobiles et des entreprises de robotique sociale, pour intégrer ses logiciels d'analyse faciale et de reconnaissance des émotions ; ainsi qu'avec les créateurs de contenu vidéo pour les aider à mesurer l'efficacité perçue de leur création vidéo courte et longue[63],[64].

De nombreux systèmes agrègent des indices d'émotions communiquées en ligne (à partir des « J'aime » de Facebook par exemple, et via le nombre d'expressions classées positives et/ou négatives dans le textes et messages.

La reconnaissance des affects est aussi utilisée dans certains jeux et systèmes de réalité virtuelle, parfois à des fins éducatives, ou pour donner aux joueurs ou à des influenceurs un contrôle plus naturel sur leurs avatars sociaux.

Prospective[modifier | modifier le code]

La reconnaissance automatique des émotions va probablement être de plus en plus précise avec les intelligences artificielles multimodales explorant plusieurs modalités (texte (conversation), audio (mots, expressions, ton et modulations de la voix, photo/vidéo et même physiologie pour détecter les émotions.

En 2024, deux chercheurs coréens (Université Yonsei à Seoul) ont proposé un nouveau modèle d'IA de reconnaissance des émotions. Selon eux, en fusionnant des données physiologiques, mais aussi environnementales et personnelles, il se montre plus fiable https://doi.org/10.1016/j.eswa.2024.123723.

Il a été proposé de faire détecter par une intelligence artificielle les émotions de soldats lors d'entraînements en environnements simulés pour évaluer leur aptitude à supporter les conditions de combat. Une telle intelligence artificielle pourrait aussi être « utilisée pour évaluer les conditions mentales dans les situations de combat » (bis https://doi.org/10.1016/j.cmpb.2022.106646

Ces avancées techniques pourrait grandement rapprocher les machines et certains robots de l'intelligence émotionnelle humaine en leur permettant de percevoir, maîtriser, exprimer et décoder l'émotion chez autrui. Mais l'Intelligence artificielle semble par contre encore loin de deux autres composantes majeures de l'intelligence émotionnelle :

  1. la conscience de soi qui inclue la capacité à ressentir ses propres émotions, ce qui permet dans une certaine mesure de les autoréguler ;
  2. la capacité d'empathie qui repose notamment sur le système des neurones miroir.

Ces évolutions techniques pose des questions éthiques et philosophiques importantes, notamment quant à la protection de la vie privée ou à l'existence d'éventuels biais de la part des intelligences artificielles.

Reconnaissance des émotions dans les textes et conversations[modifier | modifier le code]

La donnée textuelle (compte rendus d'auto-évaluations, de tests, réponses à un questionnaire ; transcriptions de monologues, dialogues ou conversations, journal intime, etc.) est un objet numérique favorable à la reconnaissance automatique des émotions, souvent massivement et gratuitement disponibles dans l'environnement numérique.

Comparativement à d'autres sortes de données, elle est plus légère et facile à compresser (grâce aux répétitions fréquentes de mots et de caractères dans les langues).

Les émotions peuvent en être extraites[65] via l'analyse de « mots/phrases » indicateurs de divers registres émotionnels[66],[67].

Le domaine de la reconnaissance automatique des émotions transmises par la parole (SER pour speech emotion recognition) est en plein développement[68].

Reconnaissance des émotions dans les médias audio[modifier | modifier le code]

Différent de la reconnaissance des émotions dans le texte, les signaux vocaux sont utilisés pour la reconnaissance afin d'extraire les émotions de l'audio[69].

Reconnaissance des émotions dans les médias vidéo[modifier | modifier le code]

La donnée vidéo combine des données audio, des images successives et parfois du texte (sous-titres[70]).

Reconnaissance des émotions en quasi-temps réel dans la conversation[modifier | modifier le code]

La reconnaissance des émotions dans la conversation (REC) extrait les émotions (voire les opinions dans le cas de l'opinion mining) exprimées par les participants, à partir de données conversationnelles, y compris massivement récoltées sur des plateformes sociales, telles que Facebook, Twitter/X, YouTube et autres[49]. La REC peut se baser sur des données d'entrée telles que du texte, de l'audio, de la vidéo ensuite agrégées ou sur une combinaison de ces données, ou comme avec GPT-4o (depuis mai 2024) en étant nativement capable de détecter émotions telles que la peur, la douleur, l'intérêt, le doute, le plaisir, etc. à partir d'un même réseau de neurone, omni-modal.

Références[modifier | modifier le code]

  1. (en) Matthew D. Lieberman, Naomi I. Eisenberger, Molly J. Crockett et Sabrina M. Tom, « Putting Feelings Into Words », Psychological Science, vol. 18, no 5,‎ , p. 421–428 (ISSN 0956-7976 et 1467-9280, DOI 10.1111/j.1467-9280.2007.01916.x, lire en ligne, consulté le ).
  2. (en) Yeşim ÜLGEN SÖNMEZ et Asaf VAROL, « In-depth investigation of speech emotion recognition studies from past to present –The importance of emotion recognition from speech signal for AI– », Intelligent Systems with Applications, vol. 22,‎ , article no 200351 (ISSN 2667-3053, DOI 10.1016/j.iswa.2024.200351, lire en ligne, consulté le ).
  3. M. Maithri, U. Raghavendra, Anjan Gudigar et Jyothi Samanth, « Automated emotion recognition: Current trends and future perspectives », Computer Methods and Programs in Biomedicine, vol. 215,‎ , p. 106646 (ISSN 0169-2607, DOI 10.1016/j.cmpb.2022.106646, lire en ligne, consulté le ).
  4. P Lucey, J F Cohn, I Matthews et S Lucey, « Automatically Detecting Pain in Video Through Facial Action Units », IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), vol. 41, no 3,‎ , p. 664–674 (ISSN 1083-4419 et 1941-0492, PMID 21097382, PMCID PMC6942457, DOI 10.1109/TSMCB.2010.2082525, lire en ligne, consulté le ).
  5. a et b (en) Todd E. Feinberg, « Facial Discrimination and Emotional Recognition in Schizophrenia and Affective Disorders », Archives of General Psychiatry, vol. 43, no 3,‎ , p. 276 (ISSN 0003-990X, DOI 10.1001/archpsyc.1986.01800030094010, lire en ligne, consulté le ).
  6. (en) Muhammad Najam Dar, Muhammad Usman Akram, Rajamanickam Yuvaraj et Sajid Gul Khawaja, « EEG-based emotion charting for Parkinson's disease patients using Convolutional Recurrent Neural Networks and cross dataset learning », Computers in Biology and Medicine, vol. 144,‎ , p. 105327 (DOI 10.1016/j.compbiomed.2022.105327, lire en ligne, consulté le ).
  7. Sarah Saadoon Jasim et Alia Karim Abdul Hassan, « Modern drowsiness detection techniques: a review », International Journal of Electrical and Computer Engineering (IJECE), vol. 12, no 3,‎ , p. 2986 (ISSN 2722-2578 et 2088-8708, DOI 10.11591/ijece.v12i3.pp2986-2995, lire en ligne, consulté le ).
  8. a et b Junwei Sun, Juntao Han, Yanfeng Wang et Peng Liu, « Memristor-Based Neural Network Circuit of Emotion Congruent Memory With Mental Fatigue and Emotion Inhibition », IEEE Transactions on Biomedical Circuits and Systems, vol. 15, no 3,‎ , p. 606–616 (ISSN 1932-4545 et 1940-9990, DOI 10.1109/TBCAS.2021.3090786, lire en ligne, consulté le ).
  9. (en) Tilo Kircher, Volker Arolt, Andreas Jansen et Martin Pyka, « Effect of Cognitive-Behavioral Therapy on Neural Correlates of Fear Conditioning in Panic Disorder », Biological Psychiatry, vol. 73, no 1,‎ , p. 93–101 (DOI 10.1016/j.biopsych.2012.07.026, lire en ligne, consulté le ).
  10. Md. Milon Islam, Sheikh Nooruddin, Fakhri Karray et Ghulam Muhammad, « Enhanced multimodal emotion recognition in healthcare analytics: A deep learning based model-level fusion approach », Biomedical Signal Processing and Control, vol. 94,‎ , p. 106241 (ISSN 1746-8094, DOI 10.1016/j.bspc.2024.106241, lire en ligne, consulté le ).
  11. (en) Zhirong Wang, Ming Chen et Guofu Feng, « Study on Driver Cross-Subject Emotion Recognition Based on Raw Multi-Channels EEG Data », Electronics, vol. 12, no 11,‎ , p. 2359 (ISSN 2079-9292, DOI 10.3390/electronics12112359, lire en ligne, consulté le ).
  12. a et b (en) Kranti Kamble et Joydeep Sengupta, « A comprehensive survey on emotion recognition based on electroencephalograph (EEG) signals », Multimedia Tools and Applications, vol. 82, no 18,‎ , p. 27269–27304 (ISSN 1573-7721, DOI 10.1007/s11042-023-14489-9, lire en ligne, consulté le ).
  13. (en) Ietezaz Ul Hassan, Raja Hashim Ali, Zain ul Abideen et Ali Zeeshan Ijaz, « Towards Effective Emotion Detection: A Comprehensive Machine Learning Approach on EEG Signals », BioMedInformatics, vol. 3, no 4,‎ , p. 1083–1100 (ISSN 2673-7426, DOI 10.3390/biomedinformatics3040065, lire en ligne, consulté le ).
  14. Baloju Revanth, Sakshi Gupta, Prakhar Dubey et Bhargav Choudhury, Multi-Channel EEG-based Multi-Class Emotion Recognition From Multiple Frequency Bands, IEEE, , 1–5 p. (ISBN 979-8-3503-1071-9, DOI 10.1109/PCEMS58491.2023.10136120, lire en ligne).
  15. (en) Arpan Phukan et Deepak Gupta, « Deep feature extraction from EEG signals using xception model for emotion classification », Multimedia Tools and Applications, vol. 83, no 11,‎ , p. 33445–33463 (ISSN 1573-7721, DOI 10.1007/s11042-023-16941-2, lire en ligne, consulté le ).
  16. (en) Glenn F. Wilson et Christopher A. Russell, « Real-Time Assessment of Mental Workload Using Psychophysiological Measures and Artificial Neural Networks », Human Factors: The Journal of the Human Factors and Ergonomics Society, vol. 45, no 4,‎ , p. 635–644 (ISSN 0018-7208 et 1547-8181, DOI 10.1518/hfes.45.4.635.27088, lire en ligne, consulté le ).
  17. Yan Wang, Wei Song, Wei Tao et Antonio Liotta, « A systematic review on affective computing: emotion models, databases, and recent advances », Information Fusion, vol. 83-84,‎ , p. 19–52 (ISSN 1566-2535, DOI 10.1016/j.inffus.2022.03.009, lire en ligne, consulté le ).
  18. Yoshihiro Miyakoshi et Shohei Kato, "Facial Emotion Detection Considering Partial Occlusion Of Face Using Baysian Network". Computers and Informatics, 2011, p. 96–101.
  19. Hari Krishna Vydana, P. Phani Kumar, K. Sri Rama Krishna and Anil Kumar Vuppala. "Improved emotion recognition using GMM-UBMs" ; 2015 International Conference on Signal Processing and Communication Engineering Systems
  20. B. Schuller, G. Rigoll M. Lang. "Hidden Markov model-based speech emotion recognition". ICME '03. Proceedings. 2003 International Conference on Multimedia and Expo, 2003.
  21. Premjeet Singh, Goutam Saha et Md Sahidullah, 2021 International Conference on Computer Communication and Informatics (ICCCI), , 1–4 p. (ISBN 978-1-7281-5875-4, DOI 10.1109/ICCCI50826.2021.9402569, arXiv 2102.04029, S2CID 231846518), « Non-linear frequency warping using constant-Q transformation for speech emotion recognition ».
  22. a et b https://www.sciencedirect.com/science/article/pii/S1566253517300738
  23. Geetha A.V., Mala T., Priyanka D. et Uma E., « Multimodal Emotion Recognition with Deep Learning: Advancements, challenges, and future directions », Information Fusion, vol. 105,‎ , p. 102218 (ISSN 1566-2535, DOI 10.1016/j.inffus.2023.102218, lire en ligne, consulté le ).
  24. Nusrat J. Shoumy, Li-Minn Ang, Kah Phooi Seng et D.M.Motiur Rahaman, « Multimodal big data affective analytics: A comprehensive survey using text, audio, visual and physiological signals », Journal of Network and Computer Applications, vol. 149,‎ , p. 102447 (ISSN 1084-8045, DOI 10.1016/j.jnca.2019.102447, lire en ligne, consulté le ).
  25. Soujanya Poria, Erik Cambria, Rajiv Bajpai et Amir Hussain, « A review of affective computing: From unimodal analysis to multimodal fusion », Information Fusion, vol. 37,‎ , p. 98–125 (DOI 10.1016/j.inffus.2017.02.003, hdl 1893/25490, S2CID 205433041, lire en ligne).
  26. (en) George Caridakis, Ginevra Castellano, Loic Kessous, Amaryllis Raouzaiou, Malatesta, Asteriadis et Karpouzis, Artificial Intelligence and Innovations 2007: From Theory to Applications, vol. 247, coll. « IFIP the International Federation for Information Processing », , 375–388 p. (ISBN 978-0-387-74160-4, DOI 10.1007/978-0-387-74161-1_41), « Multimodal emotion recognition from expressive faces, body gestures and speech ».
  27. a b c d e et f Erik Cambria, « Affective Computing and Sentiment Analysis », IEEE Intelligent Systems, vol. 31, no 2,‎ , p. 102–107 (DOI 10.1109/MIS.2016.31, S2CID 18580557). Erreur de référence : Balise <ref> incorrecte : le nom « s1 » est défini plusieurs fois avec des contenus différents.
  28. (en-US) Price, « Tapping Into The Emotional Internet », TechCrunch, (consulté le ).
  29. Maite Taboada, Julian Brooke, Milan Tofiloski et Kimberly Voll, « Lexicon-Based Methods for Sentiment Analysis », Computational Linguistics, vol. 37, no 2,‎ , p. 267–307 (ISSN 0891-2017, DOI 10.1162/coli_a_00049).
  30. Erik Cambria et Qian Liu « SenticNet 7: A Commonsense-based Neurosymbolic AI Framework for Explainable Sentiment Analysis » () (lire en ligne)
    « (ibid.) », dans Proceedings of LREC, p. 3829–3839
    .
  31. Alexandra Balahur, JesúS M Hermida et AndréS Montoyo, « Detecting implicit expressions of emotion in text: A comparative analysis », Decision Support Systems, vol. 53, no 4,‎ , p. 742–753 (ISSN 0167-9236, DOI 10.1016/j.dss.2012.05.024, lire en ligne).
  32. a b et c Walaa Medhat, Ahmed Hassan et Hoda Korashy, « Sentiment analysis algorithms and applications: A survey », Ain Shams Engineering Journal, vol. 5, no 4,‎ , p. 1093–1113 (DOI 10.1016/j.asej.2014.04.011). Erreur de référence : Balise <ref> incorrecte : le nom « s6 » est défini plusieurs fois avec des contenus différents.
  33. a b et c Zohreh Madhoushi, Abdul Razak Hamdan et Suhaila Zainudin, 2015 Science and Information Conference (SAI), , 288–291 p. (ISBN 978-1-4799-8547-0, DOI 10.1109/SAI.2015.7237157, S2CID 14821209), « Sentiment analysis techniques in recent works ». Erreur de référence : Balise <ref> incorrecte : le nom « s3 » est défini plusieurs fois avec des contenus différents.
  34. Fatemeh Hemmatian et Mohammad Karim Sohrabi, « A survey on classification techniques for opinion mining and sentiment analysis », Artificial Intelligence Review, vol. 52, no 3,‎ , p. 1495–1545 (DOI 10.1007/s10462-017-9599-6, S2CID 11741285).
  35. a b et c Shiliang Sun, Chen Luo et Junyu Chen, « A review of natural language processing techniques for opinion mining systems », Information Fusion, vol. 36,‎ , p. 10–25 (DOI 10.1016/j.inffus.2016.10.004).
  36. Navonil Majumder, « Deep Learning-Based Document Modeling for Personality Detection from Text », IEEE Intelligent Systems, vol. 32, no 2,‎ , p. 74–79 (DOI 10.1109/MIS.2017.23, S2CID 206468984).
  37. P. D. Mahendhiran et S. Kannimuthu, « Deep Learning Techniques for Polarity Classification in Multimodal Sentiment Analysis », International Journal of Information Technology & Decision Making, vol. 17, no 3,‎ , p. 883–910 (DOI 10.1142/S0219622018500128).
  38. (en) Hongliang Yu, Liangke Gui, Michael Madaio et Amy Ogan, Temporally Selective Attention Model for Social and Affective State Recognition in Multimedia Content, ACM, , 1743–1751 p. (ISBN 978-1-4503-4906-2, DOI 10.1145/3123266.3123413, lire en ligne).
  39. Erik Cambria et Amir Hussain, Sentic Computing: A Common-Sense-Based Framework for Concept-Level Sentiment Analysis, Springer Publishing Company, Incorporated, (ISBN 978-3319236537, lire en ligne).
  40. Matheus Araújo, Pollyanna Gonçalves, Meeyoung Cha et Fabrício Benevenuto, Proceedings of the 23rd International Conference on World Wide Web, ACM, coll. « WWW '14 Companion », , 75–78 p. (ISBN 9781450327459, DOI 10.1145/2567948.2577013, S2CID 11018367), « IFeel: A system that compares and combines sentiment analysis methods ».
  41. Emotion-oriented systems the humaine handbook, Berlin, Springer, (ISBN 978-3-642-15184-2).
  42. Ellen Douglas-Cowie, Nick Campbell, Roddy Cowie et Peter Roach, « Emotional speech: towards a new generation of databases », Speech Communication, vol. 40, nos 1–2,‎ , p. 33–60 (ISSN 0167-6393, DOI 10.1016/S0167-6393(02)00070-5, S2CID 6421586, CiteSeerx 10.1.1.128.3991, lire en ligne).
  43. G. McKeown, M. Valstar, R. Cowie et M. Pantic, « The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent », IEEE Transactions on Affective Computing, vol. 3, no 1,‎ , p. 5–17 (DOI 10.1109/T-AFFC.2011.20, S2CID 2995377, lire en ligne).
  44. (en) Carlos Busso, Murtaza Bulut, Chi-Chun Lee et Abe Kazemzadeh, « IEMOCAP: interactive emotional dyadic motion capture database », Language Resources and Evaluation, vol. 42, no 4,‎ , p. 335–359 (ISSN 1574-020X, DOI 10.1007/s10579-008-9076-6, S2CID 11820063).
  45. O. Martin, I. Kotsia, B. Macq et I. Pitas, 22nd International Conference on Data Engineering Workshops (ICDEW'06), IEEE Computer Society, coll. « Icdew '06 », , 8– (ISBN 9780769525716, DOI 10.1109/ICDEW.2006.145, S2CID 16185196, lire en ligne), « The eNTERFACE'05 Audio-Visual Emotion Database ».
  46. Sander Koelstra, Christian Muhl, Mohammad Soleymani et Jong-Seok Lee, « DEAP: A Database for Emotion Analysis Using Physiological Signals », IEEE Transactions on Affective Computing, vol. 3, no 1,‎ , p. 18–31 (ISSN 1949-3045, DOI 10.1109/T-AFFC.2011.15, S2CID 206597685, CiteSeerx 10.1.1.593.8470).
  47. Stamos Katsigiannis et Naeem Ramzan, « DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals From Wireless Low-cost Off-the-Shelf Devices », IEEE Journal of Biomedical and Health Informatics, vol. 22, no 1,‎ , p. 98–107 (ISSN 2168-2194, PMID 28368836, DOI 10.1109/JBHI.2017.2688239, S2CID 23477696, lire en ligne [archive du ], consulté le ).
  48. Soujanya Poria, Devamanyu Hazarika, Navonil Majumder et Gautam Naik, « MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations », Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA, USA, Association for Computational Linguistics,‎ , p. 527–536 (DOI 10.18653/v1/p19-1050, arXiv 1810.02508, S2CID 52932143).
  49. a et b Poria, S., Majumder, N., Mihalcea, R., & Hovy, E. (2019). Emotion recognition in conversation: Research challenges, datasets, and recent advances. IEEE Access, 7, 100943-100953.
  50. Lukas Stappen, Björn Schuller, Iulia Lefter, Erik Cambria et Kompatsiaris, Proceedings of the 28th ACM International Conference on Multimedia, Seattle, PA, USA, Association for Computing Machinery, , 4769–4770 p. (ISBN 9781450379885, DOI 10.1145/3394171.3421901, arXiv 2004.14858, S2CID 222278714), « Summary of MuSe 2020: Multimodal Sentiment Analysis, Emotion-target Engagement and Trustworthiness Detection in Real-life Media ».
  51. Vong Ho, Computational Linguistics, vol. 1215, coll. « Communications in Computer and Information Science », , 319–333 p. (ISBN 978-981-15-6167-2, DOI 10.1007/978-981-15-6168-9_27, arXiv 1911.09339, S2CID 208202333), « Emotion Recognition for Vietnamese Social Media Text ».
  52. Pablo Arnau-González, Stamos Katsigiannis, Miguel Arevalillo-Herráez et Naeem Ramzan, « BED: A new dataset for EEG-based biometrics », IEEE Internet of Things Journal, vol. (Early Access), no 15,‎ , p. 1 (ISSN 2327-4662, DOI 10.1109/JIOT.2021.3061727, S2CID 233916681, lire en ligne).
  53. « Affectiva ».
  54. a et b (en) Michael Bossetta et Rasmus Schmøkel, « Cross-Platform Emotions and Audience Engagement in Social Media Political Campaigning: Comparing Candidates' Facebook and Instagram Images in the 2020 US Election », Political Communication, vol. 40, no 1,‎ , p. 48–68 (ISSN 1058-4609, DOI 10.1080/10584609.2022.2128949).
  55. (en) Yilang Peng, « What Makes Politicians' Instagram Posts Popular? Analyzing Social Media Strategies of Candidates and Office Holders with Computer Vision », The International Journal of Press/Politics, vol. 26, no 1,‎ , p. 143–166 (ISSN 1940-1612, DOI 10.1177/1940161220964769, S2CID 225108765, lire en ligne).
  56. (en) Mario Haim et Marc Jungblut, « Politicians' Self-depiction and Their News Portrayal: Evidence from 28 Countries Using Visual Computational Analysis », Political Communication, vol. 38, nos 1–2,‎ , p. 55–74 (ISSN 1058-4609, DOI 10.1080/10584609.2020.1753869, S2CID 219481457, lire en ligne).
  57. Donghyeon Won, Zachary C. Steinert-Threlkeld et Jungseock Joo, Proceedings of the 25th ACM international conference on Multimedia, New York, NY, USA, Association for Computing Machinery, coll. « MM '17 », , 786–794 p. (ISBN 978-1-4503-4906-2, DOI 10.1145/3123266.3123282, arXiv 1709.06204), « Protest Activity Detection and Perceived Violence Estimation from Social Media Images ».
  58. https://pdfpiw.uspto.gov/.piw?PageNum=0&docid=10061977&IDKey=20D25A962A60&HomeUrl=http%3A%2F%2Fpatft.uspto.gov%2Fnetacgi%2Fnph-Parser%3FSect2%3DPTO1%2526Sect2%3DHITOFF%2526p%3D1%2526u%3D%2Fnetahtml%2FPTO%2Fsearch-bool.html%2526r%3D1%2526f%3DG%2526l%3D50%2526d%3DPALL%2526S1%3D10061977.PN.%2526OS%3DPN%2F10061977%2526RS%3DPN%2F10061977
  59. (en) Sophie Bushwick, « This Video Watches You Back », Scientific American (consulté le ).
  60. a et b Chris DeMuth Jr., « Apple Reads Your Mind », M&A Daily, Seeking Alpha,‎ (lire en ligne, consulté le ).
  61. « nViso », nViso.ch.
  62. « Visage Technologies ».
  63. « Feeling sad, angry? Your future car will know ».
  64. « Cars May Soon Warn Drivers Before They Nod Off », Huffington Post,‎ (lire en ligne).
  65. Shivhare, S. N., & Khethawat, S. (2012). Emotion detection from text. arXiv preprint « 1205.4944 », texte en accès libre, sur arXiv.
  66. Ezhilarasi, R., & Minu, R. I. (2012). Automatic emotion recognition and classification. Procedia Engineering, 38, 21-26.
  67. Krcadinac, U., Pasquier, P., Jovanovic, J., & Devedzic, V. (2013). Synesketch: An open source library for sentence-based emotion recognition. IEEE Transactions on Affective Computing, 4(3), 312-325.
  68. https://www.sciencedirect.com/science/article/pii/S2667305324000279
  69. Schmitt, M., Ringeval, F., & Schuller, B. W. (2016, September). At the Border of Acoustics and Linguistics: Bag-of-Audio-Words for the Recognition of Emotions in Speech. In Interspeech (pp. 495-499).
  70. Dhall, A., Goecke, R., Lucey, S., & Gedeon, T. (2012). Collecting large, richly annotated facial-expression databases from movies. IEEE multimedia, (3), 34-41.

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]