Aller au contenu

« Reconnaissance automatique des émotions » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Créé en traduisant la page « Emotion recognition »
Balises : Nowiki dans un article Liens d’homonymie Traduction de contenu Traduction de contenu 2
(Aucune différence)

Version du 20 mai 2024 à 23:15

La reconnaissance automatique des émotions est le processus d'identification des émotions humaines par des technologie numériques. Ces outils sont issus d'un domaine encore émergeant de la recherche, qui a beaucoup progressé dans les années 2020. Ils permettent d'identifier des émotions à partir d'une image, d'une vidéo, de la voix ou d'un texte (ou de manière multimodale à partir de plusieurs de ces voies, avec alors de meilleurs résultats).

GPT-4o, qui a commencé à être déployé par OpenAI en mai 2024, est la 1ère intelligence artificielle publiquement disponible à en être nativement capable.

Les individus humains varient considérablement dans leur capacité à reconnaître leurs émotions et celles des autres. La reconnaissance des signes d'émotions sur le visage et le corps (langage non verbal), peut aider des aveugles ou personnes malvoyantes à interpréter les émotions d'interlocuteurs. elle peut aider des personnes concernées par un trouble du spectre autistique (TSA) à exprimer ce qu'elle ressentent, et à mieux comprendre ce qu'une autre personne ressent (Matthew D Lieberman et al., en 2007, ont montré grâce à l'IRM, que le simple fait de nommer l’émotion diminue l’activation physiologique associée dans l'amygdale et le système limbique, au profit d'une activation du cortex préfrontal ventrolatéral droit 10.1111/j.1467-9280.2007.01916.x

Cette reconnaissance automatique des émotions transmises par le visage, la voix et les mouvements et postures est cruciale pour améliorer les interactions et collaborations homme-machine (https://doi.org/10.1016/j.iswa.2024.200351) car pouvant permettre à des robots, des machines, des véhicules et à divers logiciels (y compris de jeux vidéo) d'interpréter les expressions faciales pour enclencher des rétroactions plus adaptées, "intelligentes" et empathiques.

L'outil est en soi neutre, mais il est puissant et peut avoir des usages malveillants ou sociétalement dangereux ;

  • il peut servir le bien commun, par exemple pour un "diagnostic en ligne" ou en télémédecine https://www.sciencedirect.com/science/article/abs/pii/S0169260722000311 notamment pour l'évaluation de la douleur 10.1109/TSMCB.2010.2082525 et de la santé mentale (schizophrénie...) 10.1001/archpsyc.1986.01800030094010), dépression 10.1001/archpsyc.1986.01800030094010, maladie de Parkinson 10.1016/j.compbiomed.2022.105327 , somnolence 10.11591/ijece.v12i3.pp2986-2995 , fatigue, fatigue chronique 10.1109/TBCAS.2021.3090786, TDAH 10.1016/j.bandc.2013.06.004 , trouble panique 10.1016/j.biopsych.2012.07.026, ou pour mieux comprendre un bébé, un malade ou une personne âgée qui ne seraient pas en état de parler, ou pour mieux veiller à distance sur des patients présents dans un centre de soins connecté https://www.sciencedirect.com/science/article/pii/S1746809424002994 ; pour savoir si des élèves ou étudiants ou des personnes apprenant en ligne comprennent ce qu'ils lisent ou entendent, pour permettre à une IA de détecter des indices d'alcoolémie et/ou des signes d'inattention ou d'endormissement d'un conducteur ou d'un travailleur et ainsi diminuer le risque d'accident https://www.mdpi.com/2079-9292/12/11/2359. Il peut aussi intéresser les autorités en charge de la sécurité https://link.springer.com/article/10.1007/s11042-023-14489-9 .
  • il peut être utilisé pour des sondages ou études de marché.
  • Il peut aussi être utilisé de manière malveillante : il peut en effet intrusivement, illégalement, et secrètement, révéler des aspects intimes et secrets de la personnalité des internautes ou de toute personne filmée dans une entreprise ou dans l'espace public (ou privé). Ceci peut avoir de graves conséquences dans un système judiciaire (car l'IA peut se tromper notamment parce qu'elle a surtout été formée avec les émotions de personnes adultes, blanches et plutôt masculines, et non ou peu avec des aveugles, autistes ou personnes paralysées ou victimes d'un AVC ou d'un handicap faisant que leur visage, leur voix et leur gestuelle exprime aucune émotion ou les exprime très différemment), dans le contexte d'une société et économie de la surveillance et/ou dans un régime autoritaire ou dictatorial. En complément des outils numérique d'analyses dans le Web de l'opinion publique et individuelle (Opinion mining), il peut faciliter les techniques de manipulation psychologique d'internautes, d'acheteurs ou d'électeurs, notamment via les réseaux sociaux comme on l'a vu dès le milieu des années 2010 avec le Scandale Facebook-Cambridge Analytica/AggregateIQ qui grâce à une IA baptisée RIPON a pu conduire à l'élection de Donald Trump, au Brexit et à d'autres fraudes ou manipulations électorales.

Historique

Certaines machines tendent à être conçues pour de plus en plus se comporter comme des humains pour diverses applications https://link.springer.com/article/10.1007/s11042-023-14489-9. Cette tendance a encouragé la création d'outils de reconnaissance automatisée des émotions humaines.

Ce domaine a émergé avec les logiciels de reconnaissance faciale qui a évolué vers l’automatisation de la reconnaissance des expressions faciales, à partir d'images et de vidéos, mais aussi à partir des expressions parlées (audio), écrites, et parfois à partir de la physiologie (pouls, électrocardiogramme, électroencéphalogramme (EEG) https://www.mdpi.com/2673-7426/3/4/65 https://ieeexplore.ieee.org/abstract/document/10136120/ https://link.springer.com/article/10.1007/s11042-023-16941-2, de peau (mesurées par la réponse galvanique de la peau), tremblements, couleur et aspect de la peau, mouvements des sourcils, des yeux, des narines, des oreilles, de la bouche, et diamètre de la pupille, humectation de la bouche, microréactions musculaires réflexes, etc.). On a récemment proposé un nouveau système de coussin intelligent pour détecter l’état de stress de son utilisateur https://www.sciencedirect.com/science/article/pii/S1566253518301064.

Quelques rappels sur les émotions

Selon sa personnalité et selon le contexte, chaque humains est plus ou moins introverti ou extraverti pour ce qui concerne ses émotions et ses intentions (plus ou moins guidées par ses émotions).

L'émotion peut être définie comme l'état psycho-physiologique et psychologique d’un être humain à un instant donné https://www.sciencedirect.com/science/article/pii/S0169260722000311.

Les humains présentent en outre une grande variabilité dans leurs capacités à reconnaître, en eux et/ou chez les autres les émotions primaires telles que le bonheur, la peur, la colère, la surprise, la tristesse ou le dégoût et d'autres émotions secondaires plus complexes ; de même pour l’intensité et la valence (émotion positive ou négative) de l’expression émotionnelle, autant de paramètres que l'IA peut analyser.

La capacité humaine à reconnaitre ses propres émotions et celles d'autrui varie en outre avec l'âge, l'attention et la qualité de la vue, de l'audition et du système perceptif.

Un défaut inné (ou acquis, par exemple suite à un traumatisme cérébral) de capacité à reconnaitre ses propres émotions et/ou celles des autres est dénommée Alexithymie. Une difficulté à regarder un interlocuteur et/ou à interpréter les émotions, des visages notamment, est l'un des critères importants de diagnostic du trouble du spectre autistique.

Le cerveau humain peut parfois faire des erreurs d'interprétation. De telles erreurs peuvent provenir de l'interlocuteur, qui peut être un acteur et/ou savoir simuler ou cacher des émotions (il peut par exemple se sentir triste et néanmoins se forcer à afficher un grand sourire, et ainsi parfois tromper son entourage).

Dans de nombreuses cultures, on apprend aux garçons et/ou aux filles à ne pas extérioriser, voire à soigneusement cacher certaines émotions. Le maquillage, le voile, des lunettes noires, peuvent cacher de nombreux signaux émotionnels.

Les concepteurs d''intelligences artificielles cherchent à leur inculquer une capacité à identifier en temps réel les émotions des personnes. Ils le font en imitant plus ou moins le cerveau humain, qui peut détecter de nombreux signaux, pour beaucoup non verbaux et discrets, relatifs aux émotions.

Si dans ces cas présentés plus haut, une méthode automatisée de reconnaissance des émotions obtient des résultats similaires à ceux d'un groupe d’observateurs, elle est généralement considérée comme précise (même si, comme on l'a vu, elle ne mesure pas réellement ce que ressent la personne).

Les alexithymiques (enfants autistes en particulier), n’ont généralement pas une représentation claire de leurs sentiments intérieurs. Et souvent, ils ne disposent pas des mots, chiffres, codes et concepts leur permettant de communiquer leurs émotions aux autres. Dans ces cas, Nursuriati Jamil et al. ont en 2015 suggéré d'analyser la locomotion d'enfants atteints de TSA, comme alternative à l'analyse des émotions du visage ou de la voix, pour au moins détecter des états émotionnels neutres, heureux, tristes ou de colère).

Dans la lignée de l'informatique émotionnelle https://www.sciencedirect.com/science/article/pii/S1566253522000367, une IA peut désormais détecter en temps quasi-réel des indices émotionnels discrets que l'humain ne repère pas.

Comprendre ses émotion peut demander un certain travail, qui peut être accompagné par un psychologue.

Reconnaissance automatique

Des décennies de recherche en psychologie en psychanalyse et psychiatrie, et les progrès récents de l'IA ont abouti à des méthodes de plus en plus fiables et précises de reconnaissance automatisée des émotions.

Une littérature abondante porte notamment sur le traitement du signal, l'apprentissage automatique, la vision par ordinateur et le traitement de la parole, qui ont bénéficié des progrès des réseaux bayésiens[1] , de modèles de mélange gaussien[2] et de modèles de Markov cachés[3] et de réseaux de neurones profonds[4].

Approches

On est passé de systèmes expert, dans les années 2010, à des approches algorithmiques unimodales des émotions, puis à des approches fusionnéeshttps://www.sciencedirect.com/science/article/pii/S1566253517300738 puis dans les années 2020 à de premières analyses multimodaleshttps://www.sciencedirect.com/science/article/pii/S1566253517300738, qui sont plus complexes, mais bien plus précises https://doi.org/10.1016/j.inffus.2023.102218, https://www.sciencedirect.com/science/article/pii/S1084804519303078 car s'appuyant à la fois sur les textes, physiologie, l’audio ou la vidéo[5].

Différents signaux émotionnels sont alors combinés en intégrant des indications provenant des expressions faciales, des mouvements et gestes du corps, de la parole ou des écrits [6]

Trois grandes approches co-existent :

  1. techniques basées sur la connaissance ;
  2. méthodes statistiques
  3. approches hybrides. [7]

Certains auteurs estiment que ce type de technologie contribue déjà à l’émergence d'un Internet dit "émotionnel"[8].

Techniques basées sur la connaissance

Parfois aussi appelées techniques "basées sur le lexique", elles utilisent la connaissance du domaine et les caractéristiques sémantiques et syntaxiques du texte et du langage, pour détecter certains types d'émotions[9].

Pour classer les émotions, elles s'appuient souvent sur des ressources dites "basées sur les connaissances" telles que WordNet, SenticNet[10], ConceptNet et EmotiNet[11], pour n'en nommer que quelques-uns[12]. Un avantage de cette approche est l'accessibilité et l'économie induites par la grande disponibilité de ces ressources[7]. Mais une limite de cette technique est son incapacité à gérer les nuances conceptuelles et les règles linguistiques complexes[7].

  1. Deux grandes techniques basées sur la connaissance coexistent: les approches basées sur des dictionnaires et celles basées sur des corpus.[réf. nécessaire]
  2. Les approches basées sur un dictionnaire recherchent des mots-clés relatifs aux émotions (ou aux opinions dans le contexte de l'opinion mining). Les mots recherchés sont tirés d'un dictionnaire de référence ; leurs synonymes et antonymes sont aussi recherchés pour élargir la liste initiale de mots indiquant les émotions[13].
  3. En revanche, les approches basées sur un corpus commencent par une liste de départ de mots d'émotion, et élargissent la base de données en trouvant d'autres mots présentant des caractéristiques spécifiques au contexte dans un vaste corpus[13]. Bien que les approches basées sur des corpus prennent en compte le contexte, leurs performances varient toujours selon les domaines puisqu'un mot trouvé dans un domaine peut avoir un autre sens dans un autre domaine[14].

Méthodes statistiques

Elles utilisent différents algorithmes d’apprentissage automatique supervisé, où un large ensemble de données annotées sont introduites dans les algorithmes pour que le système puisse apprendre et prédire les types d’émotions qu'li rencontrera[7]. Les algorithmes d'apprentissage automatique fournissent généralement une précision de classification plus intéressante que d'autres approches.

Mais l'un des défis pour obtenir de bons résultats dans ce processus de classification est qu'il faut disposer d'emblai d'un large ensemble de données de formation[7].

Certains des algorithmes d'apprentissage automatique les plus utilisés incluent les machines à vecteurs de support (SVM), Naive Bayes et Maximum Entropy[15].

L'apprentissage profond, qui fait partie de la famille non supervisée de l'apprentissage automatique, est aussi très utilisé pour la reconnaissance des émotions[16] [17] [18]. Les algorithmes d'apprentissage en profondeur connus incluent différentes architectures de réseaux neuronaux artificiels (ANN) telles que[15] :

  1. le réseau neuronal convolutif (CNN) https://www.sciencedirect.com/science/article/pii/S1746809420300501,
  2. la mémoire à long terme (LSTM)
  3. l'Extreme Learning Machine (ELM).

La popularité del'apprentissage profond dans ce domaine vient sans-doute de son succès dans des applications connexes telles que la vision par ordinateur, la reconnaissance vocale et le traitement du langage naturel (NLP)[15].

Approches hybrides

Elles combinent les avantages des deux technique précédentes (basées sur la connaissance et statistiques)[7], ce qui les rend plutôt plus performantes, mais avec l'inconvénient d'une plus grande complexité informatique[12].

Certains des travaux qui ont appliqué un ensemble d'éléments linguistiques et de méthodes statistiques axés sur la connaissance incluent l'informatique sentique (Sentic computing) et "iFeel", qui ont tous deux intégré la ressource basée sur la connaissance au niveau conceptuel SenticNet[19] [20].

Le rôle des ressources basées sur la connaissance dans la mise en œuvre d’approches hybrides est très important dans le processus de classification des émotions[12].

Ensembles de données

La donnée numérique est au cœur des approches récente de reconnaissance des émotions.

Or il est difficile d'obtenir des données annotées non biaisées et représentatives de toutes les populations, de toutes les cultures, et de toutes les émotions. Or des données de qualité et représentatives sont nécessaires à la formation des algorithmes d'apprentissage automatique[13].

Pour la tâche de classer différents types d'émotions provenant de sources multimodales sous forme de textes, d'audio, de vidéos ou de signaux physiologiques, les ensembles de données suivants sont disponibles :

  1. HUMAINE : fournit des clips naturels avec des mots émotionnels et des étiquettes de contexte dans plusieurs modalités [21]
  2. Base de données de Belfast : fournit des clips avec un large éventail d'émotions provenant de programmes télévisés et d'enregistrements d'interviews [22]
  3. SEMAINE : fournit des enregistrements audiovisuels entre une personne et un agent virtuel et contient des annotations d'émotions telles que la colère, la joie, la peur, le dégoût, la tristesse, le mépris et l'amusement [23]
  4. IEMOCAP : fournit des enregistrements de sessions dyadiques entre acteurs et contient des annotations d'émotions telles que le bonheur, la colère, la tristesse, la frustration et l'état neutre [24]
  5. eNTERFACE : fournit des enregistrements audiovisuels de sujets de sept nationalités et contient des annotations d'émotions telles que le bonheur, la colère, la tristesse, la surprise, le dégoût et la peur [25]
  6. DEAP : fournit des enregistrements d'électroencéphalographie (EEG), d'électrocardiographie (ECG) et de vidéos faciales, ainsi que des annotations d'émotions en termes de valence, d'éveil et de dominance des personnes regardant des extraits de films [26]
  7. DREAMER : fournit des enregistrements d'électroencéphalographie (EEG) et d'électrocardiographie (ECG), ainsi que des annotations d'émotions en termes de valence, de dominance des personnes regardant des extraits de films [27]
  8. MELD : est un ensemble de données conversationnelles multipartites où chaque énoncé est étiqueté avec émotion et sentiment. MELD [28] propose des conversations au format vidéo et convient donc à la reconnaissance multimodale des émotions et à l'analyse des sentiments . MELD est utile pour l'analyse multimodale des sentiments et la reconnaissance des émotions, les systèmes de dialogue et la reconnaissance des émotions dans les conversations . [29]
  9. MuSe : propose des enregistrements audiovisuels d'interactions naturelles entre une personne et un objet. [30] Il contient des annotations d'émotions discrètes et continues en termes de valence, d'excitation et de fiabilité, ainsi que des sujets de discours utiles pour l'analyse multimodale des sentiments et la reconnaissance des émotions.
  10. UIT-VSMEC : est un corpus d'émotions sur les réseaux sociaux vietnamiens standard (UIT-VSMEC) avec environ 6 927 phrases annotées par des humains avec six étiquettes d'émotion, contribuant à la recherche sur la reconnaissance des émotions en vietnamien, une langue à faibles ressources en traitement du langage naturel (NLP). . [31]
  11. BED : apporte de la valence et de l'excitation aux personnes qui regardent des images. Il comprend également des enregistrements d'électroencéphalographie (EEG) de personnes exposées à divers stimuli ( SSVEP, repos les yeux fermés, repos les yeux ouverts, tâches cognitives) pour la tâche de biométrie basée sur l'EEG. [32]

Applications

La reconnaissance des émotions est intéresse divers secteurs, pour des raisons très différentes.

A titre d'exemple, Affectiva, issue du MIT, fournit un logiciel d'intelligence artificielle qui rend plus efficace l'exécution de tâches auparavant effectuées manuellement par des personnes. Il aide au recueil d'informations pertinentes sur les expressions faciales et vocales, dans des contextes spécifiques où les téléspectateurs ont consenti à partager ces informations.

Ainsi, au lieu de répondre à une longue enquête sur ce que vous ressentez à chaque instant en regardant une vidéo éducative ou une publicité, vous pouvez consentir à ce qu'une caméra surveille votre visage et écoute ce que vous dites, et note pendant quelles parties de l'expérience vous montrez des expressions telles que l’ennui, l’intérêt, la confusion ou le sourire. (Notez que cela n'implique pas qu'il lit vos sentiments les plus intimes : il lit uniquement ce que vous exprimez extérieurement.)

D'autres utilisations d' Affectiva incluent l'aide aux enfants autistes, l'aide aux personnes aveugles à lire les expressions faciales, l'aide aux robots pour interagir plus intelligemment avec les gens. et surveiller les signes d'attention pendant la conduite dans le but d'améliorer la sécurité routière et du conducteur[33].

La recherche universitaire l'utilise de plus en plus pour certaines questions de sciences sociales liées aux sentiments, aux élections, aux manifestations et à la démocratie. Certaines études se concentrent sur les expressions faciales des candidats politiques sur les réseaux sociaux, révèlant par exemple le caractère extraverti des politiciens, qui expriment facilement leur bonheur[34] [35] [36]. La recherche montre aussi que des outils de vision par ordinateur tels qu'Amazon Rekognition ne sont précis que pour détecter le bonheur (« détecteurs de bonheur »)[37].

Les chercheurs étudient les manifestations, guerres, ou contextes de violence, etc, où l’on s’attend à des affects plus complexes et pafois négatifs tels que la colère, la douleur, la dépression, la tristesse, la frustration, l'empathie, etc., ont du développer leurs propres modèles pour mieux distinguer ces émotions[38].

Un brevet déposé par Snapchat en 2015 décrit une méthode d'extraction de données sur les foules lors d'événements publics en effectuant une reconnaissance algorithmique des émotions sur les selfies géolocalisés des utilisateurs[39].

Emotient était une startup dédiée à la reconnaissance des émotions par une intelligence artificielle analysant les combinaisons de froncements de sourcils, de sourires et d'autres expressions des visages, pour prédire « les attitudes et les actions basées sur les expressions faciales »[40] . Apple a acheté Emotient en 2016 et utilise la technologie de reconnaissance des émotions pour améliorer l'intelligence émotionnelle de ses produits[40].

nViso fournit un outil de reconnaissance des émotions en temps réel, pour les applications Web et mobiles, via une API en temps réel[41] .Visage Technologies AB propose une estimation des émotions dans le cadre de son SDK Visage à des fins marketing et scientifiques et à des fins similaires[42].

Eyeris travaille pour des fabricants de systèmes embarqués, dont des constructeurs automobiles et des entreprises de robotique sociale, pour intégrer ses logiciels d'analyse faciale et de reconnaissance des émotions ; ainsi qu'avec les créateurs de contenu vidéo pour les aider à mesurer l'efficacité perçue de leur création vidéo courte et longue[43] [44].

De nombreux systèmes agrègent des indices d'émotions communiquées en ligne (à partir des « J'aime » de Facebook par exemple, et via le nombre d'expressions classées positives et/ou négatives dans le textes et messages.

La reconnaissance des affects est aussi utilisée dans certains jeux et systèmes de réalité virtuelle, parfois à des fins éducatives, ou pour donner aux joueurs ou à des influenceurs un contrôle plus naturel sur leurs avatars sociaux.

Prospective

La reconnaissance automatique des émotions va probablement être de plus en plus précise avec les IA multimodales explorant plusieurs modalités (texte (conversation), audio (mots, expressions, ton et modulations de la voix, photo/vidéo et même physiologie pour détecter les émotions.

En 2024, deux chercheurs coréens (Université Yonsei à Seoul) ont proposé un nouveau modèle d'IA de reconnaissance des émotions. Selon eux, en fusionnant des données physiologiques, mais aussi environnementales et personnelles, il se montre plus fiable https://doi.org/10.1016/j.eswa.2024.123723.

Il a été proposé de faire détecter par une IA les émotions de soldats lors d'entraînements en environnements simulés pour évaluer leur aptitude à supporter les conditions de combat. Une telle IA pourrait aussi être "utilisée pour évaluer les conditions mentales dans les situations de combat" (bis https://doi.org/10.1016/j.cmpb.2022.106646

Ces avancées techniques pourrait grandement rapprocher les machines et certains robots de l'intelligence émotionnelle humaine en leur permettant de percevoir, maîtriser, exprimer et décoder l'émotion chez autrui. Mais l'Intelligence artificielle semble par contre encore loin de deux autres composantes majeures de l'intelligence émotionnelle :

  1. la conscience de soi qui inclue la capacité à ressentir ses propres émotions, ce qui permet dans une certaine mesure de les autoréguler ;
  2. la capacité d’empathie qui repose notamment sur le système des neurones miroir.

Ces évolutions techniques pose des questions éthiques et philosophiques importantes, notamment quant à la protection de la vie privée ou à l'existence d'éventuels biais de la part des IA.

Reconnaissance des émotions dans les textes et conversations

La donnée textuelle (compte rendus d'auto-évaluations, de tests, réponses à un questionnaire ; transcriptions de monologues, dialogues ou conversations, journal intime, etc.) est un objet numérique favorable à la reconnaissance automatique des émotions, souvent massivement et gratuitement disponibles dans l'environnement numérique.

Comparativement à d'autres sortes de données, elle est plus légère et facile à compresser (grâce aux répétitions fréquentes de mots et de caractères dans les langues).

Les émotions peuvent en être extraites[45] via l'analyse de « mots/phrases » indicateurs de divers registres émotionnels[46] [47].

Le domaine de la reconnaissance automatique des émotions transmises par la parole (SER pour speech emotion recognition) est en plein développementhttps://www.sciencedirect.com/science/article/pii/S2667305324000279

Reconnaissance des émotions dans les médias audio

Différent de la reconnaissance des émotions dans le texte, les signaux vocaux sont utilisés pour la reconnaissance afin d' extraire les émotions de l'audio[48].

Reconnaissance des émotions dans les médias vidéo

La donnée vidéo combine des données audio, des images successives et parfois du texte ( sous-titres [49] ).

Reconnaissance des émotions en quasi-temps réel dans la conversation

La reconnaissance des émotions dans la conversation (REC) extrait les émotions (voire les opinions dans le cas d' l'opinion mining) exprimées par les participants, à partir de données conversationnelles, y compris massivement récoltées sur desplateformes sociales, telles que Facebook, Twitter/X, YouTube et autres[29]. La REC peut se baser sur des données d'entrée telles que du texte, de l'audio, de la vidéo ensuite agrégées ou sur une combinaison de ces données, ou comme avec GPT-4o (depuis mai 2024) en étant nativement capable de détecter émotions telles que la peur, la douleur, l'intérêt, le doute, le plaisir, etc à partir d'un même réseau de neurone, omni-modal.

Voir aussi

Bibliographie

Notes et références Modèle:Nonverbal communication

  1. Miyakoshi, Yoshihiro, and Shohei Kato. "Facial Emotion Detection Considering Partial Occlusion Of Face Using Baysian Network". Computers and Informatics (2011): 96–101.
  2. Hari Krishna Vydana, P. Phani Kumar, K. Sri Rama Krishna and Anil Kumar Vuppala. "Improved emotion recognition using GMM-UBMs". 2015 International Conference on Signal Processing and Communication Engineering Systems
  3. B. Schuller, G. Rigoll M. Lang. "Hidden Markov model-based speech emotion recognition". ICME '03. Proceedings. 2003 International Conference on Multimedia and Expo, 2003.
  4. Premjeet Singh, Goutam Saha et Md Sahidullah, 2021 International Conference on Computer Communication and Informatics (ICCCI), , 1–4 p. (ISBN 978-1-7281-5875-4, DOI 10.1109/ICCCI50826.2021.9402569, arXiv 2102.04029, S2CID 231846518), « Non-linear frequency warping using constant-Q transformation for speech emotion recognition »
  5. Poria, Cambria, Bajpai et Hussain, « A review of affective computing: From unimodal analysis to multimodal fusion », Information Fusion, vol. 37,‎ , p. 98–125 (DOI 10.1016/j.inffus.2017.02.003, hdl 1893/25490, S2CID 205433041, lire en ligne)
  6. (en) George Caridakis, Ginevra Castellano, Loic Kessous, Amaryllis Raouzaiou, Malatesta, Asteriadis et Karpouzis, Artificial Intelligence and Innovations 2007: From Theory to Applications, vol. 247, coll. « IFIP the International Federation for Information Processing », , 375–388 p. (ISBN 978-0-387-74160-4, DOI 10.1007/978-0-387-74161-1_41), « Multimodal emotion recognition from expressive faces, body gestures and speech »
  7. a b c d e et f Cambria, « Affective Computing and Sentiment Analysis », IEEE Intelligent Systems, vol. 31, no 2,‎ , p. 102–107 (DOI 10.1109/MIS.2016.31, S2CID 18580557) Erreur de référence : Balise <ref> incorrecte : le nom « s1 » est défini plusieurs fois avec des contenus différents.
  8. (en-US) Price, « Tapping Into The Emotional Internet », TechCrunch, (consulté le )
  9. Taboada, Brooke, Tofiloski et Voll, « Lexicon-Based Methods for Sentiment Analysis », Computational Linguistics, vol. 37, no 2,‎ , p. 267–307 (ISSN 0891-2017, DOI 10.1162/coli_a_00049)
  10. Erik Cambria et Qian Liu « SenticNet 7: A Commonsense-based Neurosymbolic AI Framework for Explainable Sentiment Analysis » () (lire en ligne)
    « (ibid.) », dans Proceedings of LREC, p. 3829–3839
  11. Balahur, Hermida et Montoyo, « Detecting implicit expressions of emotion in text: A comparative analysis », Decision Support Systems, vol. 53, no 4,‎ , p. 742–753 (ISSN 0167-9236, DOI 10.1016/j.dss.2012.05.024, lire en ligne)
  12. a b et c Medhat, Hassan et Korashy, « Sentiment analysis algorithms and applications: A survey », Ain Shams Engineering Journal, vol. 5, no 4,‎ , p. 1093–1113 (DOI 10.1016/j.asej.2014.04.011) Erreur de référence : Balise <ref> incorrecte : le nom « s6 » est défini plusieurs fois avec des contenus différents.
  13. a b et c Zohreh Madhoushi, Abdul Razak Hamdan et Suhaila Zainudin, 2015 Science and Information Conference (SAI), , 288–291 p. (ISBN 978-1-4799-8547-0, DOI 10.1109/SAI.2015.7237157, S2CID 14821209), « Sentiment analysis techniques in recent works » Erreur de référence : Balise <ref> incorrecte : le nom « s3 » est défini plusieurs fois avec des contenus différents.
  14. Hemmatian et Sohrabi, « A survey on classification techniques for opinion mining and sentiment analysis », Artificial Intelligence Review, vol. 52, no 3,‎ , p. 1495–1545 (DOI 10.1007/s10462-017-9599-6, S2CID 11741285)
  15. a b et c Sun, Luo et Chen, « A review of natural language processing techniques for opinion mining systems », Information Fusion, vol. 36,‎ , p. 10–25 (DOI 10.1016/j.inffus.2016.10.004)
  16. Majumder, Poria, Gelbukh et Cambria, « Deep Learning-Based Document Modeling for Personality Detection from Text », IEEE Intelligent Systems, vol. 32, no 2,‎ , p. 74–79 (DOI 10.1109/MIS.2017.23, S2CID 206468984)
  17. Mahendhiran et Kannimuthu, « Deep Learning Techniques for Polarity Classification in Multimodal Sentiment Analysis », International Journal of Information Technology & Decision Making, vol. 17, no 3,‎ , p. 883–910 (DOI 10.1142/S0219622018500128)
  18. Hongliang Yu, Liangke Gui, Michael Madaio, Amy Ogan, Cassell et Morency, Proceedings of the 25th ACM international conference on Multimedia, ACM, coll. « MM '17 », , 1743–1751 p. (ISBN 9781450349062, DOI 10.1145/3123266.3123413, S2CID 3148578), « Temporally Selective Attention Model for Social and Affective State Recognition in Multimedia Content »
  19. Erik Cambria et Amir Hussain, Sentic Computing: A Common-Sense-Based Framework for Concept-Level Sentiment Analysis, Springer Publishing Company, Incorporated, (ISBN 978-3319236537, lire en ligne)
  20. Matheus Araújo, Pollyanna Gonçalves, Meeyoung Cha et Fabrício Benevenuto, Proceedings of the 23rd International Conference on World Wide Web, ACM, coll. « WWW '14 Companion », , 75–78 p. (ISBN 9781450327459, DOI 10.1145/2567948.2577013, S2CID 11018367), « IFeel: A system that compares and combines sentiment analysis methods »
  21. Emotion-oriented systems the humaine handbook, Berlin, Springer, (ISBN 978-3-642-15184-2)
  22. Douglas-Cowie, Campbell, Cowie et Roach, « Emotional speech: towards a new generation of databases », Speech Communication, vol. 40, nos 1–2,‎ , p. 33–60 (ISSN 0167-6393, DOI 10.1016/S0167-6393(02)00070-5, S2CID 6421586, CiteSeerx 10.1.1.128.3991, lire en ligne)
  23. McKeown, Valstar, Cowie et Pantic, « The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent », IEEE Transactions on Affective Computing, vol. 3, no 1,‎ , p. 5–17 (DOI 10.1109/T-AFFC.2011.20, S2CID 2995377, lire en ligne)
  24. (en) Busso, Bulut, Lee et Kazemzadeh, « IEMOCAP: interactive emotional dyadic motion capture database », Language Resources and Evaluation, vol. 42, no 4,‎ , p. 335–359 (ISSN 1574-020X, DOI 10.1007/s10579-008-9076-6, S2CID 11820063)
  25. O. Martin, I. Kotsia, B. Macq et I. Pitas, 22nd International Conference on Data Engineering Workshops (ICDEW'06), IEEE Computer Society, coll. « Icdew '06 », , 8– (ISBN 9780769525716, DOI 10.1109/ICDEW.2006.145, S2CID 16185196, lire en ligne), « The eNTERFACE'05 Audio-Visual Emotion Database »
  26. Koelstra, Muhl, Soleymani et Lee, « DEAP: A Database for Emotion Analysis Using Physiological Signals », IEEE Transactions on Affective Computing, vol. 3, no 1,‎ , p. 18–31 (ISSN 1949-3045, DOI 10.1109/T-AFFC.2011.15, S2CID 206597685, CiteSeerx 10.1.1.593.8470)
  27. Katsigiannis et Ramzan, « DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals From Wireless Low-cost Off-the-Shelf Devices », IEEE Journal of Biomedical and Health Informatics, vol. 22, no 1,‎ , p. 98–107 (ISSN 2168-2194, PMID 28368836, DOI 10.1109/JBHI.2017.2688239, S2CID 23477696, lire en ligne [archive du ], consulté le )
  28. Poria, Hazarika, Majumder et Naik, « MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations », Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA, USA, Association for Computational Linguistics,‎ , p. 527–536 (DOI 10.18653/v1/p19-1050, arXiv 1810.02508, S2CID 52932143)
  29. a et b Poria, S., Majumder, N., Mihalcea, R., & Hovy, E. (2019). Emotion recognition in conversation: Research challenges, datasets, and recent advances. IEEE Access, 7, 100943-100953.
  30. Lukas Stappen, Björn Schuller, Iulia Lefter, Erik Cambria et Kompatsiaris, Proceedings of the 28th ACM International Conference on Multimedia, Seattle, PA, USA, Association for Computing Machinery, , 4769–4770 p. (ISBN 9781450379885, DOI 10.1145/3394171.3421901, arXiv 2004.14858, S2CID 222278714), « Summary of MuSe 2020: Multimodal Sentiment Analysis, Emotion-target Engagement and Trustworthiness Detection in Real-life Media »
  31. Vong Ho, Computational Linguistics, vol. 1215, coll. « Communications in Computer and Information Science », , 319–333 p. (ISBN 978-981-15-6167-2, DOI 10.1007/978-981-15-6168-9_27, arXiv 1911.09339, S2CID 208202333), « Emotion Recognition for Vietnamese Social Media Text »
  32. Arnau-González, Katsigiannis, Arevalillo-Herráez et Ramzan, « BED: A new dataset for EEG-based biometrics », IEEE Internet of Things Journal, vol. (Early Access), no 15,‎ , p. 1 (ISSN 2327-4662, DOI 10.1109/JIOT.2021.3061727, S2CID 233916681, lire en ligne)
  33. « Affectiva »
  34. (en) Bossetta et Schmøkel, « Cross-Platform Emotions and Audience Engagement in Social Media Political Campaigning: Comparing Candidates' Facebook and Instagram Images in the 2020 US Election », Political Communication, vol. 40, no 1,‎ , p. 48–68 (ISSN 1058-4609, DOI 10.1080/10584609.2022.2128949)
  35. (en) Peng, « What Makes Politicians' Instagram Posts Popular? Analyzing Social Media Strategies of Candidates and Office Holders with Computer Vision », The International Journal of Press/Politics, vol. 26, no 1,‎ , p. 143–166 (ISSN 1940-1612, DOI 10.1177/1940161220964769, S2CID 225108765, lire en ligne)
  36. (en) Haim et Jungblut, « Politicians' Self-depiction and Their News Portrayal: Evidence from 28 Countries Using Visual Computational Analysis », Political Communication, vol. 38, nos 1–2,‎ , p. 55–74 (ISSN 1058-4609, DOI 10.1080/10584609.2020.1753869, S2CID 219481457, lire en ligne)
  37. (en) Bossetta et Schmøkel, « Cross-Platform Emotions and Audience Engagement in Social Media Political Campaigning: Comparing Candidates' Facebook and Instagram Images in the 2020 US Election », Political Communication, vol. 40, no 1,‎ , p. 48–68 (ISSN 1058-4609, DOI 10.1080/10584609.2022.2128949)
  38. Donghyeon Won, Zachary C. Steinert-Threlkeld et Jungseock Joo, Proceedings of the 25th ACM international conference on Multimedia, New York, NY, USA, Association for Computing Machinery, coll. « MM '17 », , 786–794 p. (ISBN 978-1-4503-4906-2, DOI 10.1145/3123266.3123282, arXiv 1709.06204), « Protest Activity Detection and Perceived Violence Estimation from Social Media Images »
  39. (en) Bushwick, « This Video Watches You Back », Scientific American (consulté le )
  40. a et b (en) {{Article}} : paramètre « titre » manquant, paramètre « périodique » manquant,‎
  41. « nViso », nViso.ch
  42. « Visage Technologies »
  43. « Feeling sad, angry? Your future car will know »
  44. (en) « Cars May Soon Warn Drivers Before They Nod Off », Huffington Post,‎ (lire en ligne)
  45. Shivhare, S. N., & Khethawat, S. (2012). Emotion detection from text. arXiv preprint « 1205.4944 », texte en accès libre, sur arXiv.
  46. Ezhilarasi, R., & Minu, R. I. (2012). Automatic emotion recognition and classification. Procedia Engineering, 38, 21-26.
  47. Krcadinac, U., Pasquier, P., Jovanovic, J., & Devedzic, V. (2013). Synesketch: An open source library for sentence-based emotion recognition. IEEE Transactions on Affective Computing, 4(3), 312-325.
  48. Schmitt, M., Ringeval, F., & Schuller, B. W. (2016, September). At the Border of Acoustics and Linguistics: Bag-of-Audio-Words for the Recognition of Emotions in Speech. In Interspeech (pp. 495-499).
  49. Dhall, A., Goecke, R., Lucey, S., & Gedeon, T. (2012). Collecting large, richly annotated facial-expression databases from movies. IEEE multimedia, (3), 34-41.