reconnaissance émotion vocal

Et si l’émotion vous rapprochait un peu plus des machines ?

[Total : 0    Moyenne : 0/5]

 

Lorsqu’on aborde le domaine de l’interaction homme-machine (IHM), surtout avec les assistants personnels, il est important de prendre en compte une dimension plus “relationnelle”. Les différentes technologies vocales, parmi de nombreuses autres innovations, améliorent sans cesse leurs fonctionnalités pour favoriser leur adoption par le public. Ainsi, parler à un assistant vocal devrait être aussi naturel que parler à un humain. C’est à partir de ce constat que nous allons vous présenter ce que nous, et beaucoup d’experts, estimons comme un des éléments essentiels de ces nouvelles technologies : la reconnaissance d’émotion.

 

La reconnaissance d’émotion, prochain cap de la relation homme-machine.

 

Aujourd’hui, les assistants vocaux, comme les autres technologies du domaine, gagnent du terrain au sein des différents publics ciblés. À travers de nombreuses fonctionnalités qui, par nature, sont plus simples et intuitives pour l’utilisateur, ces nouveaux outils passent d’un “Nice-To-Have” à un véritable “Must-Have” dans de nombreux domaines. Pourtant, selon Sophie Kleber, Executive Director de Huge, c’est loin d’être suffisant pour libérer tout le potentiel de la conversation Homme/machine.

 

Dans une conférence intitulée “Designing emotionally intelligent machines”, elle présente sa vision de l’avènement du mode d’interaction vocal, tout en précisant que cela sera combiné à l’émergence de l’Informatique Affective. C’est-à-dire que pour créer des relations fortes avec les humains, les systèmes devront être capables de reconnaître, interpréter, utiliser et simuler les émotions. 

 

Cette vision est également partagée par de nombreux spécialistes du domaine, notamment Viktor Rogzik, chercheur au sein de la division Alexa Speech Group d’Amazon : « La reconnaissance émotionnelle est un sujet de recherche de plus en plus populaire dans le domaine de l’intelligence artificielle dédiée à la conversation ». Développer la technologie vocale passera inévitablement par la dimension émotionnelle, les premiers travaux en la matière ont déjà vu le jour, mais ce qui constitue l’état de l’art a encore du chemin à parcourir. Nous vous expliquons pourquoi.

 

L’émotion, pourquoi est-ce si dur à exploiter ?

 

Comme pour beaucoup de technologies cognitives (se basant sur le fonctionnement du cerveau humain), il est très dur de reproduire efficacement certains processus complexes. En effet, le langage et l’interprétation sont deux domaines comprenant d’innombrables exceptions et particularités. Par exemple, l’ironie ou autre figure de style comme les euphémismes viennent altérer le sens propre de la phrase et requièrent une certaine interprétation très contextuelle. Ainsi, micro-expressions, modulations de la voix, etc. sont autant d’éléments à prendre en compte afin de totalement saisir les intentions, conscientes ou non, des utilisateurs. Il faut comprendre en ce sens que se baser uniquement sur les mots est une très grosse erreur, celle notamment commise dans les premiers travaux en la matière (ou un simple coefficient positif ou négatif était attribué selon le sens des mots).

 

Il existe également d’autres obstacles comme :

 

  • Les émotions sont subjectives, leur interprétation peut largement varier. C’est en effet très dur de définir réellement une émotion.

 

  • Que faut-il prendre en compte pour la reconnaissance d’émotion ? Le sens d’un seul mot, d’un ensemble de mots ou d’une conversation entière ?

 

  • Collecter des données s’avère très compliqué. Il y en a beaucoup, même énormément, pourtant il est dur d’en trouver des fiables concernant les émotions. Par exemple, les JT sont présentés de manière neutre ce qui n’offre pas de données traitables, les acteurs imitent des émotions ce qui crée des biais dans l’identification.

 

Comment tirer profit de la reconnaissance d’émotion ?

 

Il s’agit sûrement de la partie qui vous intéresse le plus, et la plus pragmatique ! Tout d’abord, il s’agit d’une fonctionnalité pressentie comme essentielle pour l’avenir des assistants vocaux ! « Nous pensons qu’à l’avenir, tous nos utilisateurs voudront interagir avec les assistants sur un mode émotionnel. C’est la tendance que nous voyons sur le long terme », a expliqué Felix Zhang, vice-président de l’ingénierie logicielle chez Huawei, auprès de CNBC

 

Demain, il sera possible de coupler des moteurs de reconnaissance d’émotion à travers la voix (Speech-To-Emotion) avec des systèmes NLP (Natural Language Processing) pour réellement identifier et interpréter les émotions de la conversation ou du discours. Ce faisant, un champ très large d’applications s’ouvre ! Par exemple, il sera possible de continuer la personnalisation des services envers l’utilisateur selon les émotions qu’il ressent. Quoi de mieux pour améliorer l’expérience que d’adapter le résultat selon ce que l’utilisateur ressent ?

 

Nous parlons beaucoup de ce que la voix peut offrir en termes d’expérience. Pour exploiter cette dimension, il n’y a pas que la voix de l’utilisateur. Connaissez-vous le TTS (Text-To-Speech) ? Il s’agit de moteurs de synthèses vocales permettant de créer des voix quasi humaines à partir d’un texte. La voix de la SNCF ou celles de la RATP proviennent de là ! Pour faire lien avec ce que nous disions auparavant, employer un TTS personnalisé selon l’émotion identifiée est une piste supplémentaire vers un lien Humain-Machine développé. 

 

L’avenir des systèmes vocaux réside ainsi dans la reconnaissance d’émotion. Ce type d’intelligence affective est en passe de rapprocher encore plus l’humain de la machine. Cela reste néanmoins de la manipulation de données personnelles. Ainsi, le profiling vocal doit rester dans une optique d’amélioration de l’expérience et respecter au mieux les directives du RGPD et autres principes de protection de la vie privée.