Reconnaissance vocale : Comment ça marche au juste ?

Comme beaucoup ces dernières années, vous avez vécu la démocratisation massive des assistants personnels. De la même manière, apercevoir un ami ou collègue de travail donner d’étranges ordres ou poser de drôles de questions à son téléphone n’a jamais été aussi normal qu’aujourd’hui. Vous l’aurez sûrement remarqué, nous sommes dans l’ère des technologies cognitives, et la reconnaissance vocale en fait partie.

Nombreux sont ceux qui en parlent, mais qui sait réellement comment cela fonctionne ? Un indice : vous, juste après la lecture de cet article.

Pour mieux comprendre ce procédé, il faut comprendre de quoi il est composé. Ce sont au total 5 briques technologiques qui forment le processus de la reconnaissance vocale.

A l’origine de cette technologie, il y a la voix humaine.

La première étape qui initie l’ensemble du processus s’appelle communément le Wake-up Word (ou Hot Word). Celle-ci n’est pas forcément une commande vocale, il peut également s’agir d’un bouton à presser ou d’une autre intéraction entre l’utilisateur et la machine. Le but principal de ce step est en fait d’activer la reconnaissance de la parole (STT que l’on explicitera après), soit de « réveiller » le système afin qu’il débute l’enregistrement. Cet élément est d’autant plus important lorsque nous regardons le contexte dans lequel nous sommes, les personnes aujourd’hui ont peur de la technologie par crainte de voir leur vie privée et intimité baffouées. Ainsi, sans avoir réaliser l’action ou prononcer les mots nécessaires, la reconnaissance vocale sera en veille et n’enregistrera aucune piste.

Une fois le système en activité, il est nécessaire d’exploiter la parole. Pour ce faire, il est tout d’abord primordial de l’enregistrer et de la numériser via le STT : pour la reconnaître tout simplement ! A l’issu de cette étape, la voix est traduite en fréquences sonores (à l’instar de la musique par exemple) pouvant être interprété par le système. Afin d’améliorer la compréhension de ces fréquences, différents traitements sont opérés :

  • La normalisation dans le but de supprimer les pics et les creux dans les différents fréquences afin de les harmoniser.
  • La suppression des bruits de fond pour améliorer la qualité audio.
  • La découpe des segments en phonèmes (unités distinctives, exprimées en millième de seconde, permettant de distinguer les mots les uns des autres)

Les fréquences peuvent être analysées par un réseau neuronal entraîné précédemment (Deep Learning) : un algorithme capable d’analyser une quantité importante d’informations et de constituer une “base de données” répertoriant les associations entre fréquences et les mots. Cela permet, à travers une analyse statistique notamment, de faire correspondre une fréquence au mot le plus commun et donc théoriquement le plus juste.

Par exemple, prenons deux phrases “un verre d’eau” et “un vers d’eau”. Celle qui sera retenue sera la première car “verre” est plus employé que “vers” avec “eau”.

Une fois la reconnaissance de la voix et les différents traitements opérés, les données sont envoyés directement au système NLP (Natural Language Processing). Cette technologie a pour mission principale d’analyser la phrase et d’en extraire le sens. Pour ce faire, elle commence par associer des tags aux mots de la phrase, c’est ce qu’on appelle la tokenisation. Ce sont en réalité des “étiquettes” que l’on appose sur chaque mot afin de les caractériser. Par exemple, “je” sera défini comme pronom singulier de la première personne, “allume” comme le verbe définissant une action, “la” comme le déterminant se rapportant à “lumière” qui est un nom propre mais aussi un COD etc… et ce pour chacun des éléments de la phrase. Vient ensuite l’analyse syntaxique et sémantique afin de modéliser la structure de la phrase et de comprendre les relations entre les différents mots.

L’importance du NLP réside dans sa capacité à traduire les éléments textuels (soit les mots et phrases) en ordres normalisés (toujours au même format) pouvant être interprétés par l’intelligence artificielle en sus.

 

Pour réaliser concrètement l’ordre énoncé, l’IA est la pièce maîtresse. Les intelligences artificielles fonctionnent de différentes manières, certaines plus basiques que d’autres. Dans le cas de Vivoka, l’IA développée depuis maintenant 5 ans fonctionne par l’agrégation de différents éléments. 

  • Les contextes (où est-elle ? pourquoi ? avec et pour qui ?)
  • Les informations (les objets, les utilisateurs connus, l’état actuel des objets, les stocks, les horaires, etc.)
  • Les services externes (l’accès aux API d’acteurs extérieurs comme : commander un repas, avoir les horaires de train, faire une recherche internet, écouter une musique en streaming etc.)

L’idée est de regrouper ces différents éléments et de faire des liens entre eux afin d’obtenir des résultats qui se veulent pertinents et performants. Voici une illustration (très basique) de l’IA dans le cadre de la domotique :

Contexte : Maison, Contrôler les objets connectés, pour les utilisateurs

Informations : Lampe, Réfrigérateur, Volets, Télévision (allumée), Chauffage (26°)

Services externes : Météo, Wikipédia, SNCF

 

Le TTS (Text To Speech) vient conclure le processus. Il correspond au feedback (retour) de l’IA qui se caractérise à travers un son, une voix ou un texte affiché par exemple. Ce dernier permet de communiquer des informations à l’utilisateur, symbole d’une interface Homme-machine complète.


Une fois le cycle complet, un individu peut donc converser avec la machine et lui donner les ordres. En récapitulant, la phrase est captée, puis interprétée pour ensuite être exécutée sous la forme d’une action qui donne lieu à un feedback de la part du système (feedback vocal ou non).

Les plus aguerris d’entre vous l’auront compris, cet article explique de manière très simple une technologie complexe. L’idée ici n’est pas de faire de vous des experts dans ce domaine mais de vous faire prendre conscience du fonctionnement et de son articulation. 

Post a Comment