reconnaissance vocale vivoka

Reconnaissance vocale : Comment ça marche avec Vivoka ?

 

La démocratisation de la reconnaissance vocale n’est plus à prouver, chacun de nous ou presque possède un assistant vocal, même sans le savoir directement. Les avancées en la matière sont importantes  et se sont accélérées dernièrement. Cette croissance exponentielle donne également lieu à une diversification des applications de la voix, de l’assistant personnel jusqu’à la solution prévue pour un secteur d’activité en particulier.

Nous sommes aujourd’hui dans ce qu’on appelle l’ère des technologies cognitives où nous retrouvons l’Augmented Reality, la Virtual Reality, la reconnaissance visuelles et… la reconnaissance vocale !

Cependant, même si la « Génération Voice » sont les plus aptes à conceptualiser cette technologie car ils naissent en plein dans son expansion, nombreux sont ceux qui en parlent, mais qui sait réellement comment cela fonctionne

Entrons dès maintenant dans le vif du sujet, comment ca marche la reconnaissance vocale ?

*Petit aparté, dans cet article nous allons vous présenter le fonctionnement actuel et le plus courant des technologies vocales, il est évident que d’autres méthodes existent !*

 

« L’union fait la force » : les composants de la reconnaissance vocale.

 

Comme ce titre le présente si bien, le fonctionnement de la reconnaissance vocale se base sur la complémentarité entre plusieurs technologies issues du même domaine. Pour vous présenter tout cela, nous allons détailler chacune d’entre elles chronologiquement, depuis le moment où l’individu parle, jusqu’à la réalisation de l’ordre.

 

technologie reconnaissance vocale vivoka

 

Le Wake-up Word, déclencher le système par la voix.

 

La première étape qui initie l’ensemble du processus s’appelle le Wake-up Word (traduit par « mot déclencheur »). Le but principal de cette brique technologique est en fait d’activer par la voix l’enregistrement complet de l’ordre qui va suivre et être également donné vocalement. Il s’agit en soit de « réveiller » le système. Bien qu’il existe d’autres manières de procéder pour déclencher l’enregistrement, conserver l’utilisation de la voix de bout en bout est selon nous essentiel pour proposer une expérience linéaire avec comme seule interface le vocal.

Le Wake-up Word comporte intrinsèquement plusieurs intérêts en ce qui concerne la conception d’assistants vocaux. Dans notre contexte aujourd’hui, une grande crainte concernant la reconnaissance vocale réside dans la protection des données personnelles liée à l’enregistrement des personnes. Avec l’apparition récente du RGPD (Règlement Général sur la Protection des Données), cette crainte à l’égard du respect de la vie privée et de l’intimité s’est encore amplifiée, avec une juridiction l’encadrant.

C’est pour cela que le Wake-up Word est si important. En encadrant la phase d’enregistrement de la voix par cette action, seules les phrases portant l’intention de l’action à réaliser seront enregistrées et analyser pour assurer le fonctionnement de l’assistant vocal. Pour en apprendre plus sur le Wake-up Word, nous vous invitons à consulter notre article sur le Wake-up Word de Google et les bonnes pratiques pour en trouver un efficace !

 

Le STT (Speech-to-Text), capter et retranscrire la voix en texte.

 

Une fois la reconnaissance vocale initiée grâce au Wake-up Word, il est nécessaire d’exploiter la parole. Pour cela, il est tout d’abord primordial de l’enregistrer et de la numériser via le STT (Speech-to-Text, aussi connu comme la reconnaissance automatique de la parole). Durant cette étape, la voix est captée en fréquences sonores (sous forme de fichiers audios, à l’instar de la musique ou de tout autre bruit) pouvant être exploitées par la suite.

Selon l’environnement d’écoute, des pollutions sonores sont présentes ou non. Afin d’améliorer l’enregistrement de ces fréquences et donc par la même occasion leur fiabilité, différents traitements peuvent être opérés.

  • La normalisation servant à supprimer les pics et les creux dans les fréquences afin d’harmoniser l’ensemble.
  • La suppression des bruits de fond pour améliorer la qualité audio.
  • La découpe des segments en phonèmes (qui sont des unités distinctives au sein des fréquences, exprimées en millième de seconde, permettant de distinguer les mots les uns des autres)

Les fréquences, une fois enregistrées, peuvent être analysées afin d’associer à chaque phonème un mot ou un groupe de mots pour constituer un texte. Cette étape peut être réalisée de différentes manières, mais une méthode en particulier constitue l’état de l’art aujourd’hui : le Machine Learning (Apprentissage Machine). Une sous-partie de cette technologie s’appelle le Deep Learning : un algorithme recréant un réseau de neurones, capable d’analyser une quantité importante d’informations et de constituer une “base de données” répertoriant les associations entre les fréquences et les mots. Chaque association va créer un neurone qui servira à déduire de nouvelles correspondances. Ainsi, plus les informations sont nombreuses, plus le modèle est précis statistiquement parlant et en prenant en compte le contexte général pour attribuer le meilleur mot en fonction des autres déjà définis. Limiter les erreurs du STT est essentiel pour obtenir une reconnaissance vocale efficace !

Par exemple, prenons deux phrases “un verre d’eau” et “un vers d’eau”. Celle qui sera retenue sera la première car “verre” est plus employé que “vers” avec “eau”.

 

Le NLP (Natural Language Processing), comprendre l’intention.

 

Une fois les précédentes étapes effectuées, les données textuelles sont envoyées directement au module NLP (Natural Language Processing). Cette technologie a pour mission principale d’analyser la phrase et d’en extraire un maximum d’information d’ordre linguistique.

Pour ce faire, elle commence par associer des tags aux mots de la phrase, c’est ce qu’on appelle la tokenisation. Ce sont en réalité des “étiquettes” que l’on appose sur chaque mot afin de les caractériser. Par exemple, “je” sera défini comme pronom singulier de la première personne, “allume” comme le verbe définissant une action, “la” comme le déterminant se rapportant à “lumière” qui est un nom propre mais aussi un COD etc… et ce pour chacun des éléments de la phrase.

Une fois ces premiers éléments identifiés, il est nécessaire de donner du sens aux ordres issus de la reconnaissance vocale. C’est pourquoi deux analyses complémentaires sont effectuées.

Tout d’abord, l’analyse syntaxique qui a pour but de modéliser la structure de la phrase. Il s’agit ici d’identifier la place des mots au sein de l’ensemble mais aussi leur position relative par rapport aux autres afin de comprendre leurs relations.

Pour compléter et finir, l’analyse sémantique a pour but, une fois la nature et la position des mots trouvées, de comprendre leur sens individuellement mais également lorsqu’ils sont assemblés dans la phrase afin d’en caractériser une intention générale.

L’importance du NLP dans la reconnaissance vocale réside dans sa capacité à traduire les éléments textuels (soit les mots et phrases) en ordres normalisés, comprenant le sens et l’intention, pouvant être interprétés par l’intelligence artificielle et être réalisés.

 

 

LIVRE BLANC VIVOKA NLP

 

L’intelligence artificielle, alliée de la reconnaissance vocale.

 

Pour réaliser concrètement l’ordre énoncé, l’IA (Intelligence Artificielle) est la pièce maîtresse. Les intelligences artificielles fonctionnent de différentes manières, certaines plus basiques que d’autres.  L’idée principale est de mettre en harmonie plusieurs informations avec par exemple des actions à réaliser, des services extérieurs ou intérieurs à opérer ou des bases de données à consulter.

En d’autres termes, l’intelligence artificielle constitue le cas d’usage lui-même, l’action concrète qui va découler de l’interface vocale. Selon le contexte d’utilisation et la nature de l’ordre, les éléments sollicités et les résultats donnés seront différents.

 

Par exemple, dans un contexte domestique « Allumer la lumière », la représentation pourraient être la suivante :

1. Requête : « Allumer la lumière »

2. Contexte : Pièce de l’habitation, Utilisateurs, État de la lampe : éteint

3. Services externes : Accès aux API (interface de programmation) de la lampe

 

Dans un cas moins pragmatique et plus complexe, « Comment je m’habille demain ? » cela pourrait ressembler à cela :

1. Requête : « Comment je m’habille demain ? »

2. Contexte : Genre de l’utilisateur, Base d’habit de l’utilisateur, Ses derniers achats, Localisation, Calendrier (horaire de rendez-vous etc…)

3. Services : API météo, Service de recommandation d’habits

 

Le TTS (Text-to-Speech), la voix synthétique.

 

Finalement, le TTS (Text-to-Speech) vient conclure le processus. Il correspond au feedback (retour) de l’IA qui se caractérise à travers une voix synthétique. Dans le même esprit que le Wake-up Word, il vient clôturer la reconnaissance vocale en répondant vocalement afin de conserver l’interface conversationnelle de bout en bout.

Ce dernier est utile car il permet de communiquer des réponses à l’utilisateur, symbole d’une interface Homme-machine complète et aussi d’une expérience utilisateur bien conçue. De la même manière, il représente une dimension importante du Voice Marketing car les voix synthétisées sont personnalisables, de la même manière que les phrases dites. Ainsi, le branding des marques peut très largement en bénéficier !

 

 


 

 

Une fois le cycle complété, un individu peut donc converser avec un système et lui donner les ordres à réaliser. Pour récapituler, la phrase est captée, puis interprétée pour ensuite être exécutée sous la forme d’une action qui donne lieu à un feedback de la part du système.

Les plus aguerris d’entre vous l’auront compris, cet article explique de manière très simple une technologie très complexe. L’exhaustivité n’est également pas possible dans son intégralité, les cas d’utilisation étant trop diversifiés, il est difficile de tous les couvrir par une seule explication.

Cependant, nous vous avons présenté l’état de l’art technologique en ce qui concerne la reconnaissance vocale. Ces méthodes sont celles les plus largement utilisées aujourd’hui ! Pour retrouver les différentes briques de la reconnaissance vocale, vous pouvez vous rendre directement sur voice-market.io pour découvrir ce qui se fait de mieux !