La reconnaissance vocale est un usage qui n’est plus à prouver. En effet, les interfaces vocales et assistants vocaux sont aujourd’hui plus performants que jamais et se développent dans de nombreux domaines. Cette croissance exponentielle et continue donne lieu à une diversification des applications de la reconnaissance vocale et des technologies liées.
Actuellement, nous nous trouvons dans une ère régie par les technologies cognitives où nous retrouvons la réalité virtuelle ou augmentée, la reconnaissance visuelle et la reconnaissance vocale !
Cependant, même si la « Génération Voice » sont les plus aptes à conceptualiser cette technologie car ils naissent en plein dans son expansion, nombreux sont ceux qui en parlent, mais peu savent réellement comment cela fonctionne et quelles sont les solutions disponibles.
Et c’est pour cette même raison que nous vous proposons de découvrir la reconnaissance vocale en détail à travers cet article. Bien entendu, il s’agit ici du nécessaire pour comprendre le domaine des technologies vocales, d’autres articles de notre blog couvrent plus amplement certains sujets.
« L’union fait la force » : les composants de la reconnaissance vocale
Pour les explications qui vont suivre, nous partons du principe que la “reconnaissance vocale” correspond à un cycle d’utilisation complet de la voix.
Le fonctionnement de la reconnaissance vocale se base sur la complémentarité entre plusieurs technologies issues du même domaine. Pour vous présenter tout cela, nous allons détailler chacune d’entre elles chronologiquement, depuis le moment où l’individu parle, jusqu’à la réalisation de l’ordre.
Il faut noter que les technologies présentées ci-après peuvent être utilisées indépendamment des autres et couvrir énormément d’applications. Nous y reviendrons plus tard.
Le mot clé déclencheur (wake word), activer la reconnaissance vocale, avec la voix
La première étape qui initie l’ensemble du processus s’appelle le mot clé déclencheur (traduit régulièrement par « wake word » en anglais). Le but principal de cette première technologie du cycle est d’activer par la voix l’écoute de l’utilisateur afin de relever la commande vocale qu’il souhaite réaliser.
Ici, il s’agit littéralement de « réveiller » le système. Bien qu’il existe d’autres manières de procéder pour déclencher l’écoute, conserver l’utilisation de la voix tout au long du cycle est selon nous essentiel. En effet, elle permet de proposer une expérience linéaire avec comme seule interface le vocal.
Le mot clé déclencheur comporte intrinsèquement plusieurs intérêts en ce qui concerne la conception d’assistants vocaux.
Dans notre contexte, une des principales craintes concernant la reconnaissance vocale réside dans la protection des données personnelles liée à l’enregistrement audio. Avec l’apparition récente du RGPD (Règlement Général sur la Protection des Données), cette crainte à l’égard du respect de la vie privée et de l’intimité s’est encore amplifiée, poussant la création d’un traité l’encadrant.
C’est pour cela que le mot déclencheur est si important. En conditionnant la phase d’enregistrement de la voix par cette action, tant que le mot clé n’a pas été clairement identifié, rien n’est enregistré théoriquement. Oui, théoriquement, car selon la politique de l’entreprise vis-à-vis des données, tout est relatif. Pour se prémunir de cela, la reconnaissance vocale embarquée (hors-ligne) est une alternative.
Une fois l’activation confirmée, seules les phrases portant l’intention de l’action à réaliser seront enregistrées et analysées pour assurer le fonctionnement du cas d’usage.
Pour en apprendre plus sur le Wake-up Word, nous vous invitons à consulter notre article sur le mot déclencheur de Google et les bonnes pratiques pour trouver le vôtre !
Le Speech to Text (STT), identifier et retranscrire la voix en texte
Une fois la reconnaissance vocale initiée grâce au mot déclencheur, il est nécessaire d’exploiter la voix. Pour cela, il est tout d’abord primordial de l’enregistrer et de la numériser avec une technologie de Speech to Text (aussi connue comme la reconnaissance automatique de la parole).
Durant cette étape, la voix est captée en fréquences sonores (sous forme de fichiers audios, à l’instar de la musique ou de tout autre bruit) pouvant être exploitées par la suite.
Selon l’environnement d’écoute, des pollutions sonores sont présentes ou non. Afin d’améliorer l’enregistrement de ces fréquences et donc par la même occasion leur fiabilité, différents traitements peuvent être opérés.
- La normalisation servant à supprimer les pics et les creux dans les fréquences afin d’harmoniser l’ensemble
- La suppression des bruits de fond pour améliorer la qualité audio
- La découpe des segments en phonèmes (qui sont des unités distinctives au sein des fréquences, exprimées en millième de seconde, permettant de distinguer les mots les uns des autres
Les fréquences, une fois enregistrées, peuvent être analysées afin d’associer à chaque phonème un mot ou un groupe de mots pour constituer un texte. Cette étape peut être réalisée de différentes manières, mais une méthode en particulier constitue l’état de l’art aujourd’hui : le Machine Learning (Apprentissage Machine).
Une sous-partie de cette technologie s’appelle le Deep Learning : un algorithme recréant un réseau de neurones, capable d’analyser une quantité importante d’informations et de constituer une base de données répertoriant les associations entre les fréquences et les mots. Ainsi, chaque association va créer un neurone qui servira à déduire de nouvelles correspondances.
De ce fait, plus les informations sont nombreuses, plus le modèle est précis statistiquement parlant et capable de prendre en compte le contexte général pour attribuer le meilleur mot en fonction des autres déjà définis.
Limiter les erreurs du STT est essentiel pour obtenir l’information la plus fiable afin de procéder aux étapes suivantes.
Le NLP (Natural Language Processing), traduire le langage humain en langage machine
Une fois les précédentes étapes effectuées, les données textuelles sont envoyées directement au module NLP (Natural Language Processing). Cette technologie a pour but principal d’analyser la phrase et d’en extraire un maximum de données linguistiques.
Pour ce faire, elle commence par associer des tags aux mots de la phrase, c’est ce qu’on appelle la tokenisation. Ce sont en réalité des “étiquettes” que l’on appose sur chaque mot afin de les caractériser. Par exemple, “Ouvre” sera défini comme le verbe définissant une action, “le” comme le déterminant se rapportant à “Voice Development Kit” qui est un nom propre mais aussi un COD etc… et ce pour chacun des éléments de la phrase.
Dès que ces premiers éléments sont identifiés, il est nécessaire de donner du sens aux ordres issus de la reconnaissance vocale. C’est pourquoi deux analyses complémentaires sont effectuées.
Tout d’abord, l’analyse syntaxique qui a pour but de modéliser la structure de la phrase. Il s’agit ici d’identifier la place des mots au sein de l’ensemble mais aussi leur position relative par rapport aux autres afin de comprendre leurs relations.
Pour compléter et finir, l’analyse sémantique qui, une fois la nature et la position des mots trouvées, va tâcher de comprendre leur sens individuellement mais également lorsqu’ils sont assemblés dans la phrase afin d’en traduire une intention générale de l’utilisateur.
L’importance du NLP dans la reconnaissance vocale réside dans sa capacité à traduire les éléments textuels (soit les mots et phrases) en ordres normalisés, comprenant le sens et l’intention, pouvant être interprétés par l’intelligence artificielle associée et être réalisés.
L’intelligence artificielle, alliée nécessaire de la reconnaissance vocale
Tout d’abord, l’intelligence artificielle, bien qu’intégrée dans le processus des précédentes technologies, n’est pas toujours indispensable pour réaliser les cas d’usages. En effet, si nous parlons de technologies connectées (donc Cloud), l’IA aura son utilité. D’autant plus que la complexité de certains cas d’usages, notamment sur les informations à corréler pour les produire, la rend obligatoire.
Par exemple, il est parfois nécessaire de confronter plusieurs informations avec des actions à réaliser, des intégrations de services extérieurs ou intérieurs ou des bases de données à consulter.
En d’autres termes, l’intelligence artificielle constitue le cas d’usage lui-même, l’action concrète qui va découler de l’interface vocale. Selon le contexte d’utilisation et la nature de l’ordre, les éléments sollicités et les résultats donnés seront différents.
Prenons un cas concret. Vivoka a permis la création d’un casque de moto connecté qui permet d’utiliser des fonctionnalités avec la voix. Différents usages sont disponibles, comme l’utilisation du GPS ou de la musique.
La requête « Emmène moi à une station service sur le chemin » va renvoyer un ordre normalisé à l’intelligence artificielle avec l’intention de l’utilisateur :
- Contexte : Type de carburant du véhicule, Préférence de prix (influe sur la distance à parcourir)
- Services externes : Appeler l’API du fournisseur de solution GPS
- Action à réaliser : Conserver le trajet actuel, rajouter une étape sur l’itinéraire
Ici, l’intelligence utilisée par notre système va soumettre des informations et une requête à un service extérieur qui dispose d’une intelligence spécialisée pour nous renvoyer le résultat à opérer chez l’utilisateur.
L’IA est donc une pièce maîtresse dans de nombreuses situations. Cependant, pour des fonctionnalités embarquées (donc hors-ligne), les besoins sont moindres, se rapprochant plus de la réalisation de commandes simples comme la navigation sur une interface ou le compte-rendu d’actions. Il s’agit ici d’avoir des cas d’usages spécifiques qui ne nécessitent pas de consulter des informations multiples.
Le Text to Speech (ou synthèse vocale), pour répondre à l’utilisateur et l’informer
Finalement, le TTS (Text-to-Speech) vient conclure le processus. Il correspond au feedback (retour) du système qui se manifeste à travers une voix synthétique. Dans le même esprit que le Wake-up Word, il vient clôturer la reconnaissance vocale en répondant vocalement afin de conserver l’homogénéité de l’interface conversationnelle.
La synthèse vocale est construite à partir de voix et de sons humains diversifiés selon la langue, le genre, l’âge ou l’humeur. Les voix synthétiques sont ainsi générées en temps réel pour dicter des mots ou phrases à travers un assemblage de phonétique.
Cette technologie de la reconnaissance vocale est utile car elle permet de communiquer des informations à l’utilisateur, symbole d’une interface Homme-machine complète et aussi d’une expérience utilisateur bien conçue.
De la même manière, elle représente une dimension importante du Voice Marketing car les voix synthétisées sont personnalisables pour correspondre à l’image des marques qui l’utilisent.
Les différentes solutions de reconnaissance vocale
Le marché de la reconnaissance vocale est un environnement très évolutif. Étant donné que les cas d’usages naissent et se réinventent constamment avec le progrès technologique, l’adoption des solutions vocales tire l’innovation vers le haut et attire de nombreux acteurs.
Aujourd’hui sur le marché, on peut dénombrer des grandes catégories d’usages liés à la reconnaissance vocale.
Les assistants vocaux
On retrouve alors les GAFA et leurs assistants virtuels multi-supports (smart speaker, téléphone etc…) mais également des initiatives propres aux autres entreprises. La personnalisation des assistants vocaux est un courant en marge de la domination du marché par les GAFA, là où les marques souhaitent retrouver leur gouvernance technique.
Par exemple, KSH et son casque de moto connecté font partie des ces acteurs avec des besoins spécifiques, tant marketing que fonctionnels.
Les interfaces vocales professionnelles
Nous parlons ici d’outils de productivité pour les collaborateurs. Un des secteurs en pleine croissance est la supply chain avec le pick-by-voice. Il s’agit d’un dispositif vocal qui permet aux opérateurs d’utiliser la reconnaissance vocale pour travailler plus efficacement et de manière plus sécuritaire (main-libres, concentration…). Les commandes vocales s’apparentent ici à des compte-rendus d’actions et des confirmations d’opérations effectuées.
Les possibilités pour gagner en productivité pour les entreprises sont nombreuses. Des cas d’usages existent déjà et d’autres sont amenés à naître.
Les logiciels de reconnaissance vocale
La dictée vocale par exemple est un outil déjà utilisé par des milliers d’individus, personnellement ou professionnellement (comme le cabinet DS Avocats). Elle permet de dicter vocalement du texte (qu’il s’agisse de mails ou de compte-rendus) à un rythme de 180 mots par minute là où la saisie manuelle est en moyenne de 60 mots par minute. L’outil apporte donc productivité et confort dans la création documentaire à travers un moteur de transcription vocale adapté à la dictée.
Les objets connectés
Le monde de l’IoT est également friand des innovations vocales. Cela concerne souvent des fonctionnalités de navigation ou d’utilisation des appareils. Qu’il s’agisse de matériel domotique ou de produits plus spécialisés comme les miroirs connectés, la reconnaissance vocale promet de belles perspectives.
Les plus aguerris d’entre vous l’auront compris, cet article explique de manière succincte et introductive une technologie et des usages complexes. De la même manière, les outils que nous avons présentés sont une conception précise des technologies vocales, cela ne constitue par la norme, bien qu’il s’agisse des conceptions les plus courantes.
Pour avoir plus d’informations sur la reconnaissance vocale et ses capacités, nous vous recommandons de parcourir notre blog à la recherche de plus d’informations ou de nous contacter directement pour échanger à ce propos !