« Ok Google, pourquoi ton mot déclencheur fonctionne-t-il si bien ? » est une question que l’on pourrait poser directement à l’assistant vocal de ce géant du numérique. Cependant, la réponse serait très difficile à obtenir d’une intelligence artificielle en raison de la complexité de cette technologie. C’est là que nous entrons en action !
Pour rappel, le Wake-Up Word, aussi appelé Hot Word, est une brique, un module, de reconnaissance vocale au sens global du terme. Il s’agit en fait d’un mot ou d’une série de mots plus généralement qui permettent de déclencher l’enregistrement vocal de l’utilisateur d’un système de reconnaissance vocale. Paradoxalement, vous nous direz, si nous faisons une petite rétrospective de l’actualité de Google, nous pouvons nous rendre compte que leurs assistants aiment écouter un peu plus que ce qui est prévu.
Ce « mot-clé » comme le fameux « Ok Google » est utilisé pour activer le système pour deux raisons :
- Respecter la vie privée des utilisateurs afin que seule la séquence qui suivra le mot de réveil, c’est-à-dire celle qui correspond à l’intention, soit enregistrée.
- Optimiser la consommation et les performances du système, car l’enregistrement et l’analyse constants de fichiers audio est une tâche très lourde si elle est effectuée en continu.
Maintenant que le sens d’un « mot déclencheur » est clair dans nos esprits, nous pouvons aller au cœur du problème qui est de savoir ce qui fait un bon wake-up word. En effet, il semble être plus une question d’image de marque qu’autre chose. Mais, sous cette apparence plutôt simpliste à première vue, trouver LE bon mot peut s’avérer être véritable casse-tête.
En ce sens, la reconnaissance vocale de Google affiche un mot déclencheur assez exemplaire, et ce pour plusieurs raisons.
La simplicité est la clé d’un mot déclencheur
Première bonne leçon de Google et cela vaut surtout pour le marketing ! En effet, leur wake word prend le nom de leur marque qui s’ajoute à un mot très commun et très simple à dire : « ok ». En conséquence, des milliers d’utilisateurs, qu’il s’agisse de l’assistant vocal ou du locuteur, répètent sans cesse Google lorsqu’ils interagissent avec les outils de la marque.
Que pourrait-on faire de mieux en termes de notoriété de la marque ? Déjà que le nom de Google est certainement l’un des plus connus de nos jours, nous vous laissons imaginer le reste.
Pourtant, Alexa d’Amazon est aussi un bon exemple de mot déclencheur puisqu’ils ont décidé de lui attribuer un prénom. En effet, un vrai prénom peut aider à créer une relation plus forte avec les utilisateurs. Ainsi, comme ces derniers associent le nom de l’IA conversationnelle à la marque, cela renforce leur relation avec cette dernière également. Cette stratégie peut s’avérer très efficace, mais il faut garder à l’esprit que la marque devrait déjà être bien établie. Sinon, il est préférable d’y inclure le nom de la marque afin de le faire répéter par les utilisateurs à la façon de Google. Et si vous marque EST un prénom ? Qui sait, c’est peut-être le meilleur scénario possible.
Choisir un mot uniforme
À cela, nous pouvons ajouter un aspect plus pragmatique très bien géré par la reconnaissance vocale de Google. L’une des forces de son wake word est son uniformité : quelles que soient les langues, « ok » et « Google » se disent de la même façon. C’est très pratique pour plusieurs raisons : un seul mot déclencheur est appliqué à tous les marchés couverts par Google ! Cela n’a l’air de rien comme ça, mais il est très compliqué de traduire un mot déclencheur dans différentes langues tout en conservant une certaine cohérence et efficacité. En parlant d’efficacité, continuons sur le troisième point !
Une efficacité optimale
Pour finir avec ces éloges, Google a trouvé une combinaison de mots techniquement très efficace en termes de reconnaissance vocale. Lorsqu’on imagine et développe un mot de réveil, il est très important d’être conscient des faux positifs. Il s’agit des erreurs inattendues qui envoient des réponses positives alors qu’en réalité elles sont négatives. En effet, les phonèmes, les plus petits éléments composant une fréquence audio (son de traduction), sont très proches ; dans ce dernier cas, suite à une mauvaise prononciation, le système peut être activé et enregistrer la conversation à l’insu des utilisateurs.
Ainsi, « Ok » et « Google » sont composés de phonèmes très différents et éloignés, ce qui se traduit par un très faible taux de faux positifs pour la reconnaissance vocale de Google.
L’essor du minimalisme
Ok Google, Hey Siri,… Les assistant vocaux utilisent généralement d’autres mots en complément de leur nom de marque pour leur mot déclencheur. Pour améliorer l’expérience utilisateur, il est évident qu’il y a encore quelques progrès à faire. En effet, répéter « OK Google » ou « Hey Siri » avant chaque phrase pour demander quelque chose à son assistant vocal peut devenir embêtant. C’est pourquoi Google et Apple sont doucement entrain d’abandonner leur « expression déclencheuse » au profit de leur unique nom de marque.
Le mot déclencheur adopté par Apple avec Siri
Apple a récemment annoncé que Siri n’aurait plus besoin d’entendre « Hey » avant son nom. En effet, la marque essaie de changer son mot déclencheur pour rendre l’interaction plus naturelle. Ainsi, appeler « Siri » suffirait. Mais cela n’est pas aussi simple qu’il n’y parait. Comme expliqué plus tôt dans cet article, les mots déclencheurs devraient être assez spécifiques pour être efficaces et robustes.
Avant de retirer complètement des syllabes de l’expression, la marque doit s’assurer que Siri est toujours capable de comprendre lorsqu’il est appelé ou non. Étant donné que cela implique également d’envoyer des données dans le Cloud, les assistants vocaux ne sont pas « supposés » tout enregistrer.
Toutefois, Apple ne serait pas le premier à n’avoir que le nom de son assistant comme wake word. En effet, nous parlions d’Alexa juste avant, cette IA conversationnelle n’a jamais eu besoin d’un mot supplémentaire.
Le choix de Google de lisser le flux de conversation
Google a aussi décidé que son mot déclencheur était trop long et pas assez naturel puisqu’en 2018 l’entreprise a lancé la « conversation continue ». L’utilisateur ne dit le mot déclencheur qu’une fois pour activer l’écoute active, puis il est possible de poursuivre la conversation et donner d’autres commandes vocales sans le répéter. Cela rend la conversation plus naturelle et permet plus de commodité ainsi qu’une meilleure expérience utilisateur.
Il reste important de penser aux différents mots déclencheurs possibles pour s’assurer que l’assistant vocal pourra répondre à toutes les requêtes. Par exemple, en complément au mot clé de base, les appareils de domotiques ou l’électro-ménager intelligent pourraient reconnaître les mots comme « à l’aide ». Cela permettrait d’envoyer une alerte aux autorités en cas d’urgence.
Dans cet article, nous avons vu, à travers différents exemples, ce qui fait un bon mot de réveil et les aspects importants à prendre en compte pour le choisir. Pour en savoir plus sur le reste des technologies vocales, d’autres articles de notre blog couvrent différents sujets qui y sont liés.