Créer un assistant vocal : conditions préalables importantes.
Avant de commencer un projet vocal, ce que vous êtes sûrement sur le point de faire si vous lisez cet article, il est nécessaire de bien se préparer. En effet, pour créer un assistant vocal ou une interface vocale, avec ou sans VDK, il faut une certaine méthodologie.
Tout d’abord, il est important d’encadrer clairement les cas d’usages qui doivent être développés afin d’offrir l’expérience la plus efficace et la plus agréable pour l’utilisateur (qu’il s’agisse d’un employé ou d’un client final). La définition de ces fonctionnalités nous permet d’estimer les ressources nécessaires (temps, technologies…) pour leur mise en œuvre.
De plus, le VDK est spécialisé dans les assistants vocaux embarqués, il y a donc d’autres paramètres à anticiper. Tout d’abord, cela concerne le matériel prévu pour héberger l’assistant. La capacité de stockage ou le système d’exploitation influenceront largement le développement nécessaire. Une technologie embarquée (également appelée « offline »), contrairement à une technologie « Cloud« , dépend entièrement de son matériel pour fonctionner, mais pas seulement : l’environnement d’utilisation influencera également la nécessité ou non de traiter le son en cas de pollution sonore.
Maintenant que vous avez globalement tous ces éléments à l’esprit, nous pouvons nous atteler à la création de vos cas d’utilisation pour l’assistant vocal intégré dont vous avez besoin. Grâce au Voice development Kit (VDK), 5 étapes seulement sont nécessaires pour disposer d’une solution déjà opérationnelle, très rapidement.
Étape 1 : Démarrer le VDK pour créer un projet et télécharger les ressources nécessaires.
Après le lancement du Voice Development Kit, la première vue est celle de l’espace de travail. Dans cette section, vous avez différentes possibilités : créer un nouveau projet, ouvrir un projet déjà existant ou accéder à la présentation de l’interface (visite guidée ci-dessous).
Pour ce tutoriel, nous allons choisir un assistant « basique » (caractérisé par l’utilisation du widget Simple Assistant Maker) en langue anglaise. En effet, l’outil permet de montrer rapidement et facilement la puissance du VDK, bien que la partie personnalisée soit plus complète et adaptée aux cas d’usages avancés des applications embarquées.
Avant tout, vous pouvez découvrir l’outil avec la « Visite guidée », elle permet en quelques étapes de couvrir les principaux éléments de l’interface sur leurs emplacements et usages respectifs. Il s’agit d’une étape importante pour les nouveaux utilisateurs car l’outil, bien que facile à utiliser, possède une mécanique qu’il est préférable de connaître avant de poursuivre.
Revenons à la première vue présentant le choix entre la création et l’ouverture d’un projet. Dans notre cas, nous allons créer un nouveau projet et choisir « application de base » afin de nous concentrer sur l’utilisation de SAM (Simple Assistant Maker). Une fois les sélections effectuées, un dossier est automatiquement créé dans lequel les fichiers du projet seront regroupés.
Étape 2 : Ouvrez SAM pour créer des requêtes pour l’assistant vocal
Nous parlons de SAM depuis le début, maintenant il est temps de l’utiliser. Le Simple Assistant Maker est un outil créé par Vivoka pour produire rapidement et facilement des cas d’usages vocaux qui se composent d’une demande de l’utilisateur, des réponses de l’assistant et l’exécution d’une action (ici par le biais d’un script). Lorsque vous choisissez « application de base », ce widget est automatiquement téléchargé pour être ajouté à l’espace de travail.
Une fois le plugin glissé sur l’espace de travail, vous aurez une fenêtre sous la forme d’un tableau avec 2 colonnes visibles :
- « Input (ASR) » = la demande soumise à l’assistant.
- « Output (TTS) » = la réponse donnée par le système.
En plus de ces deux premiers champs remplis, d’autres colonnes peuvent être ajoutées, telles que
- « Script » = l’action à réaliser.
- « Post action output (TTS) » = la notification donnée après l’action effectuée.
À titre d’exemple, nous choisirons les requêtes suivantes :
- « Ajoute 3 unités au stock C » avec la réponse « Fait » et un script d’action.
- « Génère le rapport pour l’administrateur » avec la réponse « Le rapport est généré et prêt à être envoyé » et un script d’action.
- « Effectue une sauvegarde du disque dur » avec la première réponse « La sauvegarde sera terminée dans 4 minutes », un script d’action et une réponse finale « La sauvegarde est terminée ».
Ceci, une fois dans SAM, nous donne ce qui suit :
Les scripts doivent être créés en dehors du VDK et associés dans l’interface SAM. Une fois le tableau SAM complété, vous avez la possibilité de lancer la création de l’assistant et de le tester ensuite. Pour ce faire, vous devez disposer d’un microphone comme entrée audio et configurer une voix TTS pour les sorties. Pour ce faire, passez à l’étape 3.
Étape 3 : Évaluer et choisir les différentes voix avec TTS Benchmark
Le Voice Development Kit contient une grande banque de voix pour la synthèse vocale. Celles-ci sont contenues dans la section « add-ons » et la sous-catégorie « voix ». Classées par fournisseur, genre, langue et qualité, les différentes voix sont téléchargeables pour être intégrées à vos projets.
Afin de tester les nombreuses voix disponibles, en dehors de la phrase par défaut du catalogue, le VDK dispose d’un plugin idéalement conçu : le TTS benchmark. Il vous permet de comparer les différentes voix téléchargées entre les langues, les fournisseurs, le genre et la qualité. Il vous suffit de donner une phrase d’exemple et de comparer les différents rendus. Une fois choisies, ces voix peuvent être sélectionnées dans SAM via ses options.
Étape 4 : Tester et corriger les éléments du projet
Maintenant que les requêtes et les scripts sont configurés, et que la voix choisie est la bonne, il ne reste plus qu’à exécuter et à tester les requêtes de SAM. C’est l’étape qui précède l’exportation, il est donc important de s’assurer que le résultat correspond vraiment à vos attentes.
C’est aussi l’occasion de simuler l’expérience souhaitée via l’assistant vocal et éventuellement de la compléter. En effet, la configuration est déjà faite, il ne reste plus qu’à ajouter les différents éléments (entrée, sortie, script et éventuellement sortie post action) pour créer de nouveaux cas d’utilisation.
En cas d’erreur lors de l’exécution de SAM, les détails de la création de l’assistant sont présents dans la partie journaux afin de la corriger. Il peut s’agir d’un élément manquant ou d’un problème de configuration à corriger par exemple.
Si tout correspond à vos attentes, il vous suffit de l’exporter pour intégrer l’assistant dans vos appareils. Passez à l’étape suivante.
Étape 5 : Exportation des fichiers pour l’intégration
La dernière étape pour créer un assistant vocal est celle de l’exportation. Cet outil est ouvert dans la barre de menu du Voice Development Kit, dans « Fichier » puis « Exporter ». Vous obtiendrez ceci.
Tout d’abord, comme pour la création du projet, il est nécessaire de choisir un dossier/emplacement qui sera utilisé pour recevoir le projet exporté.
A côté de celui-ci, deux options sont affichées, de gauche à droite : le système d’exploitation souhaité et l’architecture associée. Pour rappel, il s’agit d’un assistant vocal intégré, en fonction des paramètres techniques de votre matériel, assurez-vous que l’ensemble est compatible !
Dans l’emplacement principal se trouve le détail du projet utilisé lorsque vous avez décidé d’exporter, il sera choisi par défaut. Dans notre cas, il contiendra logiquement SAM et le Benchmark TTS. Tous les widgets exportables seront choisis en fonction de l’architecture précédemment choisie, ceux qui ne sont pas exportables seront simplement désactivés.
Une fois que tous les éléments ont été remplis et confirmés, l’exportation peut être lancée. En cas de problème, une fenêtre de log (comme sur l’aperçu précédent) montrera les détails du processus d’exportation et signalera la ou les erreurs potentielles.
Le Voice Development Kit, une solution miracle pour créer un assistant vocal intégré ?
Au terme de ces 5 étapes, vous disposerez d’un assistant vocal embarqué prêt à être utilisé dans vos appareils. Dans notre cas, environ 60 minutes ont été nécessaires pour créer l’assistant et l’intégrer. Évidemment, ce temps évoluera en fonction de la complexité de votre projet.
Cette efficacité et cette facilité à développer des interfaces vocales embarquées proviennent du Voice Development Kit (VDK). Ce SDK avec interface graphique permet à toute entreprise et à tout développeur de créer et de configurer un assistant vocal hors ligne composé d’une ou plusieurs technologies (transcription, synthèse, gestion de la grammaire…) en un temps record.
Pourquoi utiliser le Voice Development Kit ?
Pourquoi ne pas utiliser le VDK précisément ? C’est le seul outil disponible aujourd’hui, spécialisé dans la voix embarquée. Outre le fait qu’il facilite grandement le développement, il permet de gagner du temps sur les différents processus afin d’offrir la meilleure délivrabilité possible.
Ce temps peut facilement être comptabilisé dans les ressources humaines, ce qui coûte beaucoup à l’entreprise en interne, autant qu’en externalisant le projet à une société. Normalement, les solutions vocales proposées sont rarement adaptées aux contraintes de l’entreprise. Il est donc très souvent nécessaire d’adapter la technologie et cela a un coût, d’autant plus que les garanties d’une solution opérationnelle ne sont pas élevées.
Le VDK a été conçu avec ces problèmes comme premier point de difficulté à résoudre. Pour cette raison, il offre une utilisation intuitive et une autonomie importante aux entreprises, pour un coût réduit par rapport au résultat offert.
Aujourd’hui, le VDK est un outil spécialisé pour les technologies vocales embarquées. Demain, il continuera à évoluer pour offrir de nouvelles technologies, de nouveaux modules complémentaires et toujours plus de facilité pour créer vos assistants vocaux.
Quels sont les domaines d’activité concernés ?
Le fait que le Voice Development Kit soit un logiciel à usage général permet à toutes les entreprises de l’utiliser. En effet, il n’a pas à l’origine une spécialisation commerciale, bien que les outils disponibles permettent de personnaliser les cas d’utilisation afin de les adapter à la réalité de nos clients.
Ainsi, que ce soit dans la logistique, la robotique, l’IoT ou l’industrie spécialisée, il n’y a pas d’obstacles à l’utilisation du VDK pour créer un assistant vocal.