`

Comment la reconnaissance vocale complète les « wearable » basés sur la vision (ft. AMA XpertEye)

Dans notre précédent billet de blog, nous avons évoqué les raisons qui empêchent les lunettes intelligentes (et les « wearable » en général) d’atteindre le taux d’adoption attendu. En tant qu’experts en technologies vocales, notre capacité à résoudre ce problème de manière globale est bien sûr limitée, sinon nous serions des nerds des lunettes intelligentes…

 

Cependant, nous restons fermement convaincus que la voix est l’un des moyens, sinon le plus encourageant, pour mener à bien cette révolution des lunettes intelligentes. Pour combler cette lacune dans la connaissance des lunettes intelligentes, nous avons invité Guillaume Campion, VP Produit et Partenariat d’AMA, un pionnier de la réalité augmentée et des solutions logicielles de gestion des flux de travail, à se joindre à notre réflexion sur les avantages de la voix.

 

NB : AMA travaille avec nous depuis quelques années maintenant, ils ont l’habitude de travailler avec différents fabricants de lunettes intelligentes tels que (Vuzix, RealWear, Google Glass, LIvision…) en leur ajoutant des couches logicielles personnalisées, ainsi qu’en introduisant des technologies vocales intégrées via le Voice Development Kit de Vivoka.

 

Les objets connectées changent de forme grâce aux « wearable »… et son guide d’utilisation aussi !

 

« Les lunettes intelligentes sont en fait des ordinateurs que l’on met sur notre tête. Mais elles ne sont pas conçues pour être utilisées avec nos mains puisqu’elles sont placées près de 4 des 5 autres sens humains : l’ouïe, la vision et la voix. »

 

En effet, ce que Guillaume dit intelligemment, c’est que nous ne pouvons pas continuer à penser à nos technologies avec les mêmes méthodes que celles que nous avons inventées depuis. Porter des ordinateurs nécessite bien sûr de nouveaux concepts d’utilisation. Dans la science-fiction, toute technologie qui ne ressemble pas à un ordinateur est toujours utilisée avec des gestes, la vue, la pensée et la voix.

La seule contradiction que nous ayons vient de la série Dragon Ball Z et du « Power Scanner » qui, étrangement, nécessite d’appuyer sur un bouton. Il était peut-être trop tôt pour que les gens considèrent que la voix était une option, n’oubliez pas que DBZ est sorti en 1989 !

 

 

Quels sont les principaux avantages de l’utilisation de la voix avec des lunettes intelligentes ?

 

Une véritable navigation mains libres, ce pour quoi les lunettes intelligentes sont fondamentalement conçues.

 

Aujourd’hui, les moyens de navigation les plus courants à l’intérieur de nos objets connectés sont l’écran tactile ou les boutons. Même les plus jeunes ont plus qu’intériorisé cela. Mais dans certains cas d’usages, et lorsque la plupart d’entre eux sont liés aux lunettes intelligentes, avoir une disponibilité totale des deux mains est presque obligatoire.

Cette navigation 100% mains libres, assurée par la reconnaissance vocale, est capable de fournir une navigation plus rapide aux utilisateurs. Si vous avez déjà essayé des lunettes intelligentes, vous savez de quoi nous parlons. Les « wearable » tels que les lunettes intelligentes sont vraiment petits et montés sur la tête. Ils n’offrent pas beaucoup d’espace aux concepteurs pour intégrer des boutons ou de grands pavés tactiles qui peuvent être utilisés facilement et avec précision. Nous avons créé une courte vidéo pour comparer le même flux de travail, avec la voix et avec le toucher.

 

 

De même, si vous souhaitez prendre des notes, envoyer un message ou un email, comment pouvez-vous rédiger des textes plus ou moins long sans recourir à des périphériques externes comme un smartphone ? C’est extrêmement compliqué de le faire. La voix permet de communiquer des informations textuelles par la dictée ou la transcription sur des « wearable » compatibles. De plus, les humains dictent plus vite qu’ils n’écrivent, 150 mots contre seulement 60 lorsqu’ils écrivent ou tapent…

 

Cette possibilité de garder les mains totalement libres lors de l’utilisation de l’appareil « wearable » est absolument nécessaire dans les environnements professionnels et encore plus importante selon les domaines dont nous parlons. Télémédecine, ouvriers d’usine, opérateurs à distance… Tous ces cas d’usages impliquent des professionnels qui sont liés à un travail manuel qui exige précision et expertise. Imaginez que vous êtes chirurgien, que vous devez passer d’une application à l’autre, vérifier les signes vitaux, activer le flash, enregistrer une séquence… et en même temps tenir des scalpels et opérer un patient, cela ne semble pas vraiment compatible avec les niveaux de performance et de sécurité requis.

 

 

En abordant les principes de navigation de l’appareil avec une alternative vocale et mains libres, les lunettes intelligentes et les « wearable » en général s’améliorent en termes de sécurité. En discutant avec Guillaume, nous sommes tombés d’accord sur le fait que la technologie peut être une source de distraction car il faut une certaine dose de concentration pour l’utiliser correctement. AMA et Vivoka ont l’habitude de travailler avec différents types d’industries, ces secteurs sont soumis à une tonne de directives, de normes et de réglementations en matière de sécurité. Pour répondre à cette obligation, nous avons constaté que les lunettes intelligentes augmentaient réellement la sécurité dans les zones de travail, simplement parce qu’elles ne gênent pas pendant les opérations et elles aident réellement l’utilisateur, par les fonctions qu’elles fournissent mais aussi par la manière dont elles sont utilisées, à travers la voix et la vue.

Si nous imaginons ce que pourrait être l’avenir (pas si lointain pour être honnête), disposer de technologies de synthèse vocale indiquant aux utilisateurs ce qu’ils doivent faire sous la forme d’instructions de travail ou, par le biais de la reconnaissance d’image, les exigences de sécurité pour le dispositif que l’utilisateur est en train de regarder, seraient des fonctionnalités qui changeraient la donne.

Ces fonctions basées sur l’ouïe pourraient compléter ce que la vision et la voix fournissent actuellement, pour former en quelque sorte un trio d’interactions cognitives.

 

La voix facilite l’adoption et la familiarisation des utilisateurs avec les lunettes intelligentes et les « wearable »

 

« Le fait est qu’avec la voix et la façon dont les commandes vocales sont affichées à l’écran, tout utilisateur sachant lire et parler (selon la prise en charge linguistique de l’appareil au moins) est capable de se familiariser rapidement avec l’interface et d’accomplir des tâches. »

 

Tous les avantages en termes d’ergonomie, d’efficacité, de rapidité ou de sécurité s’unissent pour contribuer à un élément qui peut définir l’avenir d’une innovation : son adoption par les utilisateurs. C’est quelque chose d’important pour tout le monde, mais pour les entreprises qui veulent faire des lunettes intelligentes un outil professionnel pour leurs collaborateurs, cela devient encore plus crucial. La résistance au changement est quelque chose de réel dans toute entreprise et organisation, si les utilisateurs ne refusent pas quelque chose qu’ils ne peuvent pas facilement comprendre ou utiliser, ils prendront plus de temps et demanderont beaucoup d’efforts pour que les choses se passent bien.

Souvenez-vous de l’époque où les gens voulaient abandonner leur bonne vieille feuille de papier pour taper sur des tablettes tactiles… Les lunettes intelligentes peuvent sembler plus perturbatrices, mais elles sont fondamentalement confrontées à la même situation que leurs prédécesseurs. Et en fait, une certaine démocratisation de la technologie a déjà été faite auparavant !

En termes d’adoption de l’usage, la voix est formidable. Basée sur des commandes conçues pour être aussi naturelles et intuitives que possible, il n’y a pas beaucoup d’obstacles qui empêchent les utilisateurs de s’y habituer rapidement et facilement. En suivant le cours de l’IHM (interface homme-machine), l’expérience utilisateur vocale (VUX) crée des directives pour rendre les commandes et les actions aussi « humaines » que possible afin que les utilisateurs puissent réellement interagir avec la technologie comme ils le feraient avec quelqu’un d’autre.

 

Certaines des commandes vocales qui peuvent être utilisées sur les lunettes intelligentes Vuzix (série M400)

 

La voix dans les « Wearable » ne doit pas être considérée comme la seule solution, elle doit toujours compléter les autres

 

Même si nous sommes arrivés à la conclusion que l’utilisation de la voix pour interagir avec les technologies montées sur la tête (et même les autres sortes de « wearable ») est l’une des solutions les plus légitimes, cela reste plus complexe qu’il n’y paraît. Et nous ne parlons pas seulement de technologies. La réponse à cette question dépend principalement de la personne qui utilise l’appareil, de l’endroit où il est utilisé et de son but.

 

Qui utilise l’appareil ?

 

En effet, nous ne sommes pas tous égaux. Les gens peuvent avoir des troubles de la parole qui les empêchent d’utiliser les fonctions vocales, soit parce qu’ils ne peuvent pas parler, soit parce que leur façon de parler n’est pas prise en compte par les moteurs de reconnaissance vocale. De même, toutes les langues ou dialectes du monde n’ont pas été couverts par les moteurs de reconnaissance vocale. Il y a donc encore des personnes dont la langue maternelle ne sera pas reconnue…

 

Où est-il utilisé ?

 

« Vous ne voulez pas que tout le monde sache ce que vous faites ou recherchez. La vie privée est une préoccupation majeure dans la plupart des situations… C’est aussi la raison pour laquelle la reconnaissance vocale embarquée est si demandée. Tout reste dans l’appareil, aucune donnée n’est transférée, aucun enregistrement indésirable… »

 

Les niveaux de bruit peuvent également avoir un impact sur les technologies vocales. Il existe de nombreuses solutions (microphones spécifiques, modèles anti-bruit…) pour répondre à ces problèmes mais parfois, trop de bruit est… trop de bruit. Mais pour arriver à cette situation, il faut aller jusqu’à une centaine de décibels. Durant le CES, nous avons même eu droit à des démonstrations telles que les lunettes intelligentes de Vuzix qui fonctionnaient parfaitement quelle que soit la foule !

 

À quoi sert-il ?

 

De la même manière que certaines personnes ne peuvent pas parler, d’autres n’entendent pas bien ou n’entendent pas du tout, ce qui ne permet pas aux solutions de synthèse vocale d’être exclusives dans ce type de dispositifs. La biométrie vocale doit également être associée à d’autres méthodes d’authentification, pour des raisons de sécurité et de commodité. Dans tous les cas, un appareil ne peut pas se fier entièrement aux commandes vocales. Les interactions des appareils doivent être multimodales pour s’adapter à chaque personne à laquelle ils sont confrontés.

 

« Il y a aussi une chose liée à ce à quoi servent les lunettes intelligentes. Les entreprises recherchent aujourd’hui des solutions qui sécurisent leurs données et la confidentialité globale. Mais les technologies embarquées ne peuvent pas rivaliser avec le Cloud quand les fonctionnalités que nous demandons deviennent trop futuristes. Les entreprises doivent vraiment se remettre en question pour trouver l’équilibre entre résilience et capacités. »

 

Saviez-vous que nous avons organisé un webinar sur ce sujet ?

 

Nous avons résumé ces 3h de discussion en un format court de 30 minutes environ. Voici un extrait de la discussion entre nos experts de Vuzix, AMA et Vivoka !

 

 

Vous voulez voir l’intégralité de la conférence ? Cliquez ici pour y accéder !

 


 

 

FAQ rapide : Démystifier l’utilisation des technologies vocales en répondant aux objections courantes

 

« C’est formidable pour le secteur des verres intelligents et « wearable » de disposer d’outils tels que le Voice Development Kit (VDK), car il permet aux fabricants de verres intelligents d’avoir facilement des UX fantastiques basées sur les commandes vocales. Et grâce à Realwear et à d’autres acteurs, nous savons que cela change réellement la donne en matière d’adoption par les utilisateurs. »

 

Voyons comment le Voice Development Kit que nous fournissons, et qui équipe actuellement des lunettes intelligentes (ou en cours de l’être avec d’autres références…) se débrouille face aux objections communes :

 

« Les technologies vocales embarquées manquent de support linguistique »

  • Nous prenons en charge plus de 40 langues différentes pour les commandes vocales et plus de 60 langues qui peuvent être synthétisées.

 

« Le bruit ruine la qualité audio, et donc la reconnaissance vocale »

  • Nous avons fait plusieurs démonstrations complètes des lunettes intelligentes de Vuzix pendant le CES (le plus grand salon du monde en termes d’innovation), et l’appareil répondait parfaitement malgré le bruit. Il suffit d’avoir un hardware efficace, adapté aux exigences logicielles.

 

« La reconnaissance vocale n’est pas précise »

  • Nous préférons opter pour des commandes spécialisées basées sur la grammaire qui sont faites pour reconnaître parfaitement les commandes attendues.

 

« Vous avez toujours besoin d’une connexion internet, pour avoir une expérience fluide »

  • Les technologies embarquées rendent l’appareil résilient et autonome par rapport à l’internet. La voix partout et à tout moment.

 

« Les assistants vocaux écoutent et enregistrent en permanence »

  • La confidentialité des données peut être garantie par le traitement sur l’appareil.

 

« Les technologies vocales sont coûteuses »

  • Si l’on compare avec les modèles commerciaux « par requête » ou par abonnement, oui, cela peut représenter un coût. Si vous optez pour le traitement sur appareil, vous pouvez trouver des alternatives de licence unique comme nous pouvons le faire.

 

« Nous n’avons pas l’équipe technique ni les compétences pour développer les capacités vocales »