La voix, notre expertise

Nous le revendiquons : nous sommes motivé par le fait de réaliser un produit parfait.

La transformation numérique a mis les machines, les applications, les bornes d’informations et l’ensemble des autre types de plateformes informatique  au coeur de notre quotidien. Notre ambition est simple : nous avons la volonté d’améliorer l’interaction homme-machine, donc de vos clients/utilisateurs avec vos services, tout cela par le biais de la voix.

Qu’importe votre domaine, notre métier est de répondre à la totalité des attentes de vos utilisateurs ou clients, en prenant en compte l’ensemble de la situation, avec une qualité de réponse encore inégalée. Depuis notre création, les années de recherche que nous avons effectué nous permettent aujourd’hui de travailler sur les problématiques à la pointe de ce domaine, connu sous le nom de reconnaissance vocale.

 

De nombreuses étapes interviennent lors du processus de communication entre un humain et un assistant vocal.

Dans les grandes lignes, l’ensemble des étapes peuvent se dissocier en 5 briques :

1. Le mot déclencheur

Aussi appelé HotWord ou Wake up Word, le Hotword est la première étape du procédé de reconnaissance vocale. Il se matérialise par la détection d’un mot-clé prédéfini qui déclenche le système. Dès que ce mot clef est entendu, la phase d’écoute du système démarre. Par exemple, “Dis Siri”, “Ok Google” ou encore “Alexa” sont des Wake up Word. Chez Vivoka, nous avons la capacité de personnalisé ce mot-clé ou d’y trouver des alternatives.

2. La transformation de la voix en texte

L’ASR ou STT (Automatic Speech Recognition ou Speech to Text), est une étape qui permet de convertir la voix de l’utilisateur (qui est sous forme de son), en texte écrit (lisible par l’homme). La complexité et l’efficacité de cette étape de compréhension dépend de différents facteurs comme la langue, l’accent, le bruit alentours, les mots d’argots et la qualité du micro. Nous faisons en sorte d’avoir le meilleur niveau de compréhension orale-écrite possible.

3. La compréhension des intentions de l’utilisateur (contextualisation)

Connue sous le nom de NLP (Natural Language Computing) ou NLU (Natural Language Understanding), cette étape consiste en une analyse sémantique de la phrase afin d’en extraire une ou plusieurs intentions, souvent accompagnées d’éléments de contexte associés.

A la voix, nous n’avons pas le choix comme sur une application entre 2, 5 ou 10 boutons, mais entre des millions de mots pour exprimer nos attentes. Une de nos spécialités est donc d’avoir conçu un système capable de comprendre exactement ce que souhaite l’utilisateur, dans le bon contexte.

4. L’intelligence artificielle

Une des étapes importantes du processus est l’intelligence artificielle. Qu’importe la communication que vous avez pu apercevoir sur différentes IA super-développées, celle qui vous correspondra, sera celle qui aura été conçue pour votre métier et à partir des données de vos utilisateurs. C’est pourquoi, grâce à des intentions bien identifiées par notre module NLP et à des contextes précis, nous faisons en sorte de concevoir une intelligence artificielle sur-mesure, totalement adaptée à vos besoins.

5. La machine répond

Le TTS (Text To Speech) est la dernière brique du processus et est un module communément appelé “synthèse vocale”. Il est utilisé pour transformer un texte écrit (en français par exemple) en un son se rapprochant le plus possible d’une voix humaine. Ce module est utilisé par l’Intelligence artificielle pour répondre à l’utilisateur et peut avoir une voix communément utilisée ou réalisée sur mesure en fonction de vos besoins.
La compréhension des intentions de l’utilisateur.

Identifiez ce que veut votre client, et proposez lui. C’est tout.

L’expérience acquise durant les divers développements que nous avons effectués nous a permis d’acquérir de l’expertise sur différents types d’Intelligence Artificielle, que ce soit sur une notion de Cloud ou d’embarqué, en répondant aux problématiques de délais, de sécurité ou encore de Big Data. Nous mettons un point d’honneur à comprendre votre contexte et votre environnement. C’est notre méthode de différenciation, et la seule pour vous d’obtenir une solution entièrement adaptée à votre activité.

D’où vient l’équipe ?

 

Notre capacité à vous proposer les meilleurs services réside dans notre pôle R&D qui se doit d’être toujours à jour sur les avancés du secteur. Issus de différents horizons comme le CNRS, l’INRIA, Epitech, nos spécialistes sont recrutés pour leurs compétences, mais également pour leur vision et leur passion du domaine dans lequel ils progressent.

A la pointe de la recherche


En parallèle de l’amélioration constante de notre solution, notre pôle R&D se spécialise dans de nouveaux domaines, notamment le Speech to Emotion, processus permettant d’extraire les émotions de l’utilisateur en un contexte supplémentaire, qui permettra de perfectionner, encore plus, notre intelligence artificielle.

Pour en savoir plus sur nos activités de R&D