`

Reconnaissance automatique de la parole

Transformez la voix en texte ou en commandes automatiquement grâce à notre technologie de reconnaissance automatique de la parole basée sur la création de grammaire en embarqué.

Reconnaissance automatique de la parole vivoka solution

Qu’est-ce que la reconnaissance automatique de la parole ?

Notre moteur de reconnaissance automatique de la parole 100% hors ligne fonctionne selon une méthodologie centrée sur la création de la grammaire. Ces grammaires sont des dictionnaires de commandes à créer en fonction des cas d’utilisation souhaités.

Ce corpus de commandes, une fois compilé avec un moteur d’apprentissage automatique, fournit une banque de phonétique correspondant aux requêtes.

De plus, un second moteur de Machine Learning permet d’analyser la fréquence sonore résultant des voix enregistrées lors de l’utilisation, et d’associer à chaque segment de cette fréquence, la phonétique la plus appropriée, et donc le mot ou groupe de mots associé.

Ces étapes permettent ainsi de transcrire une phrase complète à partir d’un enregistrement sonore, transformant ainsi la voix en texte.

Nos fonctionnalités incontournables

w

Technologie multilingue

Notre reconnaissance automatique de la parole est capable de traiter 36 langues différentes, les plus couramment parlées afin d’étendre votre solution au monde entier.

Taux d'erreur réduit

Contrairement aux moteurs génériques, qui, souhaitant tout comprendre et tout reconnaître, souvent avec difficulté, nous nous concentrons sur des commandes et des libellés spécialisés.

i

Solution basée sur la grammaire

La reconnaissance automatique de la parole vous permet de définir des mots spécifiques, du jargon métier et des vocabulaires techniques, afin de le spécialiser pour des cas d’utilisation prédéfinis.

Faible utilisation du processeur

Notre solution occupe une charge CPU minimale pour fonctionner grâce à sa conception par grammaire, donc de sa spécialisation, et de la performance technique des outils utilisés pour le créer.

Certains de nos clients utilisent la reconnaissance automatique de la parole

La reconnaissance automatique de la parole est une technologie couramment utilisée dans le monde des interfaces et des assistants vocaux. Certains de nos clients, afin de réaliser leurs projets et innovations, ont développé des fonctionnalités en se basant sur nos technologies.

Votre projet n’a jamais été aussi proche de sa solution !

En parcourant nos projets et nos technologies, vous avez peut-être pu vous faire une idée des possibilités que vous avez en travaillant avec nous. Nous pouvons également vous aider à atteindre vos objectifs.

Liaison et conditionnement des API en fonction du système d’exploitationAndroid :

  • ASR (dans VDK) sera servi avec une liaison Java-API compilée dans une archive Android (AAR).
  • Win/Linux : ASR (au sein de VDK) sera fourni avec une liaison API C++.
  • Apple iOS : ASR (au sein de VDK) sera fourni avec une liaison Swift.

Ports et outils standard

  • iOS (version 7.0 and up): arm64 and x86_64
  • Android (version 5.0 and up): armv7 (32Bit), arm64 and x86_64
  • Linux: armv7 (32Bit), arm64 and x86_64
  • Windows: x86_64

Taille du code de fonctionnalité

  • Application de base de commande et de contrôle (C&C): 3.2MB
  • Fonctionnalité complète, les plus grands modèles acoustiques: 9.5MB

 

Composants et taille relative des données par langue

  • Modèles acoustiques, par langue
    • Gen 4 compact: 900kB
    • Gen 5: approx. 4MB
    • Gen 6: approx. 6MB
  • GLIC – monolingue – Transcriptions à usage général: 300-7300kB
  • GLC – multilingue – Compilation d’une collection de musique: 700-3000kB

Composants et taille relative des données par langue et utilisation totale de la RAM

 

  • Reconnaissance de chiffres: 4kB / 1,25MB
  • Applique basique C&C 100/10,000 commands: 10-500kB / 1,3-1,8MB
  • Téléphonie (numérotation à commande vocale) avec grammaires + SLMs, y compris NLU. 1350 contacts: 0,52MB / 12,6MB
  • Entrée de destination vocale en une seule fois POI et adresses (UDE) tous les États-Unis, basée sur la TSF, y compris l’UAL.: 300MB / 56 MB
  • Dictée vocale embarquée: 100MB / 100MB

Specificités techniques

Notre solution est une technologie embarquée, conçue pour être intégrée dans des appareils. Pour ce faire, ces produits doivent répondre à des critères spécifiques pour gérer la solution et la faire fonctionner correctement pour réaliser vos cas d’usages.

Questions fréquemment posées sur la reconnaissance automatique de la parole

Quelques petites choses à savoir…

Les technologies vocales sont en général des solutions complexe. Nous abordons certains des sujets récurrents à afin de vous donner le maximum d’informations.

u
La solution peut-elle comprendre les lettres et les chiffres ?

Notre reconnaissance automatique de la parole peut en effet identifier des lettres et des chiffres séparés lorsqu’ils sont orthographiés, par exemple une plaque d’immatriculation ou une référence client

u
Est-il capable de reconnaître un vocabulaire spécifique ?

La conception de notre solution est pensée pour comprendre un vocabulaire très spécifique grâce à la création de grammaires spécialisées

u
Quelles sont les spécifications techniques pour l'intégration ?

Les spécifications de la reconnaissance automatique de la parole sont essentielles pour son intégration. Pour avoir accès à ces informations, veuillez nous contacter

u
La reconnaissance automatique de la parole peut-elle fonctionner dans des environnements bruyants ?

La solution peut fonctionner dans des environnements très bruyants si le microphone est adapté aux conditions de bruit (par exemple dans les usines)

u
Quel type de microphone est le mieux adapté à l'écoute ?

La meilleure façon de trouver un microphone adapté est de nous contacter afin de tester différentes alternatives selon votre cas

u
Quel est le taux d'erreur moyen de cette technologie ?

Le WER (Word Error Rate) de notre technologie dépend de la complexité des requêtes et de la qualité du matériel d’écoute

D’autres technologies à découvrir

Voice Development Kit

Kit de développement logiciel pour interface ou assistant vocal multilingue et embarqué

Synthèse vocale embarquée

Génération automatique de voix naturelles multilingues qui fonctionne hors ligne sur l’appareil

Mot déclencheur embarqué

Outil facile pour générer un mot déclencheur multilingue à intégrer dans les appareils