+33 (0)9 71 00 03 70 contact@vivoka.com

TTS (Text-to-Speech) embarqué

Système intégré pour produire une voix synthétique en temps réel (TTS) afin de vocaliser vos cas d’usages.

text to speech voice synthesis

Qu’est-ce que le TTS (Text-to-Speech) ?

Le TTS, également connu sous le nom de synthèse vocale ou Text-to-Voice, est une technologie utilisée pour créer une voix en temps réel afin de dicter un texte configuré. Ces voix synthétiques peuvent être sélectionnées en fonction de la langue, du genre et de la qualité.

Le langage humain est rempli de nombreuses particularités qui le rendent aussi riche que complexe. Pour produire le langage humain le plus précis possible, des paramètres tels que la hauteur, la vitesse, la puissance, l’émotion et la prononciation des mots peuvent être personnalisés.

Le Text-to-Speech est un élément clé des interfaces vocales en raison de son rôle de rétroaction dans l’interaction homme-machine. Tout en améliorant l’expérience de l’utilisateur, la synthèse vocale est un excellent outil pour améliorer l’accessibilité des services et des produits pour les personnes malvoyantes.

Nos fonctionnalités incontournables

w

Voix multilingues

Notre TTS (Text-to-Speech) est disponible en 65 langues qui couvrent la grande majorité des locuteurs et des besoins afin de vocaliser tout cas d’usage.

Voix personnalisables

De nombreux paramètres sont à votre disposition, tels que la hauteur, la vitesse, la puissance, l’émotion, la prononciation… pour adapter encore mieux la voix à son contexte.

i

Grande sélection de voix

Plus de 100 voix sont disponibles. Elles sont triées par sexe, par émotion et par qualité pour vous permettre de personnaliser les réponses que vous donnez à vos utilisateurs.

Faible utilisation du processeur

Notre TTS occupe une charge CPU minimale pour fonctionner. Cette capacité provient de sa conception légère et des performances techniques des outils utilisés pour le créer.

Certains de nos clients utilisent le Text-to-Speech

Le TTS (text-to-Speech) est une technologie couramment utilisée dans le monde des interfaces et des assistants vocaux, notamment en termes de retour audio et d’informations utilisateur. Certains de nos clients, afin de réaliser leurs projets et innovations, ont développé des fonctionnalités intéressantes grâce à notre TTS embarqué.

Votre projet n’a jamais été aussi proche de sa solution !

En parcourant nos projets et nos technologies, vous avez peut-être pu vous faire une idée des possibilités que vous avez en travaillant avec nous. Nous pouvons également vous aider à atteindre vos objectifs.

Logiciel d’exploitation pour la plate-forme SDK embarquée

  • Windows: 32-bit and 64-bit
  • Linux x86: 32-bit and 64-bit

Ports et outils standard

  • Linux ARM: ARM32 Hardfp, ARM32 Softfp, ARM64
  • Android v4.0 (Ice Cream Sandwich), API level 14+, ARM32-v7a Android v7.0 (Nougat), API level 24+, ARM64-v8a
  • iOS: arm64, armv7, armv7s, i386 and x86_64 simulator

La taille du code d’un moteur TTS embarqué complet est de 10 à 13,5 Mo selon la plate-forme cible. Ce code peut être optimisé en fonction du jeu de langage requis, des fonctionnalités et du choix du compilateur.

Voice Operating Point (VOP) avec la taille relative de la mémoire flash (sans code) et l’utilisation de la mémoire vive.

  • Embedded Compact – Petit TTS polyvalent adapté aux plates-formes restreintes
    • Flash Size: Ave. 10MB / Max. 21MB
    • RAM Usage: Ave. 6MB / Max. 23MB
  • Embedded Pro – TTS de haute qualité optimisé pour la navigation, la lecture d’informations et les capacités de lecture
    • Flash Size: Ave. 55MB / Max. 131MB
    • RAM Usage: Ave. 14MB / Max. 38MB
  • Embedded High – Lecture TTS de haute qualité pour les SMS, les nouvelles, les e-mails sur des cibles intégrées
    • Flash Size: Ave. 120MB / Max. 325MB
    • RAM Usage: Ave. 24MB / Max. 69MB
  • Embedded Premium – Synthèse concaténative de très haute qualité basée sur l’apprentissage profond, voix sélectionnée uniquement
    • Flash Size: Ave. 337MB / Max. 159MB
    • RAM Usage: Ave. 558MB / Max. 198MB

Les voix multilingues comprennent du matériel enregistré pour une ou plusieurs langues étrangères. Elles sont disponibles pour tous les points d’exploitation, à l’exception d’Embedded Compact, et nécessitent jusqu’à 50 % de mémoire supplémentaire (flash et RAM) par rapport aux chiffres ci-dessus.

Exigences techniques

Notre technologie de synthèse vocale (TTS) est une technologie embarquée qui est faite pour être intégrée dans des appareils. Pour ce faire, ces produits doivent répondre à des critères spécifiques pour gérer la synthèse vocale et la faire fonctionner correctement afin de répondre à votre cas d’utilisation.

Questions fréquemment posées sur le TTS

Quelques petites choses à savoir…

Le text-to-Speech peut être délicat car il s’agit d’une technologie complexe. Nous abordons certains des sujets récurrents à afin de vous donner le maximum d’informations.

u
Est-il possible de personnaliser la voix générée à partir du moteur TTS ?

Plusieurs paramètres peuvent être modifiés directement tels que la hauteur, la vitesse, la puissance, l’émotion ou la prononciation

u
Les voix synthétiques ont-elles des limites en termes de longueur des mots ?

Vous pouvez produire des textes vocalisés aussi long que vous souhaitez et optimiser le paramètre de la voix pour qu’elle soit naturelle

u
Quelles sont les spécifications techniques pour l'intégration du Text-to-Speech ?

Les spécifications de synthèse vocale sont essentielles pour son intégration. Pour avoir accès à ces informations, veuillez nous contacter

u
Y a-t-il un matériel nécessaire pour jouer les voix synthétiques ?

Le Text-to-Speech vous permet de créer des voix dans différentes extensions de fichiers, en particulier les plus populaires (mp3, wav…)

u
Comment produire une voix synthétique qui ne sonne pas "robot" ?

Dans la plupart des cas, la hauteur, la vitesse et les pauses sont en cause. Ces paramètres sont personnalisables avec notre TTS

u
Le TTS est-il capable de dire des mots spécifiques ou peu courants ?

L’éditeur phonétique vous permet de créer une phonétique personnalisée pour les mots qui pourraient être mal prononcés

D’autres technologies à découvrir

Voice Development Kit

Kit de développement logiciel pour interface ou assistant vocal multilingue et embarqué

Speech to Text

Technologie utilisée pour transformer automatiquement la voix en texte

Mot déclencheur embarqué

Outil facile pour générer un mot déclencheur multilingue à intégrer dans les appareils