TTS vivoka

La synthèse vocale (TTS), pourquoi est-elle si importante ?

La synthèse vocale (aussi abrégée sous TTS, Text-to-Speech), contrairement à la reconnaissance de la parole, n’est pas une technologie qui exploite la voix, elle la produit. Constituant, généralement, la phase finale du processus, les voix synthétiques se démocratisent de plus en plus. Pourquoi ? Car elles sont importantes dans l’expérience globale du “vocal”, nous vous expliquons pourquoi.

 

C’est quoi le TTS ? Comment ça marche ?

 

La synthèse vocale (TTS) se définit par la production artificielle de voix humaines. L’utilisation principale (et ce qui a induit sa création) est la capacité de traduire un texte en un discours parlé, et ce de manière automatique. Comment cela fonctionne ?
À l’inverse des systèmes de reconnaissance de la parole qui utilisent des phonèmes (les plus petites unités de sons) en premier lieu pour découper les phrases, les TTS vont se baser sur ce qu’on appelle des graphèmes : les lettres et les groupes de lettres qui transcrivent un phonème. Cela veut dire que la ressource de base n’est pas le son, mais bien le texte. Le fonctionnement se fait généralement en deux étapes. La première va découper le texte en phrase et en mots (nos fameux graphèmes) et assigner des transcriptions phonétiques, la prononciation, à tous ces groupes. Une fois les différents groupes texte/phonétique identifiés, la deuxième étape consiste à convertir ces représentations linguistiques en son. En d’autres termes, de lire ces indications pour produire une voix qui lira les informations.

 

Attention ! Le TTS ne doit pas être confondu avec les systèmes de réponses vocales, généralement utilisés dans les transports en commun par exemple. Dans ce dernier cas, il s’agit d’une base de données répertoriant de nombreuses informations vocales enregistrées par un ou plusieurs opérateurs. Ces informations, très limitées et contextuelles, seront lues à des moments clés, par exemple un arrêt ou une correspondance. Ce fonctionnement est donc bien plus simple qu’un TTS qui cherchera à réellement synthétiser une voix pour chaque texte fourni. Cela ne veut pas dire que les TTS ne sont pas utilisés dans le secteur des transports !

 

TTS VDK synthèse vocale

 

Dans quelles utilisations le retrouve-t-on ?

 

On retrouve les TTS dans de multitudes d’applications. Il faut tout de même savoir que cette technologie était initialement pensée pour aider les personnes handicapées (visuellement notamment) dans leur quotidien. Par exemple, le très réputé Stephen Hawking, à cause de son lourd handicap, utilisait un TTS pour communiquer avec les personnes autour de lui (vous pouvez d’ailleurs vous y essayer directement sur ce lien).

 

Depuis, de nombreux cas d’usages ont été développés plus ou moins proche de la vertu d’origine des TTS. Par exemple, comme mentionné précédemment dans le cadre des transports, il s’agit d’utiliser cette technologie pour générer des voix permettant de transmettre des messages aux passagers via la voix, que ces derniers souffrent d’un handicap ou non. Il est aujourd’hui très facile de retrouver des traces de TTS dans nos usages. Un autre exemple se retrouve dans les moteurs de traduction des langues. Ces derniers sont équipés de cette technologie pour suggérer la prononciation des informations traduites afin de compléter la traduction textuelle.

 

Un autre secteur qui intègre la synthèse vocale en embarqué ou cloud qui continue de révolutionner les usages est le domaine large de l’IoT. En effet, univers en pleine expansion, les appareils intelligents s’équipent de plus en plus en TTS, d’une part pour améliorer l’expérience utilisateur et d’autre part en faveur de l’accessibilité et l’intelligence des interfaces. Un exemple fort qui ne cesse de progresser est celui de l’électroménager (aussi connu comme « appliances » en anglais), dotant de plus en plus les produits et robots grands publics avec la voix.

 

Comment choisir et intégrer un TTS ?

 

Pour bien choisir son TTS (text-to-speech) il est primordial de retenir plusieurs critères. Ces paramètres sont les suivants : la langue parlée, le genre du locuteur, la qualité de la voix et le fournisseur. Avec ces différentes informations, il est plus facile de retenir la bonne solution qui correspond à vos besoins et vos contraintes. En effet, les sociétés proposant des TTS ne possèdent pas toutes des gammes équivalentes, il est donc très important de bien sourcer ces partenaires avant de commencer. Ensuite, la langue et le genre de la voix sont des critères importants pour l’expérience utilisateur proposée, il faut de la cohérence entre l’interface vocale et ce qu’elle doit inspirer.

 

Côté intégration, les TTS sont des technologies qui reposent également sur les notions de cloud, embarqué ou hybride (aussi connu comme « on-premise). Il faut retenir que l’embarqué a des limites techniques en termes de stockage de phrase qu’un cloud n’aura pas, pour autant l’embarqué fonctionnera quoiqu’il arrive la où le cloud a besoin d’une connexion. Ces paramètres sont à prendre en compte selon la nature de vos projets, dans les transports par exemple il est recommandé d’utiliser de l’embarqué pour assurer un service continu.

 

Si vous recherchez une solution TTS embarqué, nous vous suggérons de vous rendre sur la page du Voice Development kit, notre kit de développement logiciel qui vous permet d’accéder à de la synthèse vocale offline très facilement configurable et intégrable.

 

Pourquoi cette technologie est-elle primordiale pour le vocal ?

 

Qui aujourd’hui n’a jamais entendu les voix de Siri, Alexa ou de l’assistant Google ? Véritables ambassadeurs de la “voix”, ces assistants ont tous été directement équipés de synthèse vocale afin de pouvoir répondre à l’utilisateur. Ceci n’est pas anodin ! Il s’agit justement de renforcer la relation entre l’humain et la machine à travers un lien conversationnel… réciproque. L’utilisateur parle à l’assistant et ce dernier lui répond, comme dans une conversation naturelle entre deux ou plusieurs humains. Cette composante est plus importante qu’on imagine.

 

En effet, comme toute innovation, le cap de l’adoption est généralement complexe, surtout quand elle apporte une rupture dans les usages. Le meilleur moyen pour faire accepter les assistants vocaux était alors de proposer des fonctionnalités nouvelles favorisant leur utilisation, mais aussi d’améliorer au maximum l’expérience d’utilisation en humanisant la technologie. Ces voix synthétisées ont alors permis de donner une identité aux différents assistants, permettant de les différencier, mais aussi de les considérer comme des entités à part entière.

 

Au-delà d’une simple fonctionnalité (attention le cours de marketing va commencer) les voix sont aujourd’hui partie intégrante de l’image de marque ! Certains estiment même que la voix est un pilier du branding en devenir. Tout d’abord, elle remplace les images, qui par nature sont figées (et en surreprésentation dans les médias), par des messages plus prenants : une image vaut mille mots, une voix vaut mille images ?

L’autre intérêt pour les marques est de se dire que le parc d’assistants vocaux est déjà important et qu’il tend à l’être davantage, ainsi, n’est-ce pas une bonne idée de se lancer dans le vocal avec sa propre voix pour toucher une si grande audience ?