La synthèse vocale (TTS), comment l’utiliser et pourquoi ?

La synthèse vocale (abrégée en TTS, Text to Speech), contrairement à la reconnaissance vocale, n’est pas une technologie qui exploite la voix : elle la produit. Les voix synthétiques constituent généralement la phase finale du processus des assistants vocaux. De plus, elles deviennent de plus en plus populaires, des youtubeurs et streamers Twitch jusqu’aux projets complexes menés par les entreprises accompagnées par Vivoka.

 

Pourquoi suscite-t-elle autant d’intérêt ? Tout simplement parce que la synthèse vocale est un élément clé de l’expérience utilisateur vocale (VUX).

 

Qu’est-ce que la synthèse vocale ? Comment fonctionne-t-elle ?

 

La synthèse vocale est définie comme la production artificielle de voix humaines. La principale utilisation (et ce qui a induit sa création) est la capacité de traduire un texte en parole automatiquement. Comment cela fonctionne-t-il ?

Les systèmes de reconnaissance vocale utilisent les phonèmes (les plus petites unités de son) en premier lieu pour découper des phrases. La TTS, elle, sera basée sur ce que l’on appelle des graphèmes. Il s’agit de lettres et groupes de lettres qui transcrivent un phonème. Cela signifie que la ressource de base n’est pas le son, mais le texte. Cela se fait généralement en deux étapes :

  1. Découper le texte en phrases et en mots (nos fameux graphèmes) et à leur attribuer des transcriptions phonétiques, la prononciation ;
  2. Une fois les différents groupes textuels et phonétiques identifiés, il faut convertir ces représentations linguistiques en son. En d’autres termes, lire ces indications pour produire une voix qui lira l’information.

 

Cliquez sur le lecteur pour tester la synthèse vocale sur le paragraphe suivant.

 

[ Attention ! La synthèse vocale ne doit pas être confondue avec les systèmes de réponse vocale, qui sont généralement utilisés dans les transports publics par exemple. Dans ce dernier cas, il s’agit d’une base de données contenant une grande quantité d’informations vocales enregistrées par un ou plusieurs opérateurs. Ces informations, très limitées et contextuelles, seront lues à des moments clés, par exemple un arrêt ou une correspondance. Cette opération est donc beaucoup plus simple qu’un TTS qui va tenter de synthétiser réellement une voix pour chaque texte fourni. Cela ne veut pas dire que les TTS ne sont pas utilisés dans le secteur des transports ! ]

 

Quelles sont ses utilisations ?

 

La technologie de synthèse vocale se retrouve dans une multitude d’applications. Cependant, il est important de savoir que cette technologie a été conçue à l’origine pour aider les personnes handicapées (en particulier les malvoyants) dans leur vie quotidienne. Par exemple, le très célèbre Stephen Hawking, en raison de son grave handicap, a utilisé un TTS pour communiquer avec les personnes de son entourage (vous pouvez l’essayer directement sur ce lien).

Depuis lors, de nombreux cas d’utilisation ont été développés de manière plus ou moins proche de la vertu originelle du TTS. Par exemple, les entreprises de transport utilisent cette technologie afin de transmettre des messages aux passagers par la voix, qu’ils soient handicapés ou non.

Il est très facile aujourd’hui de trouver des traces de TTS dans nos usages. Un autre exemple se trouve dans les moteurs de traduction de langues. Ceux-ci intègrent de la synthèse vocale pour suggérer la prononciation des informations traduites afin de compléter la traduction textuelle.

Un autre secteur qui intègre la synthèse vocale dans les applications embarquées ou dans le Cloud et qui continue de révolutionner les utilisations est le vaste domaine de l’IoT. En effet, dans un univers en pleine expansion, la TTS équipe de plus en plus les appareils intelligents. D’une part pour améliorer l’expérience de l’utilisateur et d’autre part pour améliorer l’accessibilité et l’intelligence des interfaces. Un exemple fort qui continue de progresser est celui des appareils ménagers (également appelés « appliances » en anglais). En effet, ces derniers intègrent de plus en plus souvent de la voix les produits de consommation et les robots.

 

Comment choisir et intégrer la synthèse vocale ?

 

Afin de choisir la bonne synthèse vocale (text-to-speech), il est essentiel de prendre en compte plusieurs critères. Ces paramètres sont les suivants :

  • la langue parlée ;
  • le type de locuteur ;
  • la qualité de la voix ;
  • le fournisseur.

 

Grâce à ces informations, il est plus facile de choisir la solution qui répond à vos besoins et contraintes. En effet, toutes les entreprises proposant des STT n’ont pas des gammes équivalentes. Il est donc très important de rechercher ces partenaires bien avant de commencer. Ensuite, la langue et le type de voix sont des critères importants pour l’expérience utilisateur proposée. En effet, il doit y avoir une cohérence entre l’interface vocale et ce qu’elle doit inspirer.

Du côté de l’intégration, les synthèses vocales sont des technologies qui reposent également sur les notions de « cloud », embarqué ou hybride (également appelé « sur site »). Il faut rappeler que l’embarqué a des limites techniques en termes de stockage de phrases qu’un nuage n’aura pas. Cependant, le vocal embarqué fonctionnera quoi qu’il arrive là où le nuage aura besoin d’une connexion. Ces paramètres sont à prendre en compte selon la nature de vos projets. Dans le transport par exemple, il est recommandé d’utiliser l’embarqué pour assurer un service continu.

Si vous recherchez une solution de synthèse vocale embarquée, nous vous suggérons de vous rendre sur la page Voice Development Kit. Il s’agit de notre kit de développement logiciel qui vous donne accès à une synthèse vocale hors ligne, facilement configurable et intégrable.

 

Pourquoi le text-to-speech est-il essentiel pour la voix ?

 

Qui aujourd’hui n’a jamais entendu les voix de Siri, d’Alexa ou de l’assistant de Google ? Véritables ambassadeurs de la « voix », ces assistants ont tous été directement équipés de la synthèse vocale afin de pouvoir répondre à l’utilisateur. Ce n’est pas négligeable ! Il s’agit précisément de renforcer la relation entre l’homme et la machine par un lien conversationnel… réciproque. L’utilisateur parle à l’assistant et ce dernier répond, comme dans une conversation naturelle entre deux ou plusieurs humains. Cette composante est plus importante que nous ne l’imaginons.

En fait, comme toute innovation, le processus d’adoption est généralement complexe, surtout lorsqu’il entraîne une rupture dans l’usage. La meilleure façon de faire accepter les assistants vocaux est de proposer de nouvelles fonctionnalités qui favorisent leur utilisation. Mais cela permet aussi d’améliorer au maximum l’expérience de l’utilisateur en humanisant la technologie. Ces voix de synthèse ont ensuite permis de donner une identité aux différents assistants, permettant de les différencier, mais aussi de les considérer comme des entités à part entière.

Au-delà d’une simple fonctionnalité (le cours de marketing va commencer), les voix font désormais partie intégrante de l’image de marque ! Certains considèrent même que la voix en est un pilier en devenir. Tout d’abord, elle remplace les images, par nature figées (et surreprésentées dans les médias), par des messages plus engageants. Une image vaut mille mots, une voix vaut mille images ?

L’autre intérêt pour les marques est de se dire que le vivier d’assistants vocaux est déjà important et qu’il tend à l’être encore plus… Alors n’est-ce pas une bonne idée de se mettre en voix avec sa propre voix pour toucher un public aussi large ?

 

Pour les développeurs, par des développeurs

Commencez à développer votre solution d'IA vocale avec le VDK

1

Inscrivez-vous sur la Console

Avant d'intégrer la voix avec le VDK, testez notre Console en ligne.

2

Développez et testez

Définissez et créez votre projet pour développer vos fonctionnalités.

3

Partagez votre projet

Partagez votre projet et discutez-en avec nos experts pour une intégration.

console by vivoka - demo ar/vr francais

C'est toujours le bon moment pour en apprendre plus sur les applications de la technologie vocale