+33 (0)9 71 00 03 70 contact@vivoka.com

La synthèse vocale (TTS), comment l’utiliser et pourquoi ?

text to speech voice synthesis
Favicon Vivoka Author

écrit par Vivoka

25 février 2021

La synthèse vocale (également abrégée en TTS, Text to Speech), contrairement à la reconnaissance vocale, n’est pas une technologie qui exploite la voix, elle la produit. Les voix synthétiques constituent généralement la phase finale du processus et deviennent de plus en plus démocratiques. Pourquoi en est-il ainsi ? Parce qu’elles sont importantes dans l’expérience globale de la « voix », nous expliquons pourquoi.

 

Qu’est-ce que la synthèse vocale ? Comment fonctionne-t-elle ?

 

La synthèse vocale (TTS) est définie comme la production artificielle de voix humaines. La principale utilisation (et ce qui a induit sa création) est la capacité de traduire un texte en parole automatiquement. Comment cela fonctionne-t-il ?

Contrairement aux systèmes de reconnaissance vocale qui utilisent les phonèmes (les plus petites unités de son) en premier lieu pour découper des phrases, la TTS sera basée sur ce que l’on appelle des graphèmes : les lettres et groupes de lettres qui transcrivent un phonème. Cela signifie que la ressource de base n’est pas le son, mais le texte. Cela se fait généralement en deux étapes.

La première consiste à découper le texte en phrases et en mots (nos fameux graphèmes) et à attribuer à tous ces groupes des transcriptions phonétiques, la prononciation. Une fois les différents groupes textuels et phonétiques identifiés, la deuxième étape consiste à convertir ces représentations linguistiques en son. En d’autres termes, lire ces indications pour produire une voix qui lira l’information.

Attention ! La synthèse vocale ne doit pas être confondue avec les systèmes de réponse vocale, qui sont généralement utilisés dans les transports publics par exemple. Dans ce dernier cas, il s’agit d’une base de données contenant une grande quantité d’informations vocales enregistrées par un ou plusieurs opérateurs. Ces informations, très limitées et contextuelles, seront lues à des moments clés, par exemple un arrêt ou une correspondance. Cette opération est donc beaucoup plus simple qu’un TTS qui va tenter de synthétiser réellement une voix pour chaque texte fourni. Cela ne veut pas dire que les TTS ne sont pas utilisés dans le secteur des transports !

 

Quelles sont ses utilisations ?

 

La synthèse vocale se retrouve dans une multitude d’applications. Cependant, il est important de savoir que cette technologie a été conçue à l’origine pour aider les personnes handicapées (en particulier les malvoyants) dans leur vie quotidienne. Par exemple, le très célèbre Stephen Hawking, en raison de son grave handicap, a utilisé un TTS pour communiquer avec les personnes de son entourage (vous pouvez l’essayer directement sur ce lien).

Depuis lors, de nombreux cas d’utilisation ont été développés de manière plus ou moins proche de la vertu originelle du TTS. Par exemple, comme mentionné ci-dessus dans le contexte du transport, cette technologie est utilisée pour générer des voix afin de transmettre des messages aux passagers par la voix, qu’ils soient handicapés ou non. Il est très facile aujourd’hui de trouver des traces de TTS dans nos usages. Un autre exemple se trouve dans les moteurs de traduction de langues. Ceux-ci sont équipés de cette technologie pour suggérer la prononciation des informations traduites afin de compléter la traduction textuelle.

Un autre secteur qui intègre la synthèse vocale dans les applications embarquées ou dans le nuage et qui continue à révolutionner les utilisations est le vaste domaine de l’IoT. En effet, dans un univers en pleine expansion, les appareils intelligents sont de plus en plus souvent équipés de TTS, d’une part pour améliorer l’expérience de l’utilisateur et d’autre part pour améliorer l’accessibilité et l’intelligence des interfaces. Un exemple fort qui continue à progresser est celui des appareils ménagers (également appelés « appliances » en anglais), qui équipent de plus en plus souvent de la voix les produits de consommation et les robots.

 

Comment choisir et intégrer la synthèse vocale ?

 

Afin de choisir la bonne synthèse vocale (text-to-speech), il est essentiel de prendre en compte plusieurs critères. Ces paramètres sont les suivants : la langue parlée, le type de locuteur, la qualité de la voix et le fournisseur. Grâce à ces informations, il est plus facile de choisir la bonne solution qui répond à vos besoins et contraintes. En effet, toutes les entreprises proposant des STT n’ont pas des gammes équivalentes, il est donc très important de rechercher ces partenaires bien avant de commencer. Ensuite, la langue et le type de voix sont des critères importants pour l’expérience utilisateur proposée, il doit y avoir une cohérence entre l’interface vocale et ce qu’elle doit inspirer.

Du côté de l’intégration, les synthèses vocales sont des technologies qui reposent également sur les notions de « cloud », embarqué ou hybride (également appelé « sur site »). Il faut rappeler que l’embarqué a des limites techniques en termes de stockage de phrases qu’un nuage n’aura pas, mais le vocal embarqué fonctionnera quoi qu’il arrive là où le nuage a besoin d’une connexion. Ces paramètres sont à prendre en compte selon la nature de vos projets, dans le transport par exemple il est recommandé d’utiliser l’embarqué pour assurer un service continu.

 

Pourquoi le text-to-speech est-il essentiel pour la voix ?

 

Qui aujourd’hui n’a jamais entendu les voix de Siri, d’Alexa ou de l’assistant de Google ? Véritables ambassadeurs de la « voix », ces assistants ont tous été directement équipés de la synthèse vocale afin de pouvoir répondre à l’utilisateur. Ce n’est pas négligeable ! Il s’agit précisément de renforcer la relation entre l’homme et la machine par un lien conversationnel… réciproque. L’utilisateur parle à l’assistant et ce dernier répond, comme dans une conversation naturelle entre deux ou plusieurs humains. Cette composante est plus importante que nous ne l’imaginons.

En fait, comme toute innovation, le processus d’adoption est généralement complexe, surtout lorsqu’il entraîne une rupture dans l’usage. La meilleure façon de faire accepter les assistants vocaux est de proposer de nouvelles fonctionnalités qui favorisent leur utilisation, mais aussi d’améliorer au maximum l’expérience de l’utilisateur en humanisant la technologie. Ces voix de synthèse ont ensuite permis de donner une identité aux différents assistants, permettant de les différencier, mais aussi de les considérer comme des entités à part entière.

Au-delà d’une simple fonctionnalité (le cours de marketing va commencer), les voix font désormais partie intégrante de l’image de marque ! Certains considèrent même que la voix est un pilier de l’image de marque en devenir. Tout d’abord, elle remplace les images, par nature figées (et surreprésentées dans les médias), par des messages plus engageants : une image vaut mille mots, une voix vaut mille images ?

L’autre intérêt pour les marques est de se dire que le vivier d’assistants vocaux est déjà important et qu’il tend à l’être encore plus, alors n’est-ce pas une bonne idée de se mettre en voix avec sa propre voix pour toucher un public aussi large ?

Votre projet n’a jamais été aussi proche de sa solution !

En parcourant nos projets et nos technologies, vous avez peut-être pu vous faire une idée des possibilités que vous avez en travaillant avec nous. Nous pouvons également vous aider à atteindre vos objectifs.