TTS vivoka

La synthèse vocale (TTS), pourquoi est-elle si importante ?

[Total : 0    Moyenne : 0/5]

 

Aujourd’hui, faisons un zoom sur une des briques de la reconnaissance vocale. La synthèse vocale (aussi abrégée sous TTS, Text-to-Speech), contrairement à la reconnaissance de la parole, n’est pas une technologie qui exploite la voix, elle la produit. Constituant, généralement, la phase finale du processus, les voix synthétiques se démocratisent de plus en plus. Pourquoi ? Car elles sont importantes dans l’expérience globale du “vocal”, nous vous expliquons pourquoi.

 

C’est quoi le TTS ? Comment ça marche ?

 

La synthèse vocale (TTS) se définit par la production artificielle de voix humaines. L’utilisation principale (et ce qui a induit sa création) est la capacité de traduire un texte en un discours parlé, et ce de manière automatique. Comment cela fonctionne ?
À l’inverse des systèmes de reconnaissance de la parole qui utilisent des phonèmes (les plus petites unités de sons) en premier lieu pour découper les phrases, les TTS vont se baser sur ce qu’on appelle des graphèmes : les lettres et les groupes de lettres qui transcrivent un phonème. Cela veut dire que la ressource de base n’est pas le son, mais bien le texte. Le fonctionnement se fait généralement en deux étapes. La première va découper le texte en phrase et en mots (nos fameux graphèmes) et assigner des transcriptions phonétiques, la prononciation, à tous ces groupes. Une fois les différents groupes texte/phonétique identifiés, la deuxième étape consiste à convertir ces représentations linguistiques en son. En d’autres termes, de lire ces indications pour produire une voix qui lira les informations.

 

Attention ! Le TTS ne doit pas être confondu avec les systèmes de réponses vocales, généralement utilisés dans les transports en commun par exemple. Dans ce dernier cas, il s’agit d’une base de données répertoriant de nombreuses informations vocales enregistrées par un ou plusieurs opérateurs. Ces informations, très limitées et contextuelles, seront lues à des moments clés, par exemple un arrêt ou une correspondance. Ce fonctionnement est donc bien plus simple qu’un TTS qui cherchera à réellement synthétiser une voix pour chaque texte fourni. Cela ne veut pas dire que les TTS ne sont pas utilisés dans le secteur des transports !

 

 

Dans quelles utilisations le retrouve-t-on ?

 

On retrouve les TTS dans de multitudes d’applications. Il faut tout de même savoir que cette technologie était initialement pensée pour aider les personnes handicapées (visuellement notamment) dans leur quotidien. Par exemple, le très réputé Stephen Hawking, à cause de son lourd handicap, utilisait un TTS pour communiquer avec les personnes autour de lui (vous pouvez d’ailleurs vous y essayer directement sur ce lien).

 

Depuis, de nombreux cas d’usages ont été développés plus ou moins proche de la vertu d’origine des TTS. Par exemple, comme mentionné précédemment dans le cadre des transports, il s’agit d’utiliser cette technologie pour générer des voix permettant de transmettre des messages aux passagers via la voix, que ces derniers souffrent d’un handicap ou non. Il est aujourd’hui très facile de retrouver des traces de TTS dans nos usages. Un autre exemple se retrouve dans les moteurs de traduction des langues. Ces derniers sont équipés de cette technologie pour suggérer la prononciation des informations traduites afin de compléter la traduction textuelle.

 

En parallèle, les TTS sont aujourd’hui très largement plébiscités pour un usage qui tend à se répandre de plus en plus ! Vous avez deviné ? Petit indice, Google, Amazon, Apple et Vivoka en ont !

 

Pourquoi cette technologie est-elle primordiale pour le vocal ?

 

Là où nous voulons en venir, et il s’agit de l’utilisation du TTS la plus parlante : les assistants vocaux. Qui aujourd’hui n’a jamais entendu les voix de Siri, Alexa ou de l’assistant Google ? Véritables ambassadeurs de la “voix”, ces assistants ont tous été directement équipés de synthèse vocale afin de pouvoir répondre à l’utilisateur. Ceci n’est pas anodin ! Il s’agit justement de renforcer la relation entre l’humain et la machine à travers un lien conversationnel… réciproque. L’utilisateur parle à l’assistant et ce dernier lui répond, comme dans une conversation naturelle entre deux ou plusieurs humains. Cette composante est plus importante qu’on imagine.

 

En effet, comme toute innovation, le cap de l’adoption est généralement complexe, surtout quand elle apporte une rupture dans les usages. Le meilleur moyen pour faire accepter les assistants vocaux était alors de proposer des fonctionnalités nouvelles favorisant leur utilisation, mais aussi d’améliorer au maximum l’expérience d’utilisation en humanisant la technologie. Ces voix synthétisées ont alors permis de donner une identité aux différents assistants, permettant de les différencier, mais aussi de les considérer comme des entités à part entière.

 

Au-delà d’une simple fonctionnalité (attention le cours de marketing va commencer) les voix sont aujourd’hui partie intégrante de l’image de marque ! Certains estiment même que la voix est un pilier du branding en devenir. Tout d’abord, elle remplace les images, qui par nature sont figées (et en surreprésentation dans les médias), par des messages plus prenants : une image vaut mille mots, une voix vaut mille images ?

L’autre intérêt pour les marques est de se dire que le parc d’assistants vocaux est déjà important et qu’il tend à l’être davantage, ainsi, n’est-ce pas une bonne idée de se lancer dans le vocal avec sa propre voix pour toucher une si grande audience ?

 

Retrouvez les TTS sur le Voice Market, la première marketplace des technologies vocales, regroupant les technologies de nos partenaires (testées et approuvées par nos experts !).