Le speech-to-text (ou reconnaissance automatique de la parole) et les technologies vocales en général sont devenues des éléments indispensables des nouveaux produits et/ou services. Les produits traditionnels doivent également être mis à jour, sachant que cela devient de plus en plus important. Que vous possédiez déjà un assistant intelligent ou non, vous savez probablement qu’ils sont en passe de devenir incontournables. En effet, le taux d’adoption des enceintes intelligentes comme Google Home ou Alexa a explosé depuis 2018 et elles sont devenues l’une des technologies les plus rapidement adoptées de l’histoire. Bientôt, tout le monde en possédera et chaque entreprise aura son assistant personnalisé ! Dans cet article, nous allons parler de la technologie qui permet à ces assistants vocaux (et autres) de comprendre ce que nous voulons qu’ils fassent : Le speech-to-text.
Comprendre l’essor du speech-to-text
La conversion de la parole en texte (speech-to-text) est obligatoire lorsque l’on veut créer à peu près tout ce qui peut être commandé par la voix. C’est l’étape qui permettra à l’appareil d’identifier et de transcrire une voix ou un fichier audio en un texte compréhensible pour une machine afin de traiter ce que vous voulez. Vous vous souvenez peut-être de notre article de blog sur la reconnaissance vocale ? Il traitait de toutes les technologies nécessaires à son fonctionnement. Si vous ne l’avez pas encore lu : vous y trouverez une bonne explication de ce qu’est le STT et son fonctionnement !
Le speech-to-text : indispensable dans une société où la voix est centrale
Vous arrive-t-il de parler à votre animal de compagnie ? –Bien sûr que oui, si vous en avez un. Je parie que vous parlez aussi à vos objets inanimés ? Comme votre aspirateur robot ou votre télévision ?
Parler fait partie de la majorité des êtres humains et c’est notre principal moyen d’expression. C’est l’une des premières choses que l’on apprend quand on est bébé. Il est plus naturel de dire ce que l’on veut plutôt que d’appuyer sur des boutons. C’est pourquoi les gens ont commencé à intégrer la voix dans leurs appareils. De plus, c’est beaucoup plus facile pour les personnes souffrant de certains handicaps. Le monde avance dans une direction plus accessible (enfin) et la technologie vocale y contribue en partie grâce au speech-to-text !
Qu’est-ce que le voicefirst ?
VoiceFirst est un terme utilisé pour désigner l’utilisation et la confiance croissantes dans les technologies à commande vocale. Comme il est plus naturel de parler, elles sont facilement et rapidement adoptées. Tout devient plus facile depuis la démocratisation des ordinateurs personnels et encore plus avec les smartphones et les applications. En fait, les prochaines générations seront de moins en moins habituées aux ordinateurs personnels, car leur utilisation diminuera au profit des « smartphones ». Comme nous l’avons dit juste avant, parler est naturel, alors quoi de plus facile que cela ? Les entreprises technologiques ouvrent la voie à un monde où la voix prime. À titre d’exemple, nous avons lu récemment qu’Apple essaierait actuellement d’apprendre aux utilisateurs à se sentir à l’aise pour parler à Siri, n’importe où et n’importe quand, grâce à l’absence de commandes physiques sur leurs AirPods.
Pourquoi le speech-to-text est essentiel
La majorité des entreprises ont -ou cherchent à développer- leur propre assistant vocal. En effet, la voix permet de transformer une expérience basique en une expérience interactive. Dans un monde où l’expérience est plus importante que le produit que vous achetez, cela peut faire une grande différence. Et que serait un assistant vocal (ou tout autre système à commande vocale) sans la commande vocale ? Vous l’avez compris : rien. Car c’est la base de la « compréhension » pour la machine. C’est pourquoi la technologie « voicefirst » est en train d’émerger, tout comme la technologie « speech-to-text« .
Le speech-to-text : une technologie complexe à maîtriser
Pourtant, le speech-to-text rencontre quelques difficultés. En effet, la technologie n’est pas parfaite et tout le monde n’est pas prêt à entrer dans la société du voicefirst. Examinons les limites de cette technologie.
Limites de l’adoption
Les gens n’y sont pas habitués à 100%.
Même si vous êtes suffisamment à l’aise pour parler à votre animal ou à vos appareils technologiques seul chez vous, vous ne l’êtes peut-être pas lorsque vous êtes en public. Ce que je comprends, et pourtant je travaille pour une entreprise de technologie vocale. En fait, personne n’est à l’aise avec l’idée de parler à des appareils non humains lorsque d’autres personnes sont là. Trouvez-vous toujours étrange de passer à côté d’une personne entrain d’appeler avec des écouteurs ? Eh bien, ce n’est qu’un obstacle à surmonter, comme beaucoup d’autres l’ont été auparavant pour la technologie. Avec l’usage, la technologie vocale va entrer dans notre vie quotidienne. Ainsi, grâce au speech-to-text, les gens énonceront à haute voix leurs commandes vocales dans la rue pour que leur appareil joue de la musique, appelle leurs amis ou autre. C’est pourquoi nous voyons déjà certaines entreprises travailler pour favoriser cela, comme Apple.
Pourtant, nous ne remplacerons jamais tout par la technologie vocale. Ce serait contre-productif : cela reviendrait à faire faire aux gens quelque chose qu’ils ne veulent pas faire. La meilleure option est de l’utiliser dans un environnement multimodal pour permettre aux gens d’utiliser ce qu’ils veulent quand ils le veulent, afin que cela reste une option sympathique et utile.
Le speech-to-text et la confidentialité des données
Une autre limite à l’adoption serait le RGPD. En effet, afin de « comprendre » ce que vous voulez, le speech-to-text collecte et traite vos dires au préalable. La voix étant une donnée biométrique qui permet de reconnaître le locuteur, elle est protégée par différentes législations de protection des données. Ainsi, la collecte et le traitement de ces données sont strictement contrôlés. D’une part, les professionnels cherchent des solutions qui ne risquent pas de leur causer des problèmes juridiques et sont donc encore un peu hésitants. D’autre part, les particuliers s’inquiètent de la manière dont leurs données personnelles sont collectées et utilisées.
Toutefois, il s’agit principalement d’un problème lié aux GAFAM. En effet, les solutions cloud et hybrides traitent généralement les données pour améliorer leurs modèles et peuvent entraîner une fuite de données personnelles. C’est pourquoi la plupart des entreprises ayant des données sensibles choisissent des solutions de speech-to-text hors ligne, comme celle de Vivoka. Les logiciels embarqués permettent aux entreprises de développer leur propre reconnaissance vocale automatique en toute sécurité car ils traitent les données localement. Cela signifie que les données ne circulent pas. Nous vous recommandons de lire notre article sur la technologie embarquée si vous souhaitez en savoir plus.
Performances du speech-to-text
Le manque de précision peut également être un frein quant au fait que vous ne pouvez pas (encore) créer un assistant vocal capable de comprendre et de répondre parfaitement à tout type de demande. Tout le monde veut une expérience vocale continue mais, comme on ne peut pas le faire correctement, la mise en œuvre des technologies vocales est encore un gadget pour 80 % des consommateurs. Néanmoins, c’est vraiment utile pour les derniers 20%, notamment pour le picking vocal et autres kits mains libres par exemple.
Cela peut représenter un coût, parfois…
Les modèles économiques sont également différents en fonction des solutions. En effet, les solutions cloud de speech-to-text proposent généralement des formules de paiement à l’usage, qui peuvent rapidement devenir difficiles à gérer. Alors que les modèles d’abonnement ou de licence perpétuelle sont beaucoup plus pratiques lorsque vous avez plusieurs appareils à gérer.
En dehors de cela, il existe une forte résistance globale au changement. Le marché de la technologie vocale n’a pas encore atteint son apogée car peu de personnes l’utilisent à son plein potentiel. Telles sont les principales raisons pour lesquelles les gens ont encore du mal à adopter les technologies vocales dans leur vie quotidienne et/ou professionnelle. Mais il y a plus. Comme dit précédemment, la technologie n’est pas parfaite et se heurte également à des limites techniques.
Limites techniques
Précision en toute circonstance
Tout d’abord, vous devez savoir que la précision du speech-to-text dépend des informations que vous lui fournissez. Par exemple, dans la majorité des cas, vous constaterez qu’il reconnaîtra facilement les termes qu’il est habitué à entendre. Mais dès que vous parlez de quelque chose de nouveau, de moins connu ou de termes qui n’existaient pas auparavant (comme le verlan en français qui crée de nouveaux mots chaque jour)… il a du mal à le transcrire. Cela est dû au fait que le modèle manque de grammaire ou qu’il est basé sur des modèles de langage génériques et qu’il ne reconnaît pas ces nouveaux termes. Par conséquent, si vous voulez sous-titrer une chaîne d’information à la télévision, il sera difficile de transcrire chaque mot. En fait, le langage réel évolue plus vite que les modèles. Il faut donc les entraîner souvent pour qu’ils restent vraiment précis.
En outre, la plupart des modèles de conversion de la parole en texte sont entraînés sur des ensembles de voix humaines peu diversifiés. Cela peut induire des biais liés au sexe ou à l’origine ethnique. De plus, les accents sont parfois problématiques, car les mots peuvent être prononcés différemment selon les régions d’un même pays…
C’est pourquoi, pour atteindre le niveau de précision attendu pour un large éventail d’utilisations, vous aurez encore du mal aujourd’hui. Il n’existe pas encore de modèle parfait. La meilleure option consiste à affiner le parcours attendu de l’utilisateur pour le faire correspondre le plus possible aux capacités du moteur.
Capacités matérielles
La plupart des applications de speech-to-text sont basées sur des appareils, leur hôte. Si vous souhaitez opter pour les fournisseurs cloud, tant mieux : il n’y a qu’une API à installer dans votre logiciel. À condition que cela fonctionne correctement, mais c’est un autre problème. Dans le monde des systèmes embarqués avec lesquels Vivoka est plus familier, le matériel fait tout. Il en va de même pour les exigences. Nous sommes généralement confrontés à une dualité : micro-contrôleurs contre micro-processeurs. L’un est bon marché mais a de faibles spécifications, l’autre est beaucoup plus puissant mais son coût est plus élevé. Les entreprises doivent composer avec cette réalité et nous, fournisseurs de technologie, devons trouver un moyen de satisfaire les deux extrémités.
Même si les modèles vocaux sont de plus en plus petits et qu’en même temps le matériel a beaucoup plus de capacités (et de flexibilité pour s’adapter aux logiciels), la lutte demeure. Par exemple, Vivoka s’efforce d’offrir le meilleur système de conversion parole-texte hors ligne afin que les entreprises puissent développer leur propre assistant vocal en fonction de leurs besoins et des spécificités du marché. Et comme il s’agit d’une technologie embarquée, nous devons être conscients des ressources disponibles sur les appareils dans lesquels elle peut fonctionner et de l’empreinte des modèles.
Comment le speech-to-text a-t-il évolué ?
Vous savez que la technologie de reconnaissance vocale n’est pas née avec les assistants intelligents comme Alexa, n’est-ce pas ?
Avez-vous déjà entendu parler d’Audrey ? C’est l’un des premiers projets similaires à un speech-to-text et il date de 1952 ! Après cela, il y a eu la « boîte à chaussures » d’IBM et bien d’autres. Dans cette partie, nous allons parler de l’évolution de la technologie de la parole au texte.
Domaines d’application du speech-to-text
La reconnaissance vocale a parcouru un long chemin depuis 1950. Il y a eu quelques grandes innovations dans les années 70 et 80. Mais c’est à la fin des années 90 et en 2000 que cette science informatique s’est beaucoup développée, grâce à Google et ses centres de données. Dès lors, d’énormes quantités de données ont pu être traitées pour répondre aux requêtes des utilisateurs. Cela a ouvert la voie à des usages plus localisés comme pour les entreprises par exemple.
Comment la transcription vocale s’est démocratisée ?
Le speech-to-text est utilisé depuis longtemps par différents domaines. Ceux-ci ont participé à sa démocratisation commerciale. En effet, au début des années 90, la transcription n’était utilisée que par les domaines militaires et pour les recherches sur la parole. Nuance a lancé son premier Dragon Dictate en 1990 au prix de 9000 $, alors qu’il ne s’agissait pas encore d’un STT de pointe. À l’époque, le processus était très long et fastidieux. Mais en 1997 est apparu Dragon NaturallySpeaking, beaucoup plus puissant et moins cher (150 $). Parmi les premiers adeptes de la technologie vocale, on pouvait retrouver :
- Les services clients avec le SVI qui existe depuis les années 70 mais qui était considéré comme trop complexe et trop cher ;
- La logistique avec les systèmes de picking vocal, apparus à la fin des années 90.
Où le speech-to-text est-il généralement utilisé ?
Aujourd’hui, plusieurs autres types de professions utilisent le speech-to-text :
- Banque et finance ;
- Santé ;
- Marketing avec la recherche vocale ;
- Construction ;
- Biens de consommation ;
- Robotique…
Certaines d’entre elles ne l’utilisent que pour la dictée car c’est efficace et permet aux personnes de se concentrer sur des tâches à forte valeur ajoutée. En effet, dans la banque et la finance par exemple, la dictée libère les agents de la prise de notes pendant les réunions afin qu’ils puissent se concentrer sur des tâches utiles qui demandent une véritable compétence ou une intervention humaine.
Tandis que d’autres sont à la pointe de grandes innovations et souhaitent mettre en œuvre des technologies vocales pour l’optimiser au maximum.
Usages émergents du speech-to-text
Dans le contexte actuel, on peut dire avec certitude que la voix peut et sera mise en œuvre dans la réalité virtuelle. En effet, l’utilisation de casques VR est très amusante jusqu’à ce qu’on se rende compte que nos contrôles sont très limités. Que faire alors ? Comment jouer à des jeux en réalité virtuelle ? Comment envoyer un document à quelqu’un d’autre dans le métavers ?
Le speech-to-text dans le metaverse
La voix pourrait être la solution idéale à ces problèmes, permettant d’ajouter plus de commandes grâce à la reconnaissance vocale et au speech-to-text. Avec cela, vous n’auriez pas besoin d’ajouter plus de commandes physiques que ce que vous avez ou pouvez gérer. Cela simplifierait l’expérience utilisateur mais permettrait également aux gens de naviguer dans le monde de la RV sans manette !
De plus, la reconnaissance automatique de la parole pourrait être utilisée dans un contexte publicitaire. La détection de mots-clés pourrait être un moyen pour Google Ads de se réinventer dans un monde où les recherches tapées seraient de moins en moins utilisées. Enfin, dans un monde numérique où tout le monde peut exister et s’exprimer oralement, la reconnaissance vocale pourrait aider à prévenir les abus et/ou les discours haineux.
Le shopping en direct est une tendance qui se développe depuis les confinements. En effet, démocratisé par le site chinois AliExpress, il a été repris par des marques et entreprises renommées. Les marchands ou les influenceurs peuvent animer un live et présenter des produits devant leurs téléspectateurs. Ces derniers peuvent acheter les produits directement sur le live ou se rendre sur le site du marchand et souvent bénéficier de réductions. Comment le speech-to-text peut-il améliorer cette nouvelle expérience d’achat ? Cela améliorerait l’accessibilité grâce à la transcription et à la traduction en direct. Si l’on va encore plus loin, on pourrait imaginer poser des questions au streamer depuis chez soi sans avoir à les taper. De plus, elle pourrait s’intégrer au metaverse avec le shopping VR et approfondir l’expérience grâce à la voix et l’ouïe.
L’évolution des habitudes : le commerce vocal
Le commerce vocal est également une tendance émergente. Il permet aux gens de procéder à des achats en utilisant des commandes vocales avec leur assistant intelligent par exemple, ce qui augmente la visibilité et l’accessibilité pour beaucoup de commerces. Il est appelé à devenir l’évolution des habitudes et à être inclus dans les routines. Vous pourriez dire quelque chose à voix haute comme « oh non, je suis à court de haricots rouges pour mon chili végétalien » (ou quelque chose qui n’a pas forcément de lien avec la nourriture) et votre assistant pourrait vous le rappeler ou mieux encore : en commander pour vous si vous le souhaitez !
Cette technologie se démocratise aujourd’hui, mais nous espérons que la transcription vocale deviendra une fonction omniprésente, afin que le monde soit plus ouvert aux personnes handicapées ou confrontées à d’autres difficultés. Le metaverse va dans ce sens, mais tout le reste pourrait suivre.
De quoi devez-vous être conscient avant de choisir une solution speech-to-text ?
Nous sommes là pour vous aider et nous avons établi une liste des principales spécificités que vous devriez garder à l’esprit concernant la solution que vous souhaitez adopter. En fonction de votre projet, prenez le temps d’étudier attentivement chacune d’entre elles pour trouver l’adéquation parfaite !
Cohérence des modèles économiques
Il existe de nombreuses solutions STT sur le marché, mais l’un des principaux éléments qui peuvent vous aider à choisir celle dont vous avez besoin est le modèle économique. En effet, vous avez peut-être constaté que la majorité d’entre elles sont basées sur le cloud et, souvent, elles facturent en fonction du volume que vous souhaitez transcrire. Que ce soit à l’heure ou à la demande, plus vous l’utilisez, plus c’est cher. Ainsi, si vous savez que vous aurez besoin d’un grand volume, le modèle qui correspond le mieux peut être celui de la licence perpétuelle.
Ainsi, vous obtiendrez une licence spécifique que vous devrez payer une fois. Ensuite, en fonction de votre projet, des redevances peuvent être exigées. Par exemple, le VDK est basé sur ce modèle car il est plus logique pour les professionnels de payer en fonction de leurs besoins. De plus, ce modèle permet aux entreprises de mieux gérer leurs coûts car le prix est fixe et il n’y a pas de risque de mauvaises surprises. L’intégration de la reconnaissance vocale doit se faire de manière transparente en tout point, y compris dans les coûts.
Evolution des technologies
La technologie évolue rapidement et cela implique qu’elle peut être rapidement obsolète. Pour éviter cela, vous devez vous assurer que la mise à jour des technologies est incluse dans le forfait de votre fournisseur de logiciels. En outre, vous pouvez également vérifier si un support est disponible et s’il est qualifié. En effet, la plupart du temps, vous devrez acheter des crédits pour pouvoir y faire appel, alors assurez-vous de ne pas gaspiller votre argent !
De plus, la solution que vous choisissez doit être évolutive. Qu’il s’agisse de la technologie, du modèle économique ou autre, assurez-vous que vous pourrez en obtenir davantage si vous en ressentez le besoin. Il est important de pérenniser vos investissements.
Personnalisation et adaptation
Ce point est lié à la pérennité. En effet, si vous voulez que votre système de speech-to-text soit durable, vous aurez besoin d’une solution que vous pourrez personnaliser en fonction de vos besoins et de ceux de vos clients. Sachez que vous ne pourrez pas personnaliser tous les logiciels ASR et que vous ne pourrez pas non plus ajouter de la grammaire à tous les modèles. Ainsi, si votre public est très spécifique, vous devriez opter pour une solution permettant d’ajouter du jargon technique et un vocabulaire complexe.
Compatibilité et connaissance du stack technique
Pour une intégration facile, vérifiez si la solution pour laquelle vous optez dispose d’une documentation, de codes d’exemple et d’un support qualifié disponible pour l’installation également. Il y a également d’autres éléments à vérifier, en particulier si vous visez un système embarqué. En effet, nous vous recommandons de vous renseigner sur les systèmes d’exploitation et le disque dur utilisés par la solution. En effet, cela vous permettra de vous assurer que votre solution de speech-to-text est compatible avec ce que vous utilisez réellement.
Langues disponibles
Votre public parle-t-il exclusivement anglais ? Ou avez-vous besoin de plusieurs langues pour vous assurer que personne ne soit lésé ? Et plus important encore : êtes-vous sûr que votre public ne changera pas ? Chaque fournisseur de SDK offre un ensemble défini de langues et certains sont très limités. Toujours dans une optique de pérennité, vérifiez que les langues dont vous avez besoin sont disponibles. Ou qu’elles le seront bientôt s’il s’agit d’un bonus. En effet, les entreprises technologiques développent en permanence leur offre, mais n’ont peut-être pas les mêmes priorités que vous.
De plus, vous savez maintenant que les accents peuvent constituer un défi pour un logiciel de speech-to-text. Vérifiez en le testant qu’il gère plusieurs accents. La plupart du temps, vous aurez également différentes versions d’une même langue car il existe des spécificités selon qu’il s’agit d’anglais américain ou d’anglais britannique par exemple.
Test utilisateur
Enfin, pour savoir si la solution correspond à vos besoins, vous pouvez l’évaluer. Prenez le temps de réfléchir à vos cas d’utilisation et même, si possible, de prototyper directement. Grâce à cela, vous verrez si elle correspond à ce que vous avez imaginé et si elle a du sens dans votre produit ou service.
En effet, même si nous nous dirigeons vers une société privilégiant la voix et que la technologie vocale est appelée à prendre de plus en plus d’importance, vous ne souhaitez pas l’intégrer à tous les appareils juste parce que vous le pouvez. Ce serait contre-productif car vous ne pouvez pas tout faire avec. Plus vous mettez des commandes vocales dans des objets insignifiants, plus cela diminue son utilité perçue. De plus, comme nous l’avons déjà dit, vous ne pouvez pas attendre d’un logiciel de speech-to-text qu’il comprenne tout. Plus vous lui demandez de comprendre des choses différentes, moins il est précis.
C’est pourquoi, globalement, vous devez comprendre votre cas d’utilisation afin de connaître tous ces points. C’est ce qui vous permettra de savoir quelle solution est la meilleure pour vous et pour l’utilisation que vous allez en faire.
Vivoka propose un speech-to-text hors ligne pour répondre aux besoins spécifiques des entreprises. En effet, grâce à la grammaire, le modèle est plus précis et a une empreinte moindre afin de pouvoir être intégré facilement dans des appareils limités. De plus, le Studio permet de travailler avec toutes les technologies vocales et offre une facilité d’utilisation indéniable. Si vous êtes curieux de le découvrir ou si vous souhaitez discuter des cas d’utilisation possibles pour votre entreprise, n’hésitez pas à demander une démo !