Le domaine des technologies vocales est en croissance constante. Si l’intérêt pour la voix a brièvement diminué ces dernières années, il ne fait aucun doute que la voix connaît aujourd’hui une résurgence. Les avancées majeures en matière de matériel et de technologie, ainsi que l’augmentation des interfaces vocales, alimentent des cas d’usages innovants. Et dans de nombreux cas, il ne s’agit pas seulement de commandes vocales, mais de technologies vocales supplémentaires telles que le sujet de ce blog : la reconnaissance du locuteur.
Reconnaissance du locuteur : Que savons-nous à ce sujet ?
Selon la définition du Dr Sadaoki Furui, « la reconnaissance du locuteur est le processus qui consiste à reconnaître automatiquement qui parle en utilisant les informations spécifiques au locuteur incluses dans les ondes vocales pour vérifier les identités revendiquées par les personnes accédant aux systèmes ; en d’autres termes, elle permet le contrôle d’accès de divers services par la voix« . Fondamentalement, elle est utilisée pour répondre à la question « Qui parle ? ».
Le fonctionnement typique de la reconnaissance du locuteur est synthétisé par le schéma suivant :
À l’heure actuelle, il existe deux raisons principales d’utiliser la reconnaissance du locuteur : l’identification et la vérification. L’identification du locuteur vise à déterminer l’origine d’un énoncé donné entre différents locuteurs inscrits ou enregistrés. En revanche, la vérification du locuteur permet d’accepter ou de rejeter l’identité revendiquée par un locuteur.
Techniquement, c’est le nombre d’alternatives possibles qui sépare réellement l’identification de la vérification. Dans le premier cas, l’identification du locuteur, il y a autant d’alternatives que de personnes enregistrées. Tandis que pour la vérification du locuteur, il s’agit d’un processus de correspondance 1:1 et il n’y a que deux décisions, acceptation ou rejet…
La reconnaissance du locuteur telle que nous la connaissons : principalement les SVI dans les centres d’appels
Historiquement, la reconnaissance du locuteur a fait ses débuts à la fin des années 90 avec quelques expériences. Entre 1996 et 1998, cette technologie a été utilisée à la frontière de Scobey-Coronach (entre les États-Unis et le Canada) pour permettre aux résidents locaux inscrits n’ayant rien à déclarer de passer la frontière lorsque les postes d’inspection étaient fermés pour la nuit.
Depuis lors, nous pouvons voir des traces des technologies de reconnaissance du locuteur dans de nombreux domaines et applications. Toutefois, elles tournent toujours (ou du moins dans une grande majorité des cas) autour des centres d’appels pour permettre la vérification de l’identité d’un client au cours d’une conversation avec un agent en direct ou d’une interaction IVR (Interactive Voice Response). La technologie n’est pas nouvelle. En 2013, Barclays a été parmi les premiers à adopter un système de vérification vocale passive, « free speech », pour authentifier les clients de la banque privée.
Une tendance croissante pour la reconnaissance du locuteur dans plusieurs secteur
Ces derniers temps, les domaines et les cas d’utilisation les plus répandus sont les suivants :
- Les services financiers dans les centres d’appels ou les institutions bancaires où la plupart des cas d’utilisation sont centrés sur la vérification de l’appelant pour des opérations spécifiques.
- La santé dans de multiples domaines, des soins au juridique etc… liés à l’accès aux bases de données personnelles qui nécessitent des techniques de vérification robustes.
- Retail et e-commerce : la reconnaissance du locuteur était et est toujours utilisée pour identifier un utilisateur et vérifier son identité pour effectuer certaines opérations comme l’achat d’un article.
- L’hôtellerie ou les rendez-vous médicaux… pour le même principe, identifier une personne qui pourrait être présente dans la base de données du client et vérifier son identité concernant des opérations sensibles qui impliquent le paiement ou la confidentialité.
Des problèmes tels que la robustesse dans les environnements bruyants, les mauvaises connexions téléphoniques, la compression du son dans les call centers et la capacité à isoler efficacement les locuteurs ont eu un impact sur la précision des premiers produits de biométrie vocale. En conséquence, les chefs d’entreprise se sont souvent opposés à cette technologie, estimant qu’elle n’offrait pas la sécurité et/ou les performances nécessaires pour authentifier les utilisateurs de manière efficace et efficiente. Cette situation est en train de changer.
L’IA a rendu possible des progrès et innovations qui font tomber les barrières technologiques à l’adoption de la biométrie vocale. Une bonne chose, sachant que l’augmentation des fraudes pousse les centres de contact à remplacer les méthodes d’authentification faibles et inefficaces. Aujourd’hui, la reconnaissance du locuteur permet même d’éviter les deepvoices.
Ces facteurs se traduisent par de nouveaux avantages et de nouvelles opportunités pour l’utilisation de la biométrie vocale dans les call centers… et ailleurs.
Ce qu’il faut attendre de l’avenir des technologies de reconnaissance du locuteur.
La plupart des fonctions développées liées à la reconnaissance du locuteur étaient effectivement utilisées dans les centres de contact par le biais de canaux téléphoniques. Plus récemment, les cas d’utilisation sont déterminés par les environnements et les appareils grand public à venir qui se concentrent sur des expériences innovantes et des interactions sécurisées.
Avec l’essor de l’IoT, les équipements intelligents sont partout et capables de beaucoup de choses. Et nous entendons par là qu’ils sont capables de comprendre et de répondre à l’utilisateur par la voix. Les maisons, les voitures et les villes intelligentes sont plus proches que nous le pensons. Pour la reconnaissance des locuteurs, c’est un nouveau terrain de jeu sur lequel se développer.
Reconnaissance du locuteur et de la parole pour créer des expériences utilisateur sur mesure
Le passage des canaux téléphoniques aux appareils intelligents, intégrés ou non. Voici ce qu’il faut attendre de l’avenir de la reconnaissance des locuteurs.
Reconnaître un interlocuteur par sa voix permet de personnaliser entièrement toute expérience vocale. Alors que de plus en plus d’appareils à commande vocale font leur entrée dans nos habitudes quotidiennes, cette capacité est indéniablement importante pour les entreprises qui s’efforcent d’améliorer la satisfaction et l’engagement de leurs clients.
Les haut-parleurs intelligents, par exemple, seraient capables de reconnaître la personne qui parle et d’adapter immédiatement leurs comportements et leurs réponses en fonction de ses autorisations. Si un enfant tente d’effectuer un paiement par le biais d’un service à commande vocale, celui-ci serait rejeté faute de l’autorisation requise.
En outre, un tout nouveau monde d’expériences pourrait être abordé lorsque différentes personnes utilisent le même produit ou service. On pourrait imaginer un flux de travail spécifique pour chacune d’entre elles, adapté en fonction des préférences et des informations comportementales.
Et ce qui est encore mieux, c’est que les appareils n’ont pas besoin d’être connectés. Les technologies de reconnaissance du locuteur peuvent être intégrées n’importe où grâce à des avancées majeures dans la taille des modèles et l’empreinte technologique globale.
Notre partenaire IDR&D a récemment rejoint notre Voice Development Kit afin d’introduire la biométrie vocale embarquée dans notre ensemble de technologies. Avec nos ASR embarqués, nos clients peuvent désormais répondre à ce type de cas d’utilisation sur mesure où un locuteur peut être reconnu lorsqu’il interagit vocalement avec n’importe quel appareil.
Une couche supplémentaire de sécurité dans le parcours du client
Alors que l’expérience utilisateur est principalement liée à l’identification de l’utilisateur, la sécurité est souvent associée à la vérification du locuteur. Cet aspect de la biométrie vocale a également connu un passé tumultueux en raison du manque de confiance des entreprises dans cette technologie, notamment pour les tâches présentant des risques potentiels.
Mais, pour la même raison que les canaux téléphoniques ont trouvé un moyen d’être efficaces, les technologies actuelles de reconnaissance du locuteur peuvent répondre aux exigences des entreprises pour être considérées comme une méthode d’authentification fiable.
Les entreprises souhaitant renforcer la sécurité et, dans le même temps, améliorer les flux de travail de leurs produits ou services en garantissant des parcours clients sans friction, la vérification du locuteur s’impose comme l’une des meilleures solutions.
Pour renforcer l’authentification, les entreprises veulent trouver de nouvelles méthodes et de nouveaux outils, ainsi que combiner différentes solutions (2FA avec des applications mobiles ou tierces comme Authenticator). La vérification du locuteur est, en ce sens, parfaitement adaptée pour fusionner avec d’autres processus d’authentification afin de compenser leurs limites, ainsi que pour garantir une authentification intuitive et robuste par empreinte vocale dans les cas d’utilisation des médecins ou de l’accès numérique, par exemple.