Dans la quête perpétuelle de renouvellement de l’UX (expérience utilisateur), la voix apparaît d’année en année comme incontournable. Succédant au toucher et à la reconnaissance faciale, ses multiples applications, au-delà de l’interaction, incluent l’identification des individus par la biométrie vocale. Selon Rita Singh, chercheuse à Carnegie Mellon spécialisée dans l’apprentissage automatique appliqué à la voix : « On sait depuis des siècles que la voix est porteuse d’une multitude d’informations. » Nous pouvons utiliser l’intelligence artificielle pour extraire ces informations.
S’identifier grâce à sa voix était jusqu’alors quelque chose de réservé à la science-fiction, pourtant nous en sommes plus proches qu’il n’y paraît ! Cependant, au vu des diverses controverses liées aux nouvelles technologies, s’agit-il d’un procédé fiable et sûr ?
Qu’est-ce que la biométrie vocale ?
« Le son de votre voix est en train de devenir un nouveau type d’empreinte digitale. »
La biométrie vocale est un domaine scientifique et technologique de la reconnaissance vocale et vise à développer des applications permettant de vérifier l’identité d’une personne uniquement par sa voix.
En effet, c’est la prosodie qui régit la voix. C’est l’ensemble des caractéristiques vocales (timbre, hauteur, valence etc…) propres à chaque être humain. Formant une véritable empreinte vocale, ces caractéristiques sont identifiées afin de les faire correspondre à un modèle de référence, servant ainsi à l’identification.
Techniquement, l’apprentissage automatique est très populaire dans ce domaine de recherche car il permet à un système de s’améliorer par lui-même. Il est important de le préciser car la fiabilité de la technologie dépendra en partie du taux de précision qu’elle pourra offrir. Selon le principe du « Machine Learning » ; lorsqu’une information est saisie (c’est-à-dire qu’un utilisateur parle), le système va tirer profit de ces données afin de :
- fonctionner d’une part ;
- affiner ses résultats d’autre part.
Comment fonctionne la biométrie ?
Les systèmes de biométrie vocale inscrivent une personne connue en créant un modèle initial. En général, il est possible de fusionner plusieurs modèles afin d’obtenir une représentation de meilleure qualité de la voix d’une personne. Le modèle initial est appelé « modèle d’inscription » ou « empreinte vocale d’inscription ».
L’authentification se compose essentiellement de deux étapes :
- L’enrôlement pour la création du modèle vocal à partir d’un fichier ou d’un flux audio ;
- La vérification lorsqu’il s’agit de faire correspondre les modèles vocaux.
Il existe différents types d’authentification avec les systèmes de biométrie vocale. Il peut s’agir de la vérification du locuteur ou de l’identification du locuteur.
Vérification du locuteur
La vérification du locuteur se produit lorsque le système de biométrie vocale capture un nouvel échantillon vocal, crée un modèle à partir de celui-ci et le compare au modèle d’inscription. En d’autres termes, le système connaît déjà le locuteur mais vérifie son identité.
Identification du locuteur
Dans le cas de l’identification du locuteur, le système compare l’échantillon d’une personne inconnue à plusieurs modèles d’inscription. Le but est de trouver qui est le locuteur dans l’ensemble des modèles d’inscription.
Mais plus encore, la biométrie vocale peut être dépendante ou indépendante de la parole. En fonction de l’utilisation que vous en faites, vous pouvez préférer l’un ou l’autre. Pour un système plus sécurisé, vous pouvez également les combiner. Voyons quelle est la principale différence entre les deux.
Biométrie vocale dépendante du texte
Également appelée « biométrie vocale active« , elle exige que la personne prononce un mot ou une phrase spécifique. Le système d’identification biométrique vocal pose une question spécifique et vous devez y répondre avec la bonne voix (car certaines caractéristiques de la voix sont prises en compte). Il peut s’agir de n’importe quelle phrase que vous avez préalablement définie. En général, il s’agit de phrases telles que « Ma voix est mon mot de passe ».
Biométrie vocale indépendante du texte
Également appelé « biométrie vocale passive« , ce mode ne repose pas sur une phrase clé. En effet, ce mode est capable d’écouter passivement une conversation et de capter les caractéristiques spécifiques de la voix afin d’identifier la personne qui parle. Il est basé sur l’identification par empreinte vocale. Ce mode nécessite la création d’un modèle d’inscription et d’un modèle de vérification juste en parlant. La durée nécessaire à la création des modèles peut varier, mais gardez à l’esprit que plus la durée est longue, plus la vérification sera précise.
Nous pouvons les utiliser ensemble pour créer un modèle plus sécurisé. Tous deux sont compatibles avec les systèmes de vérification et d’identification du locuteur.
Il existe déjà des secteurs comme la banque ou les centres d’appels qui tirent parti de la technologie de biométrie vocale. En effet, l’authentification biométrique vocale peut être utilisée pour vérifier l’identité d’un client lorsqu’il se connecte à des applications mobiles, par exemple. Mais les centres d’appels utilisent également la technologie de reconnaissance du locuteur pour les Serveurs Vocaux Interactifs (SVI).
Peut-on vraiment s’y fier ?
Souvent imaginée et utilisée pour l’authentification, la biométrie vocale fait l’objet de questions sur sa fiabilité et sa sécurité. Les risques de fraude s’appliquent également au domaine de la voix. En effet, voler un code et voler une voix sont tous deux techniquement réalisables.
La technologie de biométrie vocale est sûre et en constante évolution
La biométrie vocale est désormais une technologie éprouvée et utilisée dans de nombreux cas. Par exemple, les acteurs bancaires l’ont intégrée et expérimentée depuis des années. Elle permet une authentification transparente dans certains cas et très sécurisée lorsque c’est nécessaire.
Aujourd’hui, la technologie a fait d’énormes progrès et a amélioré ses capacités pour les systèmes de sécurité. En particulier dans l’apprentissage automatique ces dernières années. En effet, nous avons apporté des améliorations majeures telles que la détection de la vivacité (également connue sous le nom d’anti-spoofing), qui est capable de distinguer une voix réelle d’une voix enregistrée ou synthétique. Les modèles d’apprentissage automatique sont adaptés à ce type de pratique car ils affinent leur précision au fur et à mesure. Ainsi, nous disposons aujourd’hui de systèmes intelligents disposant d’une énorme quantité d’informations, qui se révèlent de plus en plus infaillibles.
De plus, la voix contient une centaine de caractéristiques spécifiques. Celles-ci, en fonction de la qualité de la capture audio et du traitement de l’information, font de la voix un moyen d’identification robuste.
Pourtant, la biométrie vocale reste un sujet sensible. En effet, derrière ses fonctionnalités attrayantes, il existe des risques importants de failles. Il faut garder à l’esprit que, dans le domaine de la sécurité, l’ingéniosité de ceux qui imaginent les systèmes est équivalente à celle de ceux qui cherchent à les mettre en déroute.
Il existe des limites techniques persistantes
Tout d’abord, comme toute technologie, la biométrie vocale peut faire des erreurs. Cela dépend fortement de la qualité des échantillons collectés mais aussi de la qualité des modèles d’enrôlement. Ainsi, selon le système d’authentification choisi, il peut y avoir plus ou moins de « faux rejets » et/ou de « fausses acceptations ».
Les erreurs sont possibles
Nous considérons comme un « faux rejet » le fait de ne pas confirmer l’identité du locuteur alors qu’il s’agit bien de celui du modèle. Alors qu’une « fausse acceptation » est le fait que le système reconnaisse un locuteur dont l’identité ne correspond pas au modèle.
Dans les deux cas, des répercussions sont possible et peuvent causer des problèmes importants dans une organisation. En effet, d’un « faux rejet » peuvent naître l’agacement et l’inconfort des utilisateurs finaux. Au niveau de l’entreprise, on peut observer une diminution de l’efficacité et plus encore : une perte de contrats. Imaginons que la satisfaction de votre client dépende de votre capacité à effectuer une tâche rapidement et que vous soyez bloqué parce que votre système d’authentification vous bloque (ou bloque votre utilisateur final). Vous risquez de perdre un temps précieux.
D’autre part, dans le cas d’une « fausse acceptation », vous pouvez facilement imaginer ce qui pourrait se passer si une personne malveillante avait accès aux données ou aux fichiers de votre entreprise alors qu’elle n’est pas censée le faire…
Les « deepvoices »
En outre, les risques de fraude s’appliquent également au domaine de la voix. En effet, le vol d’un code et le vol d’une voix sont tous deux techniquement réalisables. Vous avez déjà entendu parler de l’hypertrucage ? Plus communément appelé par leur nom anglais, les deepfakes sont des contenus médias dans lesquels sont reproduits des visages de personnes connues à des fins frauduleuses. Les deepvoices existent aussi et sont de plus en plus « précises ». Au point qu’elles peuvent tromper les systèmes d’authentification. Néanmoins, les algorithmes anti-spoofing sont désormais capables de détecter plusieurs types d’attaques telles que la synthèse vocale, les conversions de voix ou les voix enregistrées.
La réponse quant à la fiabilité est donc mitigée :
- Comme tout mode d’identification, des failles existent et existeront ;
- La voix se positionne comme suffisamment robuste pour mériter sa chance et viendrait parfaitement compléter un autre système d’identification.
Que peut-on attendre de la biométrie vocale ?
Selon nous, mais de nombreux experts le disent également, nous devrions utiliser la biométrie vocale en complément d’autres méthodes d’authentification plus éprouvées. Ce faisant, les avantages respectifs des différentes méthodes peuvent devenir complémentaires. Par exemple, de nombreux acteurs explorent déjà la combinaison de l’identification vocale et faciale.
Authentification à deux facteurs
Aujourd’hui, cette technologie est de plus en plus utilisée comme deuxième facteur d’authentification (2FA). Il est devenu obligatoire depuis 2021 pour les paiements en ligne en France et beaucoup d’autres cas d’usage ont suivi. Ainsi, le 2FA est en train de devenir un standard de sécurité et la biométrie vocale pourrait contribuer à le rendre plus transparent puisque l’utilisateur n’a qu’à parler pour confirmer son identité. Alors que les mots de passe tendent même à disparaître sur certains appareils au profit d’autres moyens d’authentification, la biométrie en général offre une bonne expérience utilisateur. Il s’agit généralement d’éléments qui font partie de vous. Dès lors, vous n’avez pas besoin de vous souvenir de quoi que ce soit ou de la réinitialiser de temps en temps parce que vous l’avez oubliée (même si c’est une bonne pratique pour la sécurité…).
Autres utilisations émergentes
De plus, la reconnaissance des locuteurs à partir de phrases courtes a également évolué et les systèmes d’identification biométrique vocale peuvent désormais reconnaître un locuteur à partir de phrases courtes. Cette technologie permet même de reconnaître différents locuteurs au cours d’une conversation par exemple. C’est ce qu’on appelle la diarisation et cela peut être utile dans de nombreux cas. En effet, dans les dossiers médicaux, elle permet de différencier le discours du médecin et celui du patient, par exemple. Elle est également utile pour l’analyse des données des centres d’appels.
Mais la biométrie ne s’arrête pas là ! Un exemple que vous pouvez déjà utiliser à la maison si vous avez un haut-parleur intelligent est le Voice Match. Il s’agit de la capacité des assistants à reconnaître les individus d’une même famille. De là découle une personnalisation avancée de l’expérience, en termes de préférences, d’accessibilité ou d’autorisations par exemple. Par exemple, elle assure la sécurité de vos informations personnelles et empêche les enfants de commander des jouets sur Amazon sans autorisation.
Le VDK inclut des systèmes de biométrie vocale et vous permet d’accéder à toutes les technologies vocales (reconnaissance vocale, front-end audio, wake word, etc.) au sein d’un SDK unique. Si vous souhaitez plus d’informations, n’hésitez pas à nous contacter !
Sources :
https://www.crim.ca/fr/realisations/Biometrie-vocale-vers-une-identification-incontournable
https://usbeketrica.com/article/reconnaissance-vocale-parle-je-te-dirai-qui-tu-es