Compréhension automatique du langage naturel : ce que vous devez savoir

La Compréhension du langage naturel (NLU) est un sous-domaine du traitement du langage naturel (NLP). Si ce dernier vise à rendre les communications homme-machine aussi « naturelles » que possible, l’objectif de la compréhension automatique du langage naturel est de faire en sorte que les machines comprennent le langage humain. Si vous avez déjà utilisé ChatGPT, vous conviendrez sans doute que si vous ne savez pas qu’il s’agit d’un ordinateur, vous avez l’impression de parler avec un être humain qui comprend bien vos questions, même les plus complexes. C’est l’objectif du traitement du langage naturel, connue comme une tâche complexe. De nos jours, le besoin en NLU augmente avec la nécessité de systèmes intelligents tels que les assistants vocaux ou l’Internet des objets (IoT). Dans cet article, nous allons expliquer ce qu’est la compréhension automatique du langage naturel, comment il fonctionne et quels sont ses défis.

 

Intuition de la Compréhension Automatique du Langage Naturel

 

Les moteurs NLU utilisent des logiciels informatiques pour comprendre le sens du langage humain sous forme de texte ou de discours. En général, les gens ne commencent à apprécier un moteur NLU que lorsqu’il atteint un niveau de compréhension similaire à celui d’un être humain. En général, ce qui rend la construction d’un moteur d’analyse du langage naturel complexe, c’est la difficulté de créer un logiciel imitant le comportement humain et pensant comme un humain.

 

Le langage humain

On estime que le langage humain a environ 150 000 ans. D’une part, pendant tous ces millénaires, les capacités de compréhension (ou de perception) de l’Homme n’ont jamais cessé d’évoluer. D’autre part, les capacités de communication de l’Homme continuent également d’évoluer en même temps, en fonction de facteurs culturels, géographiques, politiques, environnementaux et bien d’autres encore. Dans ce cas, les capacités de compréhension et de communication devraient évoluer de manière synchrone, ce qui rend les gens « modernes » dans leur comportement en matière d’expression et de compréhension.

 

De nombreuses questions concernant la compréhension du langage naturel sont essentielles pour comprendre son fonctionnement :

  • « Comment un ordinateur peut-il acquérir les capacités d’expression et de compréhension de la langue d’un être humain ?
  • « Comment pouvons-nous les adapter à un format qu’un ordinateur peut comprendre ?
  • « Comment la compréhension automatique du langage peut-elle gérer l’évolution de la communication humaine ?

 

Analogie homme-machine

 

Il existe trois théories principales sur la manière dont les humains développent leurs capacités de compréhension et acquièrent leurs connaissances :

  • La théorie de l’apprentissage considère que le langage s’acquiert par renforcement. Tout comme le conditionnement, par exemple.
  • La théorie nativiste suppose que le langage est quelque chose que nous sommes nés pour apprendre. Elle suppose que nous disposons d’un « dispositif d’acquisition du langage » dans notre cerveau et que toutes les langues partagent des éléments de base universels tels que la grammaire, les noms ou les verbes.
  • Ensuite, les chercheurs ont commencé à suggérer qu’au lieu d’avoir un mécanisme de compréhension automatique du langage spécifique, le développement du langage est influencé par différents facteurs génétiques ET environnementaux. Ces différents facteurs doivent interagir pour qu’un enfant apprenne à parler correctement.

 

Toutes ces théories s’accordent sur l’idée que la « compréhension » est quelque chose que les humains apprennent par l’entraînement et qu’ils doivent pratiquer par le biais de communications : ils ont donc besoin d’exemples. Dans ce contexte, la qualité de l’apprentissage et la qualité des exemples deviennent cruciales dans ce contexte. C’est ce qui a inspiré la compréhension automatique du langage naturel : Aujourd’hui, les progrès technologiques permettent à l’industrie (et à la recherche) de reproduire le même processus sur des ordinateurs, notamment grâce à l’apprentissage automatique. En effet, l’apprentissage automatique est basé sur les concepts de « réseaux de neurones », d’ « apprentissage » et d’ « exemples ». Selon l’état de l’art, les NLU les plus performants sont basés sur l’apprentissage automatique.

 

L’essor de la Compréhension automatique du Langage Naturel

 

La recherche sur la Compréhension du Langage Naturel a débuté dans les années 60, une décennie qui a vu la sortie d’ELIZA de Weizenbaum, un chatbot qui tentait d’incorporer un composant NLU. Les cas d’utilisation d’ELIZA étaient très limités et le projet a finalement été abandonné en raison du manque de données à l’époque, ainsi que de la complexité informatique et de la nécessité de disposer d’un matériel solide.

Au cours de la dernière décennie, avec l’essor des GPU, des centres de données et l’omniprésence des données numériques disponibles, le machine learning a connu une popularité croissante. Cela a permis à la comprhéhension du Langage Naturel d’atteindre des performances comparables à celles de l’Homme. C’est pourquoi les IA conversationnelles comme Siri et Alexa, et plus récemment ChatGPT, se sont démocratisées.

 

Les fondements de la compréhension automatique du Langage Naturel

 

La Compréhension du Langage Naturel peut être résumée en deux tâches : L’identification de l’intention et la reconnaissance des entités.

 

L’intention

 

L’intention est le sens général qui pourrait être « conclu » à partir d’une phrase donnée. Elle peut être exprimée explicitement, comme dans « Allumez les lumières », où l’intention demandée est « Allumez », ou implicitement, comme dans « Je ne vois rien », qui exprime la même intention, mais différemment. Supposons que la phrase de référence de cette intention soit la phrase « Allumer la lumière », et les six variations présentées dans le tableau 1 dans un contexte de maison intelligente.

Intention Référence Variations Entités
Allumer Allumer les lumières 1. Allumer les lumières Lumières : device
2. Allumez la lumière s’il vous plaît Lumière : device
3. Mets les lampes Lampes : device
4. Je ne vois rien
5. Il fait très sombre ici
6. Qu’il y ait de la lumière

Tableau 1. Illustration d’un exemple d’intention, de ses sept exemples (une référence plus six variations) et de ses entités.

 

Variation et similarité

 

Le tableau 1 montre que l’exemple de référence et la variante (1) partagent les mêmes mots et (en grande partie) la même structure syntaxique. Cela signifie qu’ils sont « proches » : Ils traitent du même sujet – leurs intentions sont « similaires ». C’est également le cas de la variante (2), puisque le mot « facultatif » « S’il vous plaît » ne modifie pas le sens. L’intention est la même avec ou sans « S’il vous plaît ». En général, les phrases similaires ont la même intention. Plus les phrases ont de mots en commun, plus elles sont proches.

 

En parlant naturellement, les gens peuvent exprimer la même intention mais avec des mots différents. Cela dépend du vocabulaire qu’ils utilisent et qui peut changer en fonction de leur culture, de leur âge, de leurs compétences linguistiques, etc. Par exemple, dans le tableau 1, la variante (3) a la même intention que la référence même si elle n’utilise pas les mêmes mots. Cela s’explique par la similarité des mots utilisés : les synonymes. Ici, le moteur NLU, comme les humains, devrait être capable de deviner que « Mets » est un synonyme de « Allume » et que « les lampes » est un synonyme de « la lumière ». Les synonymes offrent une variété d’expressions de la même intention et permettent aux gens de communiquer naturellement. Plus les phrases partagent des synonymes, plus elles sont proches.

 

Un autre point commun entre les variantes (1), (2) et (3) est qu’elles expriment explicitement l’intention : les verbes « allume » et « met » illustrent l’intention recherchée, et les mots « lumière » et « lampes » ciblent le dispositif recherché. Ici, nous pouvons penser que l’explicitation/clarté/directivité pourrait être représentée par un score : un score élevé signifie une explicitation élevée.

Cependant, la bibliographie s’intéresse traditionnellement aux cas très peu explicites : les cas « ambigus ». Par exemple, le mot « passage » dans « Je vais regarder le passage ». Est-ce que « le passage » signifie « une section dans un livre » ou « un canal » ? Il s’avère parfois que les gens peuvent exprimer leurs intentions de cette manière ambiguë. Par exemple, dans le tableau 1, les variantes (4), (5) et (6) ne partagent pas les mêmes mots ou synonymes avec la référence. Ici, le contexte devient essentiel pour comprendre non seulement le sens du mot, mais aussi celui de la phrase entière et de son intention. La variante (6) serait interprétée différemment dans un autre contexte.

Entité

 

Un autre concept crucial pour la compréhension automatique du langage est celui des entités : Il s’agit des mots qui sont ciblés par l’intention dans la phrase concernée. Par exemple, « lumières » dans la variation (1), « lumière » dans la variation (6), ou « lampes » dans la variation (3) sont ciblés comme « dispositifs » par l’intention. Les synonymes sont considérés comme la même entité. Le nom de l’intention est un choix personnel de l’utilisateur. Il existe en outre des entités standard :

les entités nommées : Il s’agit de catégories telles que les noms, les entreprises, les lieux, les marques, etc ;
Entités numériques : elles comprennent les nombres, les devises et les pourcentages ;
Dates : comprend les dates.

 

Défis et préjugés

 

Même si la compréhension automatique du langage n’est plus un défi depuis que les chercheurs en ont percé les « secrets », il reste des challenges et des biais à relever.

D’une part, le langage est complexe : Les gens peuvent comprendre la subtilité et les métaphores, par exemple.

D’autre part, les gens peuvent utiliser des mots peu communs ou des mots étrangers qui peuvent introduire des biais pour la compréhension automatique du langage, en particulier en ce qui concerne les entités.

Conclusion sur la compréhension automatique du langage

 

Vous l’avez compris, la compréhension du langage naturel est une technologie impressionnante qui révolutionne l’IA conversationnelle. Mais elle ne peut pas être utilisée seule. En effet, la compréhension du langage naturel est une technologie qui ne traite que des données textuelles. Par conséquent, afin d’égaler les capacités de compréhension du Cloud tout en restant sur l’appareil, vous devrez exploiter un système de reconnaissance automatique de la parole (ASR) en plus de la compréhension automatique du langage (NLU). Votre système sera alors en mesure de répondre à toutes les commandes vocales, quelle que soit la façon dont vos utilisateurs veulent s’exprimer.

Enfin, les NLU les plus performants aujourd’hui sont gourmands en termes de préparation des données et de consommation de mémoire. La plupart des moteurs NLU sont donc aujourd’hui limités au Cloud et exclus des architectures de systèmes embarqués… Mais jusqu’à quand ?

 

Cet article a été rédigé en collaboration avec le docteur Firas Hmida du département R&D de Vivoka, expert en apprentissage automatique et en traitement du langage naturel.

Pour les développeurs, par des développeurs

Commencez à développer votre solution d'IA vocale avec le VDK

1

Inscrivez-vous sur la Console

Avant d'intégrer la voix avec le VDK, testez notre Console en ligne.

2

Développez et testez

Définissez et créez votre projet pour développer vos fonctionnalités.

3

Partagez votre projet

Partagez votre projet et discutez-en avec nos experts pour une intégration.

console by vivoka - demo ar/vr francais

C'est toujours le bon moment pour en apprendre plus sur les applications de la technologie vocale