Les Modèles de Langage et ChatGPT

Depuis son lancement en novembre 2022, ChatGPT est un sujet en vogue et a pris une place importante dans la sphère médiatique. De plus en plus de domaines intègrent de grands modèles de langage (Large Language Models) dans leurs services. Cependant, la question de savoir si la présence croissante de l’IA dans nos vies est bénéfique ou non reste un sujet de débat. Aujourd’hui, les tendances montrent que la plupart des gens sont enthousiastes à l’idée de récolter les bénéfices des LLM et de l’IA conversationnelle. Mais que sont exactement les grands modèles de langage ? Comment sont-ils créés et pourquoi sont-ils si puissants ? Vous trouverez les réponses à ces questions dans cet article de blog !
Avant de plonger dans le monde des LLM, il est important de comprendre l’intuition qui les sous-tend et leurs limites. Cet article a pour but de vous apporter les connaissances nécessaires à la compréhension de la technologie et de vous éclairer sur les (in-)cohérences de ChatGPT.

Cet article a été rédigé en collaboration avec les membres de notre équipe R&D : Firas Hmida, Dr. en Machine Learning & NLP et Nora Lindvall, étudiante en master NLP.

 

Intuition des modèles de langage

Avant de répondre à la question « ChatGPT s’appuie-t-il vraiment sur le NLU ? », voyons comment fonctionnent les LM et l’intuition qui sous-tend leur technologie.
Si vous demandez aux gens si « Il pleut des câbles » semble naturel, la plupart d’entre eux répondront « non, il devrait pleuvoir des cordes ». C’est en partie vrai. Du point de vue du traitement du langage naturel, cette séquence de mots n’est pas fréquente/probable. Plus précisément, les humains parlent en utilisant des mots qui se retrouvent « souvent » ensemble dans un ordre bien défini. Même si nous fournissons la première partie de la phrase « il pleut », un locuteur natif français a tendance à produire « des cordes », car il s’agit d’une combinaison de mots fréquente. C’est ainsi que fonctionnent les modèles linguistiques.

 

Les modèles de langage actuels sont des réseaux neuronaux qui ont été formés sur des textes produits par des humains (considérés comme la « vérité »). Le mécanisme que nous utilisons au cours du processus de formation vise à apprendre au modèle linguistique à deviner le mot suivant pour un ensemble de mots donné. Par exemple, le modèle prend comme entrée « Il était une fois [blanc] » et devrait remplir le [blanc] avec « fois » mais pas avec « région ». Nous avons tendance à parler des modèles de langage en termes de probabilité. Un énoncé « naturel » (humainement acceptable) est une séquence de mots dont la probabilité est élevée.

À ce niveau (et pour simplifier les choses), au cours du processus de formation, le modèle linguistique peut prédire ou deviner tous les mots possibles. Vous les classez généralement en fonction de leur probabilité d’apparition dans un énoncé donné. Cela signifie que le modèle de langage doit traiter tous les mots d’une langue donnée. Plus une langue comprend de mots, plus le modèle est important.

 

Grands modèles de langage

 

Nous les appelons « grands » modèles linguistiques (LLM) parce que ces modèles ont besoin d’une mémoire et d’une taille importantes. Ils atteignent plusieurs gigaoctets, en raison de l’inclusion de milliards de paramètres. Les paramètres peuvent être considérés comme des réglages ajustables qui permettent au modèle d’apprendre. Avec plus de paramètres, le modèle peut appréhender des concepts plus complexes. Les LLM tels que GPT3, GPT-4 et ChatGPT, qui sont utilisés en production, s’appuient sur de nombreux superordinateurs fonctionnant sur des serveurs de centres de données.

Au fil du temps, ces modèles sont entraînés sur des ensembles de données massifs, ce qui entraîne une croissance continue de leur taille et une augmentation significative de leur puissance. Grâce à la grande quantité de données qu’ils utilisent lors de la formation, les LLM peuvent effectuer un large éventail de tâches avec une assistance humaine limitée voire inexistante. Il s’agit notamment de rédiger des essais, de répondre à des questions sur la science et la technologie, de résumer des documents et même de coder. Cependant, leur objectif fondamental est de prédire le mot suivant dans une phrase, comme le fait la fonction d’auto-complétion lors de la rédaction d’un courrier électronique.

 

Pourquoi les LLM sont-ils si puissants ?

Si les LLM, comme ChatGPT et d’autres, se contentent de prédire le mot suivant dans une phrase donnée, il est essentiel de comprendre qu’il s’agit là d’un « raisonnement » ou d’une « pensée » hautement spécialisés du point de vue humain – une seule façon de penser.

En fait, le concept initial de modèles linguistiques a été introduit par Claude Shannon dans les années 50. Ce qui est réellement nouveau aujourd’hui, c’est l’essor de l’informatique que l’on peut atteindre grâce aux serveurs des centres de données, et leur combinaison avec les algorithmes d’apprentissage automatique.

Pourquoi ces algorithmes sont-ils si puissants ?

Deux éléments essentiels contribuent au succès de ces modèles :

  • Le premier aspect concerne leur capacité à mélanger les contextes de mots d’une manière qui améliore considérablement leur capacité à prédire le mot suivant ;
  • L’autre composante de ce facteur clé réside dans la méthodologie de formation. Les grands modèles de langage sont formés à l’aide de quantités massives de données recueillies auprès de diverses sources en ligne. Ces sources comprennent des livres, des blogs, des sites d’information, des articles de Wikipédia, des discussions sur des plateformes et des conversations sur les médias sociaux.

 

Tout au long de la formation, nous fournissons un banc de texte provenant de l’une de ces plateformes et demandons au modèle de prédire le mot suivant. Si la prédiction du modèle est incorrecte, nous procédons à de légers ajustements du modèle jusqu’à ce qu’il produise la bonne réponse. Si l’on considère l’objectif de l’entraînement d’un LLM, il vise à générer un texte qui aurait pu être trouvé sur l’internet. Comme il ne peut pas mémoriser l’intégralité de l’internet, il s’appuie sur des représentations codées pour faire des compromis. Cela peut occasionnellement entraîner de légères inexactitudes, qui, espérons-le, ne sont pas significatives.

 

ChatGPT va-t-il prendre le dessus ?

Ne vous laissez pas tromper – ChatGPT peut sembler avoir une vie propre, mais ce n’est qu’une illusion. En coulisses, il génère simplement des résultats à partir de sa base de données de textes écrits par des humains. Il prédit le mot suivant sur la base d’un contexte étendu. Il n’est en aucun cas conscient ou doté d’une volonté propre. Contrairement à ce que l’on peut voir dans les films, il n’y a pas lieu de craindre que ChatGPT se retourne soudainement contre l’humanité et cherche à dominer le monde. Aussi direct que cela puisse paraître, ce n’est qu’un modèle qui fait des prédictions. Une dernière chose : si vous voulez connaître l’opinion de Yann LeCun, l’un des chercheurs pionniers de l’apprentissage profond, nous vous suggérons de lire cette interview.

 

 

Pour les développeurs, par des développeurs

Commencez à développer votre solution d'IA vocale avec le VDK

1

Inscrivez-vous sur la Console

Avant d'intégrer la voix avec le VDK, testez notre Console en ligne.

2

Développez et testez

Définissez et créez votre projet pour développer vos fonctionnalités.

3

Partagez votre projet

Partagez votre projet et discutez-en avec nos experts pour une intégration.

console by vivoka - demo ar/vr francais

C'est toujours le bon moment pour en apprendre plus sur les applications de la technologie vocale