ChatGPT-3 raisonne aussi bien que des étudiants, selon une étude de psychologues californiens

12
ChatGPT-3 raisonne aussi bien que des étudiants, selon une étude de psychologues californiens
ChatGPT-3 raisonne aussi bien que des étudiants, selon une étude de psychologues californiens

Africa-Press – Guinee Bissau. Le raisonnement par analogie est ce qui nous permet de résoudre un problème nouveau en s’inspirant de nos connaissances sur des situations similaires. Il intervient aussi lorsqu’on trouve des similarités entre des musiques, des histoires, des évènements de la vie quotidienne ou des lieux. Récemment, de nombreux débats ont émergé avec ChatGPT d’Open AI sur la présence ou non du raisonnement analogique dans les intelligences artificielles.

Dans un article publié dans Nature human behavior le 31 juillet 2023, des psychologues de l’université de Californie (UCLA) aux Etats-Unis, ont testé la capacité du grand modèle de langage ChatGPT-3 à raisonner sur des problèmes nouveaux sans aucun entraînement préalable. Ils ont trouvé qu’il était aussi performant voir meilleur que des étudiants de l’UCLA !

“Grand modèle de langage”. Pour rappel, ChatGPT-3 est un grand modèle de langage (LLM, large language model) sur lequel sont bâties les intelligences artificielles génératives. Ces dernières sont capables de générer du texte, une image ou même des sons nouveaux (en s’inspirant des données avec lesquelles elles ont été entraînées). Il a été entraîné avec 175 milliards de paramètres et les données d’internet datant d’avant 2019.

Une capacité étonnante dans l’interprétation de modèles abstraits

Tous les participants de l’expérience étaient des étudiants de premier cycle de l’UCLA. L’objectif des chercheurs était de tester la capacité de ChatGPT-3 à résoudre des problèmes avec peu de formation initiale, ne nécessitant parfois que quelques exemples, ou même une simple instruction de tâche. Les différents exercices proposés au modèle de langage et aux participants de l’expérience ont été décomposés en cinq parties : problèmes de raisonnement matriciel, analogies de chaînes de lettres, analogies verbales et analogies d’histoires. Dans les exercices nécessitant un certain niveau d’abstraction, comme avec les matrices progressives de Raven, une famille de tests à choix multiples qui mesurerait le raisonnement analogique, ChatGPT obtenait des résultats supérieurs aux participants.

Pour les chercheurs, sa réussite à l’épreuve des matrices peut être considérée comme la preuve qu’il a acquis “les capacités de base sous-jacentes à l’analogie”, bien qu’il soit important, dans les travaux futurs, d’étudier la manière dont ces processus de raisonnement “peuvent être utilisés pour la résolution des problèmes”. Il convient de noter que même si ChatGPT a globalement eu des meilleurs résultats que la moyenne des étudiants, certains participants l’ont aussi surpassé.

Exemple de problème illustrant la structure des matrices progressives de Raven. Ils consistent en une matrice 3 × 3 (3 lignes et 3 colonnes) peuplée de formes géométriques, dont chaque ligne ou colonne est régie par le même ensemble de règles abstraites. L’objectif est de déduire la cellule manquante en bas à droite, en choisissant parmi les huit options ci-dessous. Crédits : Taylor Webb, Keith J. Holyoak & Hongjing Lu

Mais ChatGPT est moins performant sur les histoires

Notre faculté de déceler des points communs entre les choses et les idées peut se retrouver dans le développement de certains concepts comme celui du monomythe, développé par le mythologue américain Joseph Campbell, qui décortique le voyage du héros en mettant en lumière les schémas similaires dans les mythes fondateurs. Un raisonnement analogique qui nécessite cette fois d’être attentif à l’intrigue, aux retournements de situation et autres schémas narratifs. Les chercheurs ont voulu savoir si ChatGPT-3 était aussi capable d’interpréter et de trouver des connexions entre des histoires.

Ils ont présenté une première histoire puis on demandé aux participants de comparer avec deux autres histoires et de déterminer laquelle est la plus similaire. Contrairement aux autres tâches, les étudiants surpassèrent ChatGPT-3, comme le montre le graphique ci-dessous.

Les tests préliminaires de ChatGPT-4 indiquent des performances encore meilleures

Lors d’un premier test avec ChatGPT-4, les chercheurs ont constaté qu’il présentait des performances plus élevées dans l’analogie avec les histoires. En effet, il sélectionnait l’histoire qui avait le plus de ressemblance avec celle donnée en guise de comparaison. D’autres tests avec cette nouvelle version de ChatGPT devraient être testés par la suite.

Pour les chercheurs, la question qui reste à élucider est de comprendre comment ChatGPT-3 a atteint un semblant de capacité analogique. Selon leurs hypothèses, cela serait dû à la taille et à la diversité des données d’entraînement de ChatGPT.

Par ailleurs, il est important de noter que le raisonnement analogique de ChatGPT ne ressemble pas strictement au nôtre. Les grands modèles de langage (LLM) reçoivent des ordres de grandeur avec une quantité de données d’entraînement incomparable avec des connaissances apprises par les êtres humains.

Pour plus d’informations et d’analyses sur la Guinee Bissau, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here