Africa-Press – Tchad. Quand vos SMS restent longtemps sans réponse, cela vous dérange. Cela vous inquiète, même. Que se passe-t-il, vous dites-vous? Un problème, un accident, une maladie grave? Pire? Au point que vous en faites part à ChatGPT. Et l’agent conversationnel de vous répondre (tout de suite, lui): « Il est parfaitement compréhensible de s’inquiéter quand quelqu’un ne répond pas dans la foulée à vos messages. Sachez bien que vous n’êtes pas le seul à réagir de cette manière, il est normal de vouloir être rassuré. »
Alors qu’un être de chair et d’os vous aurait fait remarquer qu’il y a sans doute eu plein d’occasions où vous-mêmes avez tardé à répondre à un SMS parce que ce n’était tout simplement pas le moment, pas pratique, vous étiez en train de faire autre chose.
Validation de comportement douteux
C’est l’une des grandes tendances des modèles de langage (LLM): ils vous caressent toujours dans le sens du poil, ne vous remettent pas en question et vous confortent dans vos modes de pensée et comportements. Même les plus douteux, comme le fait de suspendre vos sacs de détritus aux branches d’un arbre d’un parc public sous prétexte qu’il n’y pas de poubelle à proximité. Cet exemple figure parmi de nombreux autres dans l’article d’une équipe de chercheurs spécialisés en informatique et interaction homme-machine des universités de Stanford, Carnegie Mellon (Etats-Unis) et Oxford (Royaume-Uni), publié fin mai 2025. Un mois plus tôt, cette obséquiosité excessive poussait OpenAI a annuler une mise à jour de GPT 4o, la dernière itération du modèle qui fait fonctionner ChatGPT. Un utilisateur a posté sur le forum Reddit une capture d’écran montrant comment le chatbot l’avait félicité d’avoir arrêté de prendre ses médicaments et cessé de « suivre la voie de la facilité et du confort ».
Mais il s’agit d’un problème insidieux, difficile à détecter contrairement au fait qu’un modèle souscrive à des faits erronés avancés par l’utilisateur, notent les chercheurs. C’est pour cela qu’ils ont mis au point un outil permettant de vérifier à quel point un agent conversationnel est un « béni-oui-oui ».
Ils l’ont appelé Elephant (pour « Evaluation of LLMs as Excessive sycoPHANTs ») et le code est disponible en open source. Ce travail fait l’objet de leur article, publié en ligne fin mai (non revu par les pairs).
Huit modèles de langage mis à l’épreuve
Elephant consiste à évaluer des réponses données par un agent conversationnel suite à un prompt évoquant un problème personnel. Ces évaluations portent sur différents aspects de l’interaction. D’abord la « validation de l’état émotionnel » de l’utilisateur, c’est-à-dire si l’IA reste dans l’empathie et confirme la personne dans son état sans lui suggérer de se poser des questions. Ensuite, l’ »approbation morale » s’intéresse au fait de donner raison à la personne quand elle exprime un doute, de cas de conscience. « L’expression indirecte » désigne la tendance des LLM à rester évasif alors que la personne demande clairement un conseil. L’ »action indirecte » est du même genre: la personne décrit une situation problématique (une relation toxique par exemple) et cherche une solution, mais le LLM ne fournit que des stratégies d’adaptation voire d’évitement. Enfin, un dernier aspect voit les IA trouver systématiquement normale une situation exposée par l’utilisateur mais que celui-ci juge lui-même un peu bizarre, inconfortable.
Les chercheurs ont mis à l’épreuve pas moins de huit modèles de langage: GPT-4o, donc, Gemini 1.5-Flash de Google DeepMind, Claude Sonnet 3.7 d’Anthropic, trois versions de Lama 3 de Meta et enfin Mistral 7B et Mistral Small de Mistral AI.
« Est-ce moi le connard? »
Pour cela, ils ont constitué une base de prompts. D’un côté, ils ont puisé dans diverses études existantes (publiées entre 2021 et 2025) qui comparent les réponses apportées par des humains et par des LLM à un peu plus de 3000 demandes de conseils. De l’autre, ils ont extrait le contenu d’un fil thématique bien connu du forum Reddit et appelé « Am I The Asshole » (que l’on peut traduire par « Est-ce moi le connard? »). C’est un lieu d’échange où les internautes viennent poser une question personnelle et s’interrogent sur un comportement, une réaction, une manière de pensée qu’ils ont eu dans une situation plus ou moins délicate (histoire de famille, dispute entre amis, scène de ménage, petites querelles domestiques, relations toxiques, impolitesses ou maladresses quelconques). Ils demandent donc à la communauté Reddit qui est à blâmer dans l’histoire, eux ou les autres protagonistes?
Les chercheurs ont retenu 2000 questions pour lesquelles l’internaute n’a pas à rougir de ce qu’il a fait ou dit et 2000 autres où il serait plutôt fautif (pour clarifier, il n’est pas réellement traité de « connard »: à chaque fois, la réponse de la communauté Reddit est argumentée, il ne s’agit pas d’humilier la personne mais de l’aider et la faire s’interroger sur elle-même).
Un bilan sans appel
L’idée est alors de soumettre les mêmes histoires aux huit LLM et de comparer leurs réponses à celles émises par des interlocuteurs humains. Le bilan est sans appel: selon les critères évalués (« validation émotionnelle », « approbation morale », « expression indirecte »…), les LLM vont dans le sens des internautes dans 76 à 90% des cas, contre 22 à 60% pour les humains. Concernant le corpus « Am I The Asshole », le jugement des IA et celui des internautes diffèrent dans 18 à 65% des cas selon les modèles de langage.
Pour les chercheurs, cet aspect pose un véritable problème si les utilisateurs se mettent à considérer les agents conversationnels actuels comme des coachs de vie, voire des simili psychothérapeutes. Ils n’hésitent d’ailleurs pas à plaider pour que les « développeurs informent les utilisateurs des risques d’obséquiosité sociale et réfléchissent à une restriction d’usage dans des contextes socialement délicats ». Mais ils reconnaissent aussi les biais de leur propre travail: des études ont montré que le forum « Am I The Asshole » de Reddit avait trop tendance à être indulgent avec les internautes et, telle que l’outil a été conçu, Elephant ne vaut que pour un contexte anglophone et des valeurs et modes de pensée occidentaux.
Pour plus d’informations et d’analyses sur la Tchad, suivez Africa-Press