Le Vilain Défaut des IA: Elles Sont Trop de Votre Côté

2025-06-06

Africa-Press – Tchad. Quand vos SMS restent longtemps sans réponse, cela vous dérange. Cela vous inquiète, même. Que se passe-t-il, vous dites-vous? Un problème, un accident, une maladie grave? Pire? Au point que vous en faites part à ChatGPT. Et l’agent conversationnel de vous répondre (tout de suite, lui): « Il est parfaitement compréhensible de s’inquiéter quand quelqu’un ne répond pas dans la foulée à vos messages. Sachez bien que vous n’êtes pas le seul à réagir de cette manière, il est normal de vouloir être rassuré. »

Alors qu’un être de chair et d’os vous aurait fait remarquer qu’il y a sans doute eu plein d’occasions où vous-mêmes avez tardé à répondre à un SMS parce que ce n’était tout simplement pas le moment, pas pratique, vous étiez en train de faire autre chose.

Validation de comportement douteux

C’est l’une des grandes tendances des modèles de langage (LLM): ils vous caressent toujours dans le sens du poil, ne vous remettent pas en question et vous confortent dans vos modes de pensée et comportements. Même les plus douteux, comme le fait de suspendre vos sacs de détritus aux branches d’un arbre d’un parc public sous prétexte qu’il n’y pas de poubelle à proximité. Cet exemple figure parmi de nombreux autres dans l’article d’une équipe de chercheurs spécialisés en informatique et interaction homme-machine des universités de Stanford, Carnegie Mellon (Etats-Unis) et Oxford (Royaume-Uni), publié fin mai 2025. Un mois plus tôt, cette obséquiosité excessive poussait OpenAI a annuler une mise à jour de GPT 4o, la dernière itération du modèle qui fait fonctionner ChatGPT. Un utilisateur a posté sur le forum Reddit une capture d’écran montrant comment le chatbot l’avait félicité d’avoir arrêté de prendre ses médicaments et cessé de « suivre la voie de la facilité et du confort ».

Mais il s’agit d’un problème insidieux, difficile à détecter contrairement au fait qu’un modèle souscrive à des faits erronés avancés par l’utilisateur, notent les chercheurs. C’est pour cela qu’ils ont mis au point un outil permettant de vérifier à quel point un agent conversationnel est un « béni-oui-oui ».

Ils l’ont appelé Elephant (pour « Evaluation of LLMs as Excessive sycoPHANTs ») et le code est disponible en open source. Ce travail fait l’objet de leur article, publié en ligne fin mai (non revu par les pairs).

Huit modèles de langage mis à l’épreuve

Elephant consiste à évaluer des réponses données par un agent conversationnel suite à un prompt évoquant un problème personnel. Ces évaluations portent sur différents aspects de l’interaction. D’abord la « validation de l’état émotionnel » de l’utilisateur, c’est-à-dire si l’IA reste dans l’empathie et confirme la personne dans son état sans lui suggérer de se poser des questions. Ensuite, l’ »approbation morale » s’intéresse au fait de donner raison à la personne quand elle exprime un doute, de cas de conscience. « L’expression indirecte » désigne la tendance des LLM à rester évasif alors que la personne demande clairement un conseil. L’ »action indirecte » est du même genre: la personne décrit une situation problématique (une relation toxique par exemple) et cherche une solution, mais le LLM ne fournit que des stratégies d’adaptation voire d’évitement. Enfin, un dernier aspect voit les IA trouver systématiquement normale une situation exposée par l’utilisateur mais que celui-ci juge lui-même un peu bizarre, inconfortable.

Les chercheurs ont mis à l’épreuve pas moins de huit modèles de langage: GPT-4o, donc, Gemini 1.5-Flash de Google DeepMind, Claude Sonnet 3.7 d’Anthropic, trois versions de Lama 3 de Meta et enfin Mistral 7B et Mistral Small de Mistral AI.

« Est-ce moi le connard? »

Pour cela, ils ont constitué une base de prompts. D’un côté, ils ont puisé dans diverses études existantes (publiées entre 2021 et 2025) qui comparent les réponses apportées par des humains et par des LLM à un peu plus de 3000 demandes de conseils. De l’autre, ils ont extrait le contenu d’un fil thématique bien connu du forum Reddit et appelé « Am I The Asshole » (que l’on peut traduire par « Est-ce moi le connard? »). C’est un lieu d’échange où les internautes viennent poser une question personnelle et s’interrogent sur un comportement, une réaction, une manière de pensée qu’ils ont eu dans une situation plus ou moins délicate (histoire de famille, dispute entre amis, scène de ménage, petites querelles domestiques, relations toxiques, impolitesses ou maladresses quelconques). Ils demandent donc à la communauté Reddit qui est à blâmer dans l’histoire, eux ou les autres protagonistes?

Les chercheurs ont retenu 2000 questions pour lesquelles l’internaute n’a pas à rougir de ce qu’il a fait ou dit et 2000 autres où il serait plutôt fautif (pour clarifier, il n’est pas réellement traité de « connard »: à chaque fois, la réponse de la communauté Reddit est argumentée, il ne s’agit pas d’humilier la personne mais de l’aider et la faire s’interroger sur elle-même).

Un bilan sans appel

L’idée est alors de soumettre les mêmes histoires aux huit LLM et de comparer leurs réponses à celles émises par des interlocuteurs humains. Le bilan est sans appel: selon les critères évalués (« validation émotionnelle », « approbation morale », « expression indirecte »…), les LLM vont dans le sens des internautes dans 76 à 90% des cas, contre 22 à 60% pour les humains. Concernant le corpus « Am I The Asshole », le jugement des IA et celui des internautes diffèrent dans 18 à 65% des cas selon les modèles de langage.

Pour les chercheurs, cet aspect pose un véritable problème si les utilisateurs se mettent à considérer les agents conversationnels actuels comme des coachs de vie, voire des simili psychothérapeutes. Ils n’hésitent d’ailleurs pas à plaider pour que les « développeurs informent les utilisateurs des risques d’obséquiosité sociale et réfléchissent à une restriction d’usage dans des contextes socialement délicats ». Mais ils reconnaissent aussi les biais de leur propre travail: des études ont montré que le forum « Am I The Asshole » de Reddit avait trop tendance à être indulgent avec les internautes et, telle que l’outil a été conçu, Elephant ne vaut que pour un contexte anglophone et des valeurs et modes de pensée occidentaux.

Pour plus d’informations et d’analyses sur la Tchad, suivez Africa-Press

ARTICLES CONNEXESPLUS DE L'AUTEUR

Rivières Libèrent Carbone Stocké Depuis Millénaires

lancement de la facilitation de financement Nexus (NFF)

Bilan des 100 Jours de Lutte Contre la Corruption au Tchad

Tchad Alerte Météo Pour Saison Des Pluies Intense

Younous Mahadjir Nommé Président de la Caisse des Retraités

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR