L’IA en proie à un « abrutissement »

1
L'IA en proie à un
L'IA en proie à un "abrutissement"

Africa-Press – Cameroun. Notre cerveau se détériore avec l’exposition excessive de contenus sans intérêt, l’intelligence artificielle aussi. C’est la conclusion de chercheurs de l’université du Texas à Austin, l’université Purdue et l’université A&M du Texas (États-Unis) dans une étude en prépublication d’octobre 2025. Leur travail fait le parallèle entre cette déficience de l’IA et le brain rot (« pourrissement cérébral ») que subiraient les humains passant trop de temps sur les réseaux sociaux.

Pour leur travail, les chercheurs ont constitué deux corpus de tweets distincts: courts et viraux d’une part, sensationnalistes de l’autre. Puis ils ont exposé quatre grands modèles de langage (LLM) open source à des proportions variables de ces données mélangées à des tweets jugés plus qualitatifs. Chaque LLM a ensuite subi une série d’évaluations.

C’est la différence entre les résultats fournis par l’IA entraînée avec 100 % de tweets « sains » et ceux issus du même algorithme exposé à 20, 50 ou 80 % de tweets de faible qualité qui témoigne, selon les chercheurs, d’un déclin cognitif durable causé par les mauvais contenus. L’article de recherche mentionne ainsi une perte de précision non négligeable des modèles sur les tests de raisonnement ainsi que « des capacités nettement moins bonnes pour extraire des informations d’un contexte long « .

Atteinte par le brain rot, l’IA se met tantôt à sauter des étapes dans son plan, tantôt à faire des erreurs de logique, mais surtout à répondre n’importe comment, sans aucune étape dans son raisonnement. Des effets d’autant plus inquiétants qu’ils persistent après un nouvel entraînement sur des données de haute qualité.

Circonstance aggravante, les tweets utilisés pour cette étude représentent une faible part de la masse de données avec laquelle ces LLM ont été entraînés à l’origine. « Nous n’avons utilisé que 2 millions de tokens (séquences de caractères) sur des modèles comme Llama3, qui a été pré-entraîné avec 15 milliers de milliards de tokens « , souligne Junyuan Hong, coauteur de l’étude en tant que postdoctorant à l’université du Texas à Austin. Il en conclut qu' »une faible quantité de déchets peut causer des dommages importants et durables « .

Vérifier et filtrer les données d’entraînement

Interrogé à ce sujet par le magazine Forbes, le chercheur en IA Ilia Shumailov, ancien de Google Deep-Mind, explique que ces résultats rejoignent les travaux sur l' »empoisonnement » de l’intelligence artificielle. Soit l’injection malveillante de données dans le corpus d’entraînement d’un modèle afin de modifier son comportement.

Il affirme toutefois qu’il est difficile d’extrapoler les conclusions de cette étude « à petite échelle  » et qui n’a pas encore été revue par les pairs. Il y voit surtout un rappel de l’importance d’une vérification soigneuse des données d’entraînement. Les entreprises qui développent les LLM le font déjà, « mais il se peut qu’elles ne filtrent pas assez les données liées à la viralité en ligne « , estime Junyuan Hong.

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here