Africa-Press – Côte d’Ivoire. « Potentiel », « approfondit », « crucial », « significatif »… Ces termes, parmi d’autres, ont fait un véritable bond quantitatif dans la littérature biomédicale depuis 2023. La raison ? ChatGPT et, plus généralement, les modèles de langage, de plus en plus utilisés par les chercheurs pour écrire leurs articles.
Détecter qu’un article a été écrit avec ChatGPT ou un autre agent conversationnel
Une équipe de l’université de Tübingen, en Allemagne, a en effet découvert que depuis la mise à disposition pour le grand public de ces outils d’intelligence artificielle, à partir de l’automne 2022, certains termes reviennent de manière excessive dans les articles, sans commune mesure avec leur usage durant les années précédentes. Au point que de tels mots pourraient servir à détecter qu’un article a été écrit avec ChatGPT ou un autre agent conversationnel.
La plateforme PubMed, utilisée pour chercher le vocabulaire en excès dans les articles. PubMed/US Department of Health and Human Services
14,4 millions d’articles sur PubMed
L’étude est disponible en ligne et en prépublication depuis début juillet 2024. Elle a été menée sur 14,4 millions de résumés (en anglais) d’articles scientifiques publiés sur la plateforme PubMed (les « abstracts » placé en tête des articles), entre 2010 et 2024.
Ce phénomène par lequel certains mots surgissent brusquement plus fréquemment que par le passé n’est pas inédit. Avec la crise sanitaire du Covid-19, les termes « pandémie », « confinement », « coronavirus » ont envahi les articles entre 2020 et 2022. Comme « Ebola » en 2015 ou « Zika » en 2017. Mais dans ces contextes-là, cette surabondance concernaient des termes porteurs de sens, liés à un sujet précis. Ce n’est pas le cas à partir de 2023.
L’équipe a identifié 829 termes à usage excessif. Or, sur des périodes comme celle du Covid-19, le vocabulaire relève presque entièrement de ce que les chercheurs appellent des « mots de contenus » (« content words »): respiratoire, remdesivir, masque. A l’inverse, en 2024, les mots surutilisés concernent le style: notamment, complexe, complet, particulièrement. Il s’agit essentiellement de verbes (à 66%) et d’adjectifs alors que les termes qui ressortent lors des périodes Covid-19, Zika ou Ebola sont des noms. Les verbes « mettre en avant » (« showcase ») ou « souligner » (« underscore ») apparaissent dix fois plus qu’avant 2024, et « approfondir » (« delve »), 28 fois.
Le phénomène est « sans précédent en qualité comme en volume, écrivent les auteurs. La fréquence d’utilisation de centaines de mots a bondi de manière abrupte après la mise à disposition de ChatGPT. » Ce qui pourrait faire de cette approche un bon détecteur de l’usage d’IA générative dans l’écriture d’articles scientifiques, quand celui-ci n’est pas mentionné. Les chercheurs ont évalué que 10% des articles accessibles sur PubMed en 2024 ont été en partie écrits avec un modèle de langage.
Pour plus d’informations et d’analyses sur la Côte d’Ivoire, suivez Africa-Press