L’Effondrement pas si Inéluctable des IA

5
L’Effondrement pas si Inéluctable des IA
L’Effondrement pas si Inéluctable des IA

Africa-Press – Madagascar. Et si, malgré leurs performances époustouflantes, les intelligences artificielles (IA) génératives actuelles étaient vouées à décliner? En 2024, dans Nature, des chercheurs des universités de Cambridge et Oxford (Royaume-Uni) avançaient la notion d’ »effondrement des modèles «. À partir de tests menés avec GPT, ils montraient qu’un « usage systématique de contenus générés dans l’apprentissage provoque des défaillances irréversibles dans les résultats des modèles de langage ».

En lui-même, le sujet remonte aux modèles de génération d’images à partir d’instruction en langage naturel, tels Dall-E, Midjourney ou Stable Diffusion. « La question ne s’était pas posée avant l’apparition de ces outils, entre 2021 et 2022, car les IA génératives existantes n’étaient pas si performantes « , précise Quentin Bertrand, chargé de recherche à l’Inria de Lyon et au laboratoire Hubert-Curien. Dans un article cosigné avec Gauthier Gidel, professeur à l’université de Montréal (Canada), il relativise ce scénario catastrophe.

En testant trois modèles de génération d’images, les deux chercheurs ont établi qu’il était possible de les réentraîner sur leurs propres données générées sans dégradation significative des résultats, pour peu que l’on conserve une fraction limite de données réelles dans l’apprentissage. « Plus les données de synthèse sont de bonne qualité, moins on a besoin de données réelles, ajoute Quentin Bertrand. Mais il faut aussi tenir compte de la qualité du modèle lui-même: si le modèle d’IA est bien conçu, on peut réduire le recours aux données réelles. »

L’IA propose une règle de détection à l’analyste

En mars, une méta-étude de chercheurs des universités Stanford et Harvard (États-Unis) tempérait à son tour cette notion d’effondrement. Selon les auteurs, la littérature scientifique, les commentaires d’experts ou la vulgarisation scientifique auraient surtout fait œuvre de mauvaises interprétations et de simplifications. Ils ont aussi noté que, selon les sources, la supposée dégradation des performances des IA ne recouvre pas la même chose. Ils en ont même identifié huit définitions différentes, dont certaines seraient trop vagues. Ils récusent tout fatalisme, estimant que certains phénomènes pointés du doigt, effectivement dus à l’usage de données synthétiques, seraient en fait évitables.

Pour Gauthier Gidel, la vraie question est celle de la diversité des contenus. « Les éléments les moins probables figurant dans le corpus d’entraînement sont les moins souvent générés ; en particulier, ils pourraient être sous-représentés dans les contenus qui serviront à entraîner la nouvelle génération de modèles, ce qui contribuerait à leur lent oubli. C’est un cercle vicieux: une fois oublié, un type de contenu ne peut être réappris. » L’enjeu à venir sera de montrer qu’il est possible de garder la diversité des données avec des contenus synthétiques.

Pour plus d’informations et d’analyses sur la Madagascar, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here