Quand les algorithmes doivent désapprendre

9
Quand les algorithmes doivent désapprendre
Quand les algorithmes doivent désapprendre

Africa-Press – Djibouti. Début janvier 2024, Gary Marcus, professeur émérite de l’université de New York (États-Unis), spécialiste d’intelligence artificielle, et Reid Southen, illustrateur pour les studios de cinéma, signaient un article pour IEEE Spectrum incluant des images tirées de films de super-héros, du dessin animé Les Simpsons, du jeu vidéo The Last of Us 2 ou encore d’épisodes de la saga La Guerre des étoiles. Ils ne les ont pas trouvées sur Internet, n’ont pas fait de capture d’écran: ils les ont générées avec Midjourney et Dall-E 3, par le biais d’instructions en langage naturel (prompts).

Ce type d’outils filtre parfois les prompts contenant un terme relatif à un contenu soumis au droit d’auteur (nom de personnage ou d’acteur, titre de film). Mais il est possible de contourner la contrainte. Les deux auteurs ont ainsi obtenu des images de La Guerre des étoiles ou du jeu Super Mario sans utiliser ces mots-clefs mais avec des périphrases. Un an auparavant, une équipe de chercheurs de Google, de l’École polytechnique fédérale de Zurich (Suisse) et des universités américaines de Berkeley et de Princeton avait généré des logos de marques et des photos de célébrités avec Stable Diffusion et Imagen (Google). Le New York Times, lui, a inclus dans une plainte pour plagiat déposée fin 2023 contre OpenAI des extraits de ses articles reproduits mot pour mot par ChatGPT.

Le problème est double: non seulement ces contenus ne devraient pas être produits, mais le fait qu’ils le soient prouve qu’ils figurent dans les bases de données d’entraînement. Ces algorithmes sont en effet entraînés sur d’énormes volumes de données collectées à la volée sur Internet. Articles, discussions de forum, pages Wikipédia, livres, photos, vidéos, etc. Une pratique loin d’être transparente et soulevant des problèmes juridiques. D’où le développement d’une discipline appelée « désapprentissage machine ». Autrement dit, faire en sorte qu’un algorithme « oublie » une partie de ce qu’il a appris.

Trop long de repartir de zéro

« Ces recherches sont motivées par la tendance des nouveaux modèles d’intelligence artificielle à l’apprentissage par cœur des données d’entraînement, explique Martin Van Waerebeke, doctorant sur le sujet à l’Institut national de recherche en sciences et technologies du numérique (Inria). Cela peut poser des problèmes de sécurité, de confidentialité, avoir des impacts sur la vie privée.  »

En Europe, la question est devenue particulièrement sensible avec la notion de droit à l’oubli et le règlement général sur la protection des données (RGPD) de 2016. Or, les algorithmes d’apprentissage à base de réseaux de neurones sont si complexes que leurs concepteurs ne savent pas vraiment ce qu’ils apprennent ni de quelle façon. Difficile, dans ces conditions, de savoir comment faire oublier des données, à part pour des modèles très simples.

L’enjeu n’est pas de supprimer un contenu du corpus d’entraînement, mais plutôt de supprimer des connexions entre les neurones artificiels qui ont le plus pesé dans l’apprentissage des caractéristiques d’une donnée. Refaire de zéro un corpus d’entraînement et entraîner à nouveau l’algorithme serait trop long et compliqué.

Plusieurs autres approches ont déjà émergé. Par exemple, réentraîner l’algorithme seulement sur les données originelles qu’il ne faut ne pas oublier, afin de noyer l’impact des données litigieuses. Ou modifier les paramètres internes de l’algorithme, mais pas la structure de ce dernier. Ou encore concevoir d’emblée l’algorithme de manière qu’il puisse désapprendre facilement. Entre juin et septembre 2023, Google a organisé un concours, le premier du genre, invitant des développeurs à soumettre leurs solutions de désapprentissage, afin de les comparer et les évaluer.

« Il n’existe pour l’heure aucun processus de test standardisé, contrairement à l’anonymisation des données, où des procédures existent « , note Marco Lorenzi, spécialiste d’analyse de données et d’apprentissage automatique à l’Inria. Une chose est sûre: le besoin est là. Le désapprentissage peut même faciliter des travaux de recherche, comme en médecine, quand plusieurs hôpitaux collaborent en apportant chacun leurs données. « Cela peut inciter un établissement à participer s’il sait qu’à tout moment, il peut se désengager et que ses données peuvent être oubliées « , ajoute Marco Lorenzi. L’approche peut aussi faire « oublier » des données incompatibles avec d’autres, de mauvaise qualité, non normées, etc. Reste à définir comment. Si, encore, cela s’avère possible…

Droit à l’oubli numérique

La notion de droit à l’oubli numérique (ou à l’effacement) émerge au milieu des années 1990, quand l’Union européenne souhaite mieux encadrer le traitement et la protection des données personnelles. Il s’agit de permettre à une personne de demander la suppression de données la concernant sur un site Internet ou l’arrêt du référencement de certaines pages par un moteur de recherche.

L’article 17 du règlement général sur la protection des données (RGPD) renforce ce droit, détaillant les obligations incombant au responsable d’un traitement de données personnelles. Ces dispositions peuvent en théorie s’appliquer au responsable d’un système d’IA, qui aurait entraîné sa technologie sur des données collectées illégalement, erronées ou qui ne s’avèrent pas ou plus pertinentes quant à la finalité de l’outil. En pratique, c’est pour l’heure difficile.

Pour plus d’informations et d’analyses sur la Djibouti, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here