Loi européenne sur l’IA : “Le tatouage numérique permet de repérer les deepfakes”

11-04-2024 | 13:36

Africa-Press – CentrAfricaine. Sciences et Avenir: L’AI Act prévoit, entre autres, la possibilité de marquer, par un tatouage numérique (watermarking), des contenus pour savoir s’ils ont été générés ou non par une intelligence artificielle (IA). En quoi est-ce un enjeu de données personnelles et de vie privée ?
Alexis Léautier: Le premier objectif du tatouage numérique consiste à évacuer la possibilité qu’un texte ou une image générée soit réel. Ce tatouage appliqué aux sorties de l’IA permet d’éviter une utilisation trompeuse du contenu et d’assurer sa traçabilité. Le deuxième enjeu consiste à appliquer un marquage aux données d’entraînement, pour savoir si des contenus ont été utilisés pour l’apprentissage de modèles de génération d’images, de textes, etc. De notre point de vue, cela permettrait de vérifier que les droits des personnes concernant l’utilisation de leurs données ont été respectés.

“Ce projet nécessite une fédération des acteurs”
Dans un texte publié sur le site du laboratoire d’innovation numérique de la Cnil, vous expliquez que certains géants des technologies font déjà du marquage de contenus issus de leurs propres outils d’IA. En quoi cela consiste-t-il ?

La plupart des acteurs de l’IA générative se sont regroupés au sein de la C2PA, la Coalition pour l’origine et l’authenticité des contenus content. On y trouve Adobe, Google, Intel, Microsoft… Pour le moment, ils ont une sorte de standard de watermarking mais qui ne correspond pas tout à fait à ce que nous nous entendons par ce terme puisque ce n’est pas directement le contenu qui est tatoué. Leur solution consiste plutôt à associer une métadonnée à l’image ou au texte généré, pour vérifier a posteriori qu’il s’agit d’un contenu artificiel. Cette métadonnée pourrait donc être retirée après coup par un utilisateur malveillant ou peu rigoureux.

Cela reste utile, notamment sur les réseaux sociaux où la métadonnée peut être lue par le site et une icône ajoutée sur le contenu pour indiquer sa provenance. Ce projet nécessite toutefois une fédération des acteurs (fournisseurs d’IA générative, et éditeurs de réseaux sociaux) pour établir et utiliser un système commun, ce qui doit être salué ici. Mais ce n’est pas la solution la plus robuste.

La technique du watermarking est connue (elle servait déjà à la lutte contre le piratage de musique sur Internet), mais elle est réputée plus difficile à mettre en œuvre pour du texte que pour des images. Pourquoi ?

C’est lié à la quantité d’informations disponible dans le contenu. Dans du texte, il y en a peu par nature. Si on rajoute quelque chose, cela se verra (cette interview compte autour de 6000 caractères par exemple, qui ne peuvent pas être modifiés librement sans perte de sens, ndlr). On peut imaginer que du texte généré artificiellement sélectionne certains mots dans une liste prédéfinie. En vérifiant a posteriori la présence en nombre de ces mots dans le texte analysé, on peut déterminer si le texte est artificiel. Mais pour que ce soit vraiment robuste, les mots doivent être très spécifiques, donc cela devient évident, voire le texte risque d’y perdre son sens initial.

Une image, au contraire, comporte une grande quantité de pixels, chacun porteur d’une couleur appartenant à une large palette. On peut jouer, pixel par pixel, sur une toute petite variation de couleur. L’image sera un tout petit peu dénaturée mais l’œil humain ne le verra pas. Si l’on découpe une partie de l’image, on pourra quand même vérifier la présence du watermark (tatouage).

“Le texte oblige ceux qui génèrent des deepfakes à indiquer très clairement que le contenu est artificiel”
Qu’est-ce que l’AI Act prévoit en matière d’empreinte numérique et quelles mesures vont être obligatoires ?

L’article 52 impose aux concepteurs de systèmes d’IA générative de permettre une vérification a posteriori qu’un contenu a été généré par leur modèle. Le texte est très vague dans la formulation et fixe à un moment, dans ses “considérants”, la possibilité d’utiliser le watermaking. Mais concernant les techniques à utiliser, l’IA Office (organisme créé par l’AI Act, ndlr) fera des recommandations plus précises.

Dans le même article 52, le texte oblige les utilisateurs qui génèrent des hypertrucages, ou deepfakes, à indiquer très clairement que le contenu est artificiel.

Ces mesures concernent-elles tout type de contenu ?

Image, texte, vidéo et son, oui. Mais avec une exception quand le système d’IA est utilisé de manière accessoire et que tout le contenu n’est pas généré de manière artificielle. Quand on veut réécrire ou reformuler, modifier une image à la marge.

Mais il existe d’autres approches relevant de la détection en aval: on entraîne un modèle à détecter si un texte est artificiel ou non, issu d’un autre modèle d’IA. Sauf que les performances de ces techniques diffèrent selon que le contenu a été généré par un modèle ou un autre. Si un nouvel outil devait émerger, entraîné sur des données dont on n’avait pas connaissance avant, la performance serait moindre et, au moins pendant un certain temps, la détection ne fonctionnerait plus.

L’AI Act est-il vraiment le premier texte à encadrer ainsi l’usage de l’intelligence artificielle, à exiger de la transparence et une absence d’ambiguïté ?

On peut citer l’article 22 du Règlement général sur la protection des données (règlement européen de 2016, ndlr). Il stipule qu’une personne a le droit de ne pas faire l’objet d’une décision purement automatisée quand cette décision a des impacts significatifs pour elle. Selon l’interprétation de la Cnil, l’intelligence artificielle peut rentrer dans cette définition. En pratique l’on observe assez rarement ce cas.

Le Code des relations entre le public et les administrations (CRPA) impose, lui, certaines obligations de transparence pour les décisions individuelles prises par l’administration sur le fondement d’un traitement algorithmique. La loi bioéthique, également, demande que le fonctionnement des systèmes d’IA embarqués dans des dispositifs médicaux soient expliqués à l’utilisateur et que leur utilisation soit indiquée au patient. Mais ces deux textes portent sur la prise de décision automatisée, ce qui n’est pas encore un cas d’usage connu de l’IA générative.

Citons également le projet de loi sur la sécurité et la régulation de l’espace numérique. Il compte deux articles sur les deepfakes. Même chose: le texte exige de mentionner clairement que le contenu est artificiel, quand il n’est pas interdit.

Pour plus d’informations et d’analyses sur la CentrAfricaine, suivez Africa-Press

ARTICLES CONNEXESPLUS DE L'AUTEUR

Pillage à Yalinga : Les Mercenaires du Groupe Wagner Sèment le Chaos à l’hôpital

Nairobi accueille le président de la république venu participer au sommet de l’IDA 21.

le ministère des Eaux et Forêts suspend des permis artisanaux de coupe de bois non loin de Bangui

les habitants de Bamingui craignent la recrudescence de l’insécurité sur l’axe Mbrès

La Cemac face au casse-tête de la répartition des postes-clés à la tête de ses institutions

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR