Loi européenne sur l’IA : “Le tatouage numérique permet de repérer les deepfakes”

2
Loi européenne sur l'IA :
Loi européenne sur l'IA : "Le tatouage numérique permet de repérer les deepfakes"

Africa-Press – CentrAfricaine. Sciences et Avenir: L’AI Act prévoit, entre autres, la possibilité de marquer, par un tatouage numérique (watermarking), des contenus pour savoir s’ils ont été générés ou non par une intelligence artificielle (IA). En quoi est-ce un enjeu de données personnelles et de vie privée ?
Alexis Léautier: Le premier objectif du tatouage numérique consiste à évacuer la possibilité qu’un texte ou une image générée soit réel. Ce tatouage appliqué aux sorties de l’IA permet d’éviter une utilisation trompeuse du contenu et d’assurer sa traçabilité. Le deuxième enjeu consiste à appliquer un marquage aux données d’entraînement, pour savoir si des contenus ont été utilisés pour l’apprentissage de modèles de génération d’images, de textes, etc. De notre point de vue, cela permettrait de vérifier que les droits des personnes concernant l’utilisation de leurs données ont été respectés.

“Ce projet nécessite une fédération des acteurs”
Dans un texte publié sur le site du laboratoire d’innovation numérique de la Cnil, vous expliquez que certains géants des technologies font déjà du marquage de contenus issus de leurs propres outils d’IA. En quoi cela consiste-t-il ?

La plupart des acteurs de l’IA générative se sont regroupés au sein de la C2PA, la Coalition pour l’origine et l’authenticité des contenus content. On y trouve Adobe, Google, Intel, Microsoft… Pour le moment, ils ont une sorte de standard de watermarking mais qui ne correspond pas tout à fait à ce que nous nous entendons par ce terme puisque ce n’est pas directement le contenu qui est tatoué. Leur solution consiste plutôt à associer une métadonnée à l’image ou au texte généré, pour vérifier a posteriori qu’il s’agit d’un contenu artificiel. Cette métadonnée pourrait donc être retirée après coup par un utilisateur malveillant ou peu rigoureux.

Cela reste utile, notamment sur les réseaux sociaux où la métadonnée peut être lue par le site et une icône ajoutée sur le contenu pour indiquer sa provenance. Ce projet nécessite toutefois une fédération des acteurs (fournisseurs d’IA générative, et éditeurs de réseaux sociaux) pour établir et utiliser un système commun, ce qui doit être salué ici. Mais ce n’est pas la solution la plus robuste.

La technique du watermarking est connue (elle servait déjà à la lutte contre le piratage de musique sur Internet), mais elle est réputée plus difficile à mettre en œuvre pour du texte que pour des images. Pourquoi ?

C’est lié à la quantité d’informations disponible dans le contenu. Dans du texte, il y en a peu par nature. Si on rajoute quelque chose, cela se verra (cette interview compte autour de 6000 caractères par exemple, qui ne peuvent pas être modifiés librement sans perte de sens, ndlr). On peut imaginer que du texte généré artificiellement sélectionne certains mots dans une liste prédéfinie. En vérifiant a posteriori la présence en nombre de ces mots dans le texte analysé, on peut déterminer si le texte est artificiel. Mais pour que ce soit vraiment robuste, les mots doivent être très spécifiques, donc cela devient évident, voire le texte risque d’y perdre son sens initial.

Une image, au contraire, comporte une grande quantité de pixels, chacun porteur d’une couleur appartenant à une large palette. On peut jouer, pixel par pixel, sur une toute petite variation de couleur. L’image sera un tout petit peu dénaturée mais l’œil humain ne le verra pas. Si l’on découpe une partie de l’image, on pourra quand même vérifier la présence du watermark (tatouage).

“Le texte oblige ceux qui génèrent des deepfakes à indiquer très clairement que le contenu est artificiel”
Qu’est-ce que l’AI Act prévoit en matière d’empreinte numérique et quelles mesures vont être obligatoires ?

L’article 52 impose aux concepteurs de systèmes d’IA générative de permettre une vérification a posteriori qu’un contenu a été généré par leur modèle. Le texte est très vague dans la formulation et fixe à un moment, dans ses “considérants”, la possibilité d’utiliser le watermaking. Mais concernant les techniques à utiliser, l’IA Office (organisme créé par l’AI Act, ndlr) fera des recommandations plus précises.

Dans le même article 52, le texte oblige les utilisateurs qui génèrent des hypertrucages, ou deepfakes, à indiquer très clairement que le contenu est artificiel.

Ces mesures concernent-elles tout type de contenu ?

Image, texte, vidéo et son, oui. Mais avec une exception quand le système d’IA est utilisé de manière accessoire et que tout le contenu n’est pas généré de manière artificielle. Quand on veut réécrire ou reformuler, modifier une image à la marge.

Mais il existe d’autres approches relevant de la détection en aval: on entraîne un modèle à détecter si un texte est artificiel ou non, issu d’un autre modèle d’IA. Sauf que les performances de ces techniques diffèrent selon que le contenu a été généré par un modèle ou un autre. Si un nouvel outil devait émerger, entraîné sur des données dont on n’avait pas connaissance avant, la performance serait moindre et, au moins pendant un certain temps, la détection ne fonctionnerait plus.

L’AI Act est-il vraiment le premier texte à encadrer ainsi l’usage de l’intelligence artificielle, à exiger de la transparence et une absence d’ambiguïté ?

On peut citer l’article 22 du Règlement général sur la protection des données (règlement européen de 2016, ndlr). Il stipule qu’une personne a le droit de ne pas faire l’objet d’une décision purement automatisée quand cette décision a des impacts significatifs pour elle. Selon l’interprétation de la Cnil, l’intelligence artificielle peut rentrer dans cette définition. En pratique l’on observe assez rarement ce cas.

Le Code des relations entre le public et les administrations (CRPA) impose, lui, certaines obligations de transparence pour les décisions individuelles prises par l’administration sur le fondement d’un traitement algorithmique. La loi bioéthique, également, demande que le fonctionnement des systèmes d’IA embarqués dans des dispositifs médicaux soient expliqués à l’utilisateur et que leur utilisation soit indiquée au patient. Mais ces deux textes portent sur la prise de décision automatisée, ce qui n’est pas encore un cas d’usage connu de l’IA générative.

Citons également le projet de loi sur la sécurité et la régulation de l’espace numérique. Il compte deux articles sur les deepfakes. Même chose: le texte exige de mentionner clairement que le contenu est artificiel, quand il n’est pas interdit.

Pour plus d’informations et d’analyses sur la CentrAfricaine, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here