Deepfakes : « Nous sommes encore dans l’adolescence de notre rapport au numérique »

2025-03-27

Africa-Press – CentrAfricaine. C’était en 2015. Dans la série documentaire Juger Pétain de Philippe Saada, on pouvait entendre une reconstitution de la voix du maréchal. La même année, celle de Louis de Funès était donnée à un personnage du film de Jamel Debbouze Pourquoi j’ai pas mangé mon père. Il ne s’agissait pas d’archives existantes mais de modèles vocaux numériques permettant de faire prononcer à une voix de synthèse n’importe quel texte.

Derrière cette technologie, l’Institut de recherche en coordination acoustique/musique à Paris (Ircam). Chercheur au laboratoire Sciences et Technologies de la Musique et du Son, unité mixte de l’Ircam, du CNRS et de Sorbonne Université, Nicolas Obin a travaillé sur ces projets. Cette expertise le mène aujourd’hui sur un terrain plus sensible: la détection des deepfakes, ces contenus audio et vidéo générés par intelligence artificielle (IA) dans un but de manipulation. Entretien.

Sciences et Avenir: Comment l’Ircam se retrouve-t-il à travailler sur les deepfakes ?
Nicolas Obin: Cela ne coule pas de source car l’Ircam a plutôt vocation à travailler sur des thématiques artistiques et créatives. Mais il s’avère que les avancées scientifiques et technologiques sur les intelligences artificielles génératives permettent aujourd’hui d’obtenir une qualité de rendu qui pose des problèmes de sécurité. S’y ajoute une démocratisation massive des algorithmes de création de deepfakes audio ou audiovisuels à partir de données publiques. Et les données publiques, on en trouve en quantité sur internet !

Etant donné l’expertise de l’Ircam en synthèse sonore depuis plus de quarante ans, nous avons été sollicités pour travailler sur deux projets de détection. L’un, DeTox, est mené en collaboration avec l’enseignant-chercheur Jean-Luc Dugelay de l’école d’ingénieurs Eurecom, financé par l’Agence nationale de la recherche (ANR) via le programme Astrid, qui concerne des thématiques de défense. L’autre, BRUEL, également financé par l’ANR, regroupe plusieurs laboratoires et organismes français liés à la sécurité.

« Notre rôle est de générer des contenus pour monter des attaques les plus réalistes possibles »
Quel est le rôle de l’Ircam exactement ?

Dans le projet DeTox, il y a plusieurs groupes d’intervenants: les attaqueurs et les défenseurs. Nous faisons partie des premiers. C’est-à-dire que notre rôle est de générer des contenus pour monter des attaques les plus réalistes possibles, avec nos algorithmes à nous mais aussi avec une sélection d’outils issus de bibliothèques de codes librement accessibles.

Nous créons des deepfakes combinant audio et vidéo, ce qui repose sur une problématique de synchronisation labiale. Pour cela, nous disposons de plusieurs algorithmes. Un pour le deepfake audio, un deuxième pour le deepfake vidéo et un troisième effectue la synchronisation.

Quand l’Ircam reproduit les voix du maréchal Pétain, de Marilyn Monroe (pour le film Marilyn de Philippe Parreno, 2012) ou de Louis de Funès, peut-on parler de deepfakes ?

C’étaient des « fakes » mais il manquait le « deep », qui renvoie au « deep learning », les réseaux de neurones profonds. Ceux-ci ne dominaient pas encore l’IA à l’époque de ces projets. Nous avons eu recours à d’autres méthodes, nécessitant à la fois plus d’interventions humaines mais aussi plus d’intelligence créative ! Tout était donc plus couteux que maintenant. Il nous fallait notamment trente minutes d’enregistrement vocal quand cinq minutes, voire cinq secondes, peuvent suffire aujourd’hui.

Depuis 2020, nous avons des algorithmes basés sur les réseaux de neurones et c’est ce que nous avons utilisé pour l’émission Hôtel du temps (2022) avec Dalida (un deepfake vidéo et vocal, ndlr), avec le général De Gaulle pour Le Monde (l’appel du 18 juin 1940 à la BBC, dont il n’existe aucun enregistrement, recréé en 2023, ndlr), ou pour l’exposition Surréalisme (2024) avec la voix d’André Breton.

« Nous disposons d’un avantage stratégique sur l’attaqueur »
Il existe beaucoup de projets de détection de deepfakes, les uns basés sur des incohérences dans les contenus, d’autres sur des caractéristiques mathématiques des fichiers générés. Quelle est votre approche ?

C’est l’équipe d’Eurecom qui s’occupe de la détection proprement dite. Nous, nous créons des bases de contenus synthétiques. Tout le projet se base sur un constat: on ne peut pas développer un détecteur universel, qui fonctionnerait sur des deepfakes de tout le monde. Nous avons donc identifié des personnalités pour lesquelles il peut être critique, en termes de sécurité, de faire des faux. Et le but est de développer des détecteurs dédiés à ces personnalités.

Nous disposons d’un avantage stratégique sur l’attaqueur. Tout le monde, en premier lieu l’attaquant, peut télécharger et exploiter les données publiques comme celles de la chaîne vidéo officielle du Président de la République française. Or, pour des raisons d’optimisation de stockage, de bande passante, notamment sur les réseaux sociaux, ces contenus sont de qualité hétérogène, dégradée, avec de la compression, etc. Nous exploitons, nous aussi, ces contenus mais nous créons aussi les nôtres, avec la qualité et la quantité que l’on souhaite.

Une ancienne ministre est ainsi venue enregistrer dans nos studios de l’Ircam. Nous disposons de trois heures et demie de captation, effectuées avec trois caméras HD couvrant l’intégralité des poses nécessaires à la modélisation de son visage. Sa voix a été enregistrée avec des techniques professionnelles.

Tout cela sert à développer nos propres générateurs de deepfakes. Comme les hackers dans les centres de sécurité informatique, nous sommes là pour pousser les limites des attaques qui, en retour, augmenteront la fiabilité des algorithmes de détection. Mais ne sont concernés que des deepfakes relatifs à telle ou telle personnalité.

Sur quoi porte le projet BRUEL ?

Il se focalise sur l’audio avec un objectif de standardisation et de certification des modes opératoires d’attaques par deepfakes. Nous travaillons avec Eurecom, là encore, le laboratoire d’informatique d’Avignon Université, le CEA et le Service national de la police scientifique.

L’idée est d’établir une grille d’évaluation de la complexité d’une attaque donnée. Quel est le degré d’expertise nécessaire ? Est-ce un quidam sans connaissance particulière en informatique qui est derrière ? Ou un étudiant scientifique ? Ou une batterie de chercheurs spécialisés disposant de milliers de microprocesseurs ? A partir de cette évaluation, et en fonction des ressources existantes (algorithmes, bases de données…), nous faisons un échantillonnage des modes opératoires envisageables.

La police scientifique nous aide ensuite à trouver des scénarios crédibles dans lesquelles ces attaques peuvent être mise en œuvre. Cela va du phishing à des opérations critiques mettant en danger la sécurité d’un Etat, avec des fausses déclarations de dirigeants en temps de guerre, par exemple. A la fin, nous pourrions réaliser ces attaques, de la plus simple à la plus compliquée, et les confronter à des détecteurs.

« La solution technologique n’est pas suffisante »
Comme vous le disiez, la qualité des deepfakes s’est considérablement améliorée en quelques années. Faut-il s’attendre à voir évoluer les modes opératoires ?

Pour l’instant, la défense contre les deepfakes part du principe qu’elle est face à du contenu soit totalement artificiel, soit totalement authentique. Or, on est de plus en plus confronté à des contenus qui mélangent les deux. C’est pour cela que, parmi les pistes dégagées par le projet DeTox figure le développement d’algorithmes d’explicabilité. Ils indiqueraient, par le biais d’une carte de couleurs par exemple, la probabilité que telle région d’une image, tel passage d’un son ont été manipulés, et qu’à l’inverse telle région est plutôt réelle. Ce serait un outil d’aide à la décision, une alerte.

Mais il reste un aspect fondamental à bien avoir en tête: la solution technologique n’est pas suffisante. Nous sommes encore dans l’adolescence de notre rapport au numérique. Il faut éduquer les gens au fait que tout ce qui est médiatisé par du numérique est par défaut sujet à caution. Il est probable que la réponse aux deepfakes vienne plus de ce côté, quand les gens auront une meilleure maturité critique.

Pour plus d’informations et d’analyses sur la CentrAfricaine, suivez Africa-Press

ARTICLES CONNEXESPLUS DE L'AUTEUR

France Renforce Son Influence Militaire En Centrafrique

Justice Démographique Appelée par le Ministre de la Santé

600 combattants de l’UPC déposent les armes

FACA Renforce Ses Rangs Avec Plus De Cent Sous-Officiers

Motocycliste Tué Par Véhicule de Garde Présidentielle

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR