Africa-Press – CentrAfricaine. C’était en 2015. Dans la série documentaire Juger Pétain de Philippe Saada, on pouvait entendre une reconstitution de la voix du maréchal. La même année, celle de Louis de Funès était donnée à un personnage du film de Jamel Debbouze Pourquoi j’ai pas mangé mon père. Il ne s’agissait pas d’archives existantes mais de modèles vocaux numériques permettant de faire prononcer à une voix de synthèse n’importe quel texte.
Derrière cette technologie, l’Institut de recherche en coordination acoustique/musique à Paris (Ircam). Chercheur au laboratoire Sciences et Technologies de la Musique et du Son, unité mixte de l’Ircam, du CNRS et de Sorbonne Université, Nicolas Obin a travaillé sur ces projets. Cette expertise le mène aujourd’hui sur un terrain plus sensible: la détection des deepfakes, ces contenus audio et vidéo générés par intelligence artificielle (IA) dans un but de manipulation. Entretien.
Sciences et Avenir: Comment l’Ircam se retrouve-t-il à travailler sur les deepfakes ?
Nicolas Obin: Cela ne coule pas de source car l’Ircam a plutôt vocation à travailler sur des thématiques artistiques et créatives. Mais il s’avère que les avancées scientifiques et technologiques sur les intelligences artificielles génératives permettent aujourd’hui d’obtenir une qualité de rendu qui pose des problèmes de sécurité. S’y ajoute une démocratisation massive des algorithmes de création de deepfakes audio ou audiovisuels à partir de données publiques. Et les données publiques, on en trouve en quantité sur internet !
Etant donné l’expertise de l’Ircam en synthèse sonore depuis plus de quarante ans, nous avons été sollicités pour travailler sur deux projets de détection. L’un, DeTox, est mené en collaboration avec l’enseignant-chercheur Jean-Luc Dugelay de l’école d’ingénieurs Eurecom, financé par l’Agence nationale de la recherche (ANR) via le programme Astrid, qui concerne des thématiques de défense. L’autre, BRUEL, également financé par l’ANR, regroupe plusieurs laboratoires et organismes français liés à la sécurité.
« Notre rôle est de générer des contenus pour monter des attaques les plus réalistes possibles »
Quel est le rôle de l’Ircam exactement ?
Dans le projet DeTox, il y a plusieurs groupes d’intervenants: les attaqueurs et les défenseurs. Nous faisons partie des premiers. C’est-à-dire que notre rôle est de générer des contenus pour monter des attaques les plus réalistes possibles, avec nos algorithmes à nous mais aussi avec une sélection d’outils issus de bibliothèques de codes librement accessibles.
Nous créons des deepfakes combinant audio et vidéo, ce qui repose sur une problématique de synchronisation labiale. Pour cela, nous disposons de plusieurs algorithmes. Un pour le deepfake audio, un deuxième pour le deepfake vidéo et un troisième effectue la synchronisation.
Quand l’Ircam reproduit les voix du maréchal Pétain, de Marilyn Monroe (pour le film Marilyn de Philippe Parreno, 2012) ou de Louis de Funès, peut-on parler de deepfakes ?
C’étaient des « fakes » mais il manquait le « deep », qui renvoie au « deep learning », les réseaux de neurones profonds. Ceux-ci ne dominaient pas encore l’IA à l’époque de ces projets. Nous avons eu recours à d’autres méthodes, nécessitant à la fois plus d’interventions humaines mais aussi plus d’intelligence créative ! Tout était donc plus couteux que maintenant. Il nous fallait notamment trente minutes d’enregistrement vocal quand cinq minutes, voire cinq secondes, peuvent suffire aujourd’hui.
Depuis 2020, nous avons des algorithmes basés sur les réseaux de neurones et c’est ce que nous avons utilisé pour l’émission Hôtel du temps (2022) avec Dalida (un deepfake vidéo et vocal, ndlr), avec le général De Gaulle pour Le Monde (l’appel du 18 juin 1940 à la BBC, dont il n’existe aucun enregistrement, recréé en 2023, ndlr), ou pour l’exposition Surréalisme (2024) avec la voix d’André Breton.
« Nous disposons d’un avantage stratégique sur l’attaqueur »
Il existe beaucoup de projets de détection de deepfakes, les uns basés sur des incohérences dans les contenus, d’autres sur des caractéristiques mathématiques des fichiers générés. Quelle est votre approche ?
C’est l’équipe d’Eurecom qui s’occupe de la détection proprement dite. Nous, nous créons des bases de contenus synthétiques. Tout le projet se base sur un constat: on ne peut pas développer un détecteur universel, qui fonctionnerait sur des deepfakes de tout le monde. Nous avons donc identifié des personnalités pour lesquelles il peut être critique, en termes de sécurité, de faire des faux. Et le but est de développer des détecteurs dédiés à ces personnalités.
Nous disposons d’un avantage stratégique sur l’attaqueur. Tout le monde, en premier lieu l’attaquant, peut télécharger et exploiter les données publiques comme celles de la chaîne vidéo officielle du Président de la République française. Or, pour des raisons d’optimisation de stockage, de bande passante, notamment sur les réseaux sociaux, ces contenus sont de qualité hétérogène, dégradée, avec de la compression, etc. Nous exploitons, nous aussi, ces contenus mais nous créons aussi les nôtres, avec la qualité et la quantité que l’on souhaite.
Une ancienne ministre est ainsi venue enregistrer dans nos studios de l’Ircam. Nous disposons de trois heures et demie de captation, effectuées avec trois caméras HD couvrant l’intégralité des poses nécessaires à la modélisation de son visage. Sa voix a été enregistrée avec des techniques professionnelles.
Tout cela sert à développer nos propres générateurs de deepfakes. Comme les hackers dans les centres de sécurité informatique, nous sommes là pour pousser les limites des attaques qui, en retour, augmenteront la fiabilité des algorithmes de détection. Mais ne sont concernés que des deepfakes relatifs à telle ou telle personnalité.
Sur quoi porte le projet BRUEL ?
Il se focalise sur l’audio avec un objectif de standardisation et de certification des modes opératoires d’attaques par deepfakes. Nous travaillons avec Eurecom, là encore, le laboratoire d’informatique d’Avignon Université, le CEA et le Service national de la police scientifique.
L’idée est d’établir une grille d’évaluation de la complexité d’une attaque donnée. Quel est le degré d’expertise nécessaire ? Est-ce un quidam sans connaissance particulière en informatique qui est derrière ? Ou un étudiant scientifique ? Ou une batterie de chercheurs spécialisés disposant de milliers de microprocesseurs ? A partir de cette évaluation, et en fonction des ressources existantes (algorithmes, bases de données…), nous faisons un échantillonnage des modes opératoires envisageables.
La police scientifique nous aide ensuite à trouver des scénarios crédibles dans lesquelles ces attaques peuvent être mise en œuvre. Cela va du phishing à des opérations critiques mettant en danger la sécurité d’un Etat, avec des fausses déclarations de dirigeants en temps de guerre, par exemple. A la fin, nous pourrions réaliser ces attaques, de la plus simple à la plus compliquée, et les confronter à des détecteurs.
« La solution technologique n’est pas suffisante »
Comme vous le disiez, la qualité des deepfakes s’est considérablement améliorée en quelques années. Faut-il s’attendre à voir évoluer les modes opératoires ?
Pour l’instant, la défense contre les deepfakes part du principe qu’elle est face à du contenu soit totalement artificiel, soit totalement authentique. Or, on est de plus en plus confronté à des contenus qui mélangent les deux. C’est pour cela que, parmi les pistes dégagées par le projet DeTox figure le développement d’algorithmes d’explicabilité. Ils indiqueraient, par le biais d’une carte de couleurs par exemple, la probabilité que telle région d’une image, tel passage d’un son ont été manipulés, et qu’à l’inverse telle région est plutôt réelle. Ce serait un outil d’aide à la décision, une alerte.
Mais il reste un aspect fondamental à bien avoir en tête: la solution technologique n’est pas suffisante. Nous sommes encore dans l’adolescence de notre rapport au numérique. Il faut éduquer les gens au fait que tout ce qui est médiatisé par du numérique est par défaut sujet à caution. Il est probable que la réponse aux deepfakes vienne plus de ce côté, quand les gens auront une meilleure maturité critique.
Pour plus d’informations et d’analyses sur la CentrAfricaine, suivez Africa-Press