Africa-Press – Côte d’Ivoire. Pour une structure de recherche naissante en intelligence artificielle (IA), avoir d’emblée accès, par contrat, à 125 ans d’archives cumulant plus de 100 millions de documents dont 38 millions de photos et 48 millions d’articles, c’est un bon début. C’est ce dont va bénéficier le laboratoire Synapses, présenté mi-janvier 2025 et associant le CNRS, l’université de Rennes et le quotidien régional Ouest-France.
L’initiative, soutenue financièrement dans sa partie académique à hauteur de 360.000 euros par l’Agence nationale de la recherche, est focalisée sur l’usage de l’intelligence artificielle dans l’analyse d’archives pour le travail des rédacteurs et des documentalistes du journal. « Il ne s’agit surtout pas de faire des outils de génération automatique d’articles », précise d’emblée Laurent Amsaleg, directeur de recherche au CNRS. Ce dernier codirige Synapses avec Michel Le Nouy, responsable de l’équipe Banque de Contenus (le système d’information éditorial) de Ouest-France.
Développer des prototypes
Ce projet de quatre ans et demi relève avant tout de la recherche fondamentale et n’a pas non plus vocation à fournir un logiciel prêt à l’emploi pour le journal. « Nous allons montrer les possibilités, ce qui marche, ce qui ne marche pas, nous mettrons au point des prototypes mais ensuite, ce sera leur travail, chez Ouest-France, d’en faire ou non quelque chose qui intégrera leur chaîne de production », explique Laurent Amsaleg.
Trois sujets principaux sont d’ores et déjà arrêtés. D’abord l’analyse automatique de photos pour faciliter la recherche dans les archives, par thème, par lieu, par tranche temporelle, le tout adapté au travail journalistique. « Si j’analyse automatiquement des images datant des années 30, 40, 50 dans Ouest-France, je n’y trouverai pas de téléphones portables mais beaucoup plus de calvaires, de petites églises, de petites chapelles. Or, un détecteur de chapelles, cela n’existe pas », résume le chercheur.
Les problèmes de diachronie
Le deuxième chantier concerne l’analyse des articles du quotidien. Là encore, les technologies existantes sont incapables d’opérer des recherches en tenant compte d’un style journalistique particulier (celui de Ouest-France) qui, en outre, a évolué au fil du temps. « S’y ajoute des problèmes de diachronie, c’est-à-dire d’évolution du sens des mots: le sens du mot ‘famille’ en 2025, par exemple, n’est pas le même qu’en 1930. » Les noms des lieux ou la géographie ont changé, la notion de communauté de communes n’existait pas au-delà d’une certaine époque, etc.
L’idée serait de faire en sorte que la technologie tienne compte du contexte dans lequel un article a été écrit, ce qui n’est pas du tout une préoccupation de sociétés comme Google, OpenAI ou DeepseekAI.
Ouest-France et le CNRS sont aussi tombés d’accord sur un axe de recherche autour de la visualisation d’informations complexes, où il existe des connexions entre des données. « L’exemple-type est celui des Panama Papers (en 2016, ndlr): on y trouve des paradis fiscaux, des flux financiers, des sociétés écrans, des personnages clés, des relations qui évoluent dans le temps… Aucun outil n’existe pour faciliter la visualisation de ce type d’information. » A l’époque, le consortium international de journalistes qui avait travaillé sur cette affaire avaient bénéficié de logiciels existants paramétrés par leurs éditeurs pour les besoins du sujet (lire Sciences et Avenir, n°831, mai 2016). Le laboratoire Synapses, lui, compte développer des technologies utilisables quel que soit le thème.
Partenariats avec OpenAI et Mistral
D’autres médias ont déjà noué des partenariats autour des technologies d’intelligence artificielle, mettant eux aussi leurs archives à disposition: Le Monde avec OpenAI, l’AFP avec Mistral AI. Mais il y est moins question de recherche fondamentale à destination des journalistes que d’améliorer les contenus générés par les agents conversationnels des deux prestataires.
Il reste que les chercheurs de Synapses ne s’interdisent pas d’utiliser des briques technologiques de géants du numérique, au même titre que des programmes open source. « Il serait déraisonnable de ne pas se servir de ce qui existe, et qui est extraordinairement puissant, estime Laurent Amsaleg. Mais on veut comprendre comment cela marche, ce que cela permet de faire, ce que cela ne permet pas. On ne peut pas utiliser ces technologies de manière complètement aveugle. »
Pour plus d’informations et d’analyses sur la Côte d’Ivoire, suivez Africa-Press





