Africa-Press – Senegal. Ces notions reviennent comme un mantra en matière d’intelligence artificielle (IA) basée sur l’apprentissage à partir de données. Mais elles deviennent un impératif dans le cas d’usages médicaux de ces IA. C’est exactement la vocation du partenariat de recherche noué pour quatre ans entre l’Inria (Institut national de recherche en sciences et technologies du numérique) et Doctolib, annoncé fin novembre 2025.
À savoir: développer des technologies capables, certes, de répondre à une question, mais aussi de dire pourquoi elles arrivent à cette réponse et avec quel degré de certitude. Ce que la plupart des modèles d’IA en vue, ceux d’OpenAI, Google, Anthropic ou Meta, ne font pas, en partie pour des raisons stratégiques (ne pas effrayer l’utilisateur avec un manque de certitude).
« Jusqu’à présent, Doctolib se positionnait comme une plateforme d’aide à la gestion des cabinets médicaux, en développant des solutions qui pourraient être qualifiées de bureautique. Mais comme ils gèrent de plus en plus de données, celles-ci pourraient être valorisées avec des outils d’aide à la décision « , note Adrien Coulet, de l’équipe projet HeKA de l’Inria, spécialisée dans les modèles de santé.
Doctolib propose déjà plusieurs outils d’IA. Comme l’assistant de consultation, qui génère retranscription et synthèse d’une consultation vidéo, permettant au praticien de mieux se concentrer sur le patient sans avoir à prendre des notes. Le gros projet en cours est un « compagnon de santé » destiné à répondre aux questions des parents sur la santé de leur enfant de moins de 4 ans. La plate-forme a aussi monté une collaboration scientifique en IA avec l’institut DFKI, un centre de recherche allemand, portant sur l’anonymisation et les risques de réidentification de données cliniques.
Restituer à l’IA les différentes données de manière traçable
Mais le partenariat avec l’Inria brasse plus large. Les deux organismes réfléchissent même à la création d’un laboratoire de recherche commun pérenne. « Nous allons travailler sur des méthodes de représentation de la connaissance médicale, explique Nicolas Barascud, « data scientist » chez Doctolib. Dès lors que l’on a une masse de documents et de sources, certaines en conflit, d’autres obsolètes, il faut d’abord structurer tout cela pour que l’IA puisse l’exploiter efficacement. Mais il faut aussi pouvoir restituer cette connaissance de manière transparente et traçable. »
Concrètement, il s’agit ni plus ni moins de reproduire le raisonnement d’un médecin dans un agent conversationnel. « Par exemple, dans le cadre d’un diagnostic d’anémie, si un examen sanguin n’a pas été réalisé, ou si les résultats ne sont pas connus, le modèle doit pouvoir signaler qu’il n’a pas ces informations et recommander cet examen parce qu’il a besoin de regarder le niveau d’hématocrite « , détaille Adrien Coulet. Cela va même plus loin. Les deux partenaires envisagent des méthodes mathématiques pour évaluer l’ensemble d’un échange. « Les allers-retours avec une IA nécessitent de s’assurer que la conversation suit un ordre logique et une cohérence médicale, ce qui est un défi plus grand qu’évaluer une réponse isolée « , complète Nicolas Barascud.
Si l’entraînement des algorithmes va s’appuyer sur tout un corpus de données publiques, de connaissances médicales et de bonnes pratiques, Doctolib – c’est la force de cette collaboration – apporte ses propres données. Celles, anonymisées, des dossiers de patients inscrits sur la plateforme, mais aussi les retranscriptions de l’assistant de consultation. Un matériau qui se démarque des données hospitalières ou de remboursement de santé avec lesquelles la recherche, y compris l’Inria, est habituée à travailler. « Si un patient a du diabète, de l’hypertension, ces maladies sont suivies au long cours par le médecin de ville mais sont peu décrites dans les dossiers hospitaliers et difficiles à utiliser, souligne Adrien Coulet. Avec Doctolib, on a ce qui se passe hors de l’hôpital. » Elles peuvent notamment servir à évaluer des outils d’IA entraînés sur d’autres corpus. Mais aussi à affiner cet entraînement, comme on le fait pour les modèles de langage. « En partant de données déjà observées sur un patient, on peut imaginer dire à un modèle: ‘Pour cette personne-là, c’était ça la bonne réponse’ » poursuit le chercheur.
Tout ne va pas reposer sur les modèles de langage, loin de là, mais ces technologies ouvrent d’indéniables perspectives en matière de prédiction. Sauf qu’au lieu de prédire le mot suivant dans une phrase, l’algorithme apprendrait à prédire l’étape suivante dans un parcours de soins: consultation, hospitalisation, traitement, réaction à ce dernier, etc. C’est l’un des sujets de thèse encadrés par les deux organismes. « L’idée serait d’avoir un outil qui identifie les risques en fonction des antécédents du patient, permettant d’intervenir de manière personnalisée « , précise Nicolas Barascud. À l’usage des médecins comme des patients. La médecine préventive est bel et bien entrée dans une nouvelle ère.
Les données de santé, une matière sensible
Toutes les données de Doctolib utilisées avec l’Inria restent sur les serveurs de la plateforme, anonymisées, chaque projet faisant l’objet d’une autorisation de la Cnil (Commission nationale de l’informatique et des libertés). La situation est plus compliquée quand des travaux utilisent des corpus de plusieurs organismes, centres hospitaliers, cliniques, dans des régions voire des pays différents. Les données peuvent être centralisées quelque part, avec ce que cela implique de problématiques d’autorisation d’accès et de contrôle.
Mais une méthode, elle-même objet de recherche (chez Google comme à l’Inria ou à l’École nationale supérieure), permet de travailler tout en laissant les données localement chez leurs détenteurs respectifs: l’apprentissage fédéré. Dans cette approche, le calcul opéré sur un corpus donne un premier résultat intermédiaire. Ce dernier arrive au corpus suivant, avec lequel est calculé un nouveau résultat, et ainsi de suite sur chaque jeu de données jusqu’à l’agrégation de l’ensemble.





