Africa-Press – Guinée. On fait généralement remonter la naissance de l’intelligence artificielle – IA pour les intimes – à la publication par le mathématicien britannique Alan Turing, en 1950, d’un article intitulé “Machines informatiques et intelligence”. L’IA serait donc septuagénaire… Il a fallu pourtant attendre 1997 pour que le public découvre son premier coup d’éclat: la victoire à la loyale de Deep Blue, un ordinateur conçu par IBM, sur Garry Kasparov, champion du monde en titre du jeu d’échecs, au cours d’un match en six manches. Mais il s’agissait là d’une victoire de l’IA à l’ancienne.
Deep Blue l’a emporté en analysant jusqu’à 330 millions de positions futures par seconde. Surtout, son logiciel incorporait une connaissance intime du jeu d’échecs. Cette IA “cognitiviste”, basée sur la représentation et la manipulation de connaissances, restera longtemps l’approche dominante. Au même moment, pourtant, une autre démarche faisait plus discrètement son chemin: l’apprentissage automatique (machine learning), consistant à créer des algorithmes qui ne savent rien au départ du problème à résoudre, mais apprennent à partir d’exemples via des méthodes statistiques.
Dès les années 1990, l’une de ses approches, l’apprentissage profond ou deep learning, se montrera très prometteuse. “La dernière décennie est jalonnée de percées reposant sur l’apprentissage profond, qui s’appuie sur des réseaux de neurones artificiels, confirme Francis Bach, chercheur à Inria et au département informatique de l’École normale supérieure. Ses performances dépassent aujourd’hui un seuil qui la rend très largement dominante sur les autres approches utilisées en IA.”
Signe des temps: après les échecs, c’est au tour du jeu de go, qui résistait depuis vingt ans aux attaques de l’IA classique, de tomber face à un logiciel relevant du deep learning. AlphaGo, de Google DeepMind, bat en 2016 le champion sud-coréen Lee Sedol, puis en 2017 le Chinois Ke Jie, numéro un mondial de la discipline, sur un score sans appel de trois à zéro. Autre marqueur temporel, le cru 2018 du prix Alan Turing, attribué chaque année par l’ACM (Association for Computing Machinery), la plus prestigieuse société savante consacrée à l’informatique, est décerné à un trio de pionniers de l’apprentissage profond: les Canadiens Geoffrey Hinton (professeur à l’Université de Toronto) et Yoshua Bengio (professeur à l’Université de Montréal), ainsi que le Français Yann Le Cun (professeur à la New York University et Chief AI Scientist de Facebook).
Aide au diagnostic, tri des déchets: les machines voient, et c’est utile
Ces défricheurs ont revisité avec succès la piste des réseaux de neurones artificiels explorée très tôt, avec notamment un certain Perceptron de Frank Rosenblatt (Université Cornell, 1957), avant d’être enterrée. L’idée est d’imiter – dans les grandes lignes – le fonctionnement du système nerveux, le plus souvent par logiciel. Un réseau de neurones artificiels est généralement organisé en couches, dont chaque neurone reçoit en entrée les signaux issus de neurones de la couche précédente auxquels il est connecté, et calcule une fonction qui intègre l’information collectée, dont le résultat constitue son signal de sortie, destiné à des neurones de la couche suivante. Dans cette fonction interviennent des “poids”, des coefficients déterminant l’importance attribuée à chaque neurone amont. C’est en modifiant ces paramètres qu’un réseau apprend.
À partir des années 1980, Geoffrey Hinton, Yann Le Cun et Yoshua Bengio réaniment et prolongent l’idée du Perceptron. “Yann Le Cun est le premier à utiliser une nouvelle technique pour mettre à jour au cours de l’apprentissage les poids d’un réseau (la ‘rétro-propagation du gradient’), qui s’avèrera très efficace, explique Marc Schoenauer, directeur de recherche au centre de recherches Inria, à Saclay. Avec elle, il obtient en 1989 d’excellents résultats pour la lecture automatique des codes postaux sur le courrier.”
Dans le même temps, il conçoit un nouveau type de réseau, le “réseau de neurones convolutif”, dont l’architecture est inspirée du cortex visuel, qui va révolutionner notamment la vision artificielle. “En 2012, ajoute le chercheur, lors d’une compétition annuelle remportée haut la main, Geoffrey Hinton et son équipe démontrent la supériorité de l’apprentissage profond en reconnaissance d’image. Cela fait grand bruit.” Il s’agissait, après apprentissage sur plus d’un million d’images d’items classés en mille catégories (chats, chiens… ), de reconnaître ceux présents dans un nouveau jeu d’images. “Le réseau de neurones convolutif AlexNet de Geoffrey Hinton réalise un taux d’erreur de 15, 3 % dans l’un des classements, avec près de 11 points d’avance sur le suivant, précise Marc Schoenauer. Un ou deux ans plus tard, plus personne ne présentait dans cette compétition une solution ne reposant pas sur l’apprentissage profond. Et les taux d’erreur se sont ensuite effondrés.”
Depuis, la vision artificielle est entrée dans nos vies, et d’abord dans nos smartphones. Nous ne nous étonnons même plus que leur caméra détecte les visages souriants, que des applis identifient des plantes, des minéraux ou encore des produits. Des usages plus sérieux ont émergé, comme l’aide au diagnostic à partir d’images médicales ou des voitures capables de repérer un piéton. Cette technologie se glisse encore dans l’industrie, notamment pour le contrôle qualité, et jusqu’au tri des déchets recyclables. Après l’émerveillement, nous avons intégré le fait que, désormais, les machines voient, assez bien pour que cela soit utile.
Encore plus fort, des équipes parviennent depuis peu à réaliser l’opération inverse de la vision. En janvier 2021, c’est OpenAI, en Californie, qui a créé la surprise en rendant public un certain DALL-E, qui produit des images à partir d’une description. Il a depuis été rejoint par des concurrents comme Midjourney et Stable Diffusion. “La grande révolution en cours est celle de l’IA dite générative, assure Marc Schoenauer. On sait aujourd’hui générer du texte à partir de texte, mais aussi des images, et même des vidéos.” Mauvaise nouvelle: certaines vidéos font dire n’importe quoi à un personnage… public ou non. Ces fameux deep fakes…
L’IA nous en met donc plein la vue. Mais elle nous épate encore plus, ces derniers temps, en maniant le langage… au point qu’elle nous donne l’impression fallacieuse qu’elle comprend et pense. “La première étape notable dans le domaine du traitement des langues a été la publication en 2013 de word2vec, estime Benoît Sagot, responsable de l’équipe ALMAnaCH d’Inria Paris, dédiée au traitement du langage naturel. Conçu par une équipe de Google, ce réseau de neurones produit une représentation vectorielle des mots, c’est-à-dire qu’il les place dans un espace de manière à rendre compte de leur proximité sémantique.” Dans cet espace, par exemple à mille dimensions, les mots sont situés en fonction de leur proximité les uns avec les autres, constatée dans une grande quantité de textes sur laquelle le réseau de neurones a été entraîné. Le mot “chat” y sera proche de “chien”, mais loin de “tournevis”, qui voisinera avec “marteau”. Traduits en nombres, les mots peuvent alors être traités par d’autres réseaux de neurones.
Neurones en miroir
Le fonctionnement des neurones numériques s’inspire de celui des neurones biologiques: ces derniers reçoivent par leurs prolongements, les dendrites, des signaux électriques des neurones qui leur sont connectés. En réponse, ils envoient, ou non, un signal dans l’axone qui les relie aux neurones suivants. Le neurone artificiel mime ce comportement par une fonction mathématique.
ChatGPT compare sans sourciller œufs de poule et œufs de vache
Malheureusement, les langues ne sont pas avares d’homonymies, polysémies et autres ambiguïtés. “De nombreux travaux ont ensuite visé à dépasser cette représentation unique pour un mot, à tenir compte du contexte dans lequel il apparaît”, poursuit Benoît Sagot. Une IA ne peut correctement traduire ou résumer, encore moins dialoguer, si elle confond mine de crayon, mine de charbon… et mine de rien. “L’avancée la plus spectaculaire, indique le chercheur, a été l’invention en 2017, à nouveau par une équipe de Google, d’une architecture de réseau de neurones appelée “transformeur”.” Qui sait différencier “mine” et “mine”. Le transformeur va permettre de réaliser des grands modèles de langage (ou LLM, pour Large Language Models) qui vont faire parler d’eux. En 2018, OpenAI rend public un certain GPT-1 (Generative Pretrained Transformer, soit: transformeur génératif pré-entraîné). Puis viendra GPT-2, plus puissant, et en 2020 l’énorme GPT-3, qui compte 175 milliards de paramètres.
Après entraînement sur des montagnes de textes (près de 500 milliards de mots pour GPT-3), ces LLM sont capables de deviner le mot le plus probable, statistiquement, après une séquence de mots fournie par l’utilisateur, un prompt =. Ils peuvent ainsi produire des textes aussi longs que l’on voudra. Deux améliorations permettent de transformer un LLM en un véritable robot conversationnel, un chatbot. Biberonnés de textes surtout glanés sur internet, les LLM véhiculent parfois des points de vue douteux, voire nauséabonds (propos racistes, sexistes… ). On corrige cela grâce à l’apprentissage “par renforcement”: des humains notent ou trient des productions du modèle, ce qui provoque une révision de ses paramètres. “On cherche à aligner ce que génère le modèle sur ce qu’un utilisateur humain attend, explique Benoît Sagot. On lui forge en quelque sorte un petit surmoi.”
D’autre part, pour qu’un modèle apprenne à converser, on le gave de dialogues, produits ou au moins validés par des humains. C’est ainsi que OpenAI a créé, sur la base d’un GPT-3 amélioré, son chatbot ChatGPT. Mis à la disposition du public, en accès libre, le 30 novembre 2022, il comptait un million d’utilisateurs cinq jours plus tard. Et la concurrence arrive, avec notamment Bing Chat chez Microsoft et Bard chez Google. L’irruption de ChatGPT restera comme l’un des plus stupéfiants moments de l’histoire de l’IA. Pour la première fois, on peut converser de tout et de rien avec un logiciel qui produit des phrases syntaxiquement correctes, souvent sensées.
ChatGPT bavarde, oui, mais il ne comprend rien à rien. Il peut proférer des énormités, comparer les mérites respectifs des œufs de poule et de vache. Il sait un peu compter, parce qu’il a lu mille fois que “deux et deux font quatre”, mais est incapable de multiplier deux nombres de cinq chiffres. “Les modèles de langage ne sont pas faits pour dire le vrai, résoudre des problèmes mathématiques ou commenter l’actualité, insiste Benoît Sagot. Une manière d’améliorer un outil comme ChatGPT consiste à le relier à des algorithmes spécialisés, par exemple dans la recherche sur internet ou le calcul.”
À l’aide de l’IA, des protéines en veux-tu en voilà
Prédire la forme des protéines et en concevoir de nouvelles, par exemple des antibiotiques ou des médicaments personnalisés: l’IA révolutionne la biologie, parvenant à accomplir en quelques heures ce qui auparavant demandait aux chercheurs des années de travail. Grosses molécules codées par les gènes, les protéines sont constituées d’une chaîne de plusieurs centaines de molécules plus petites, les acides aminés. Par leurs interactions, ceux-ci sont à l’origine de la forme en 3D des protéines: hydrophobes, ils s’attirent ; dans le cas contraire, ils se repoussent… Et la protéine se replie, jusqu’à une structure stable.
Nourri de milliers d’exemples grâce aux nombreux génomes séquencés dans le monde entier, le programme Alphafold 2 de l’entreprise DeepMind (filiale de Google) est capable de deviner les interactions entre ces éléments de la chaîne. Il a déjà prédit 700 millions de structures. Quel intérêt ? C’est que la conformation d’une protéine témoigne de ses propriétés, un peu comme on devine à quoi sert un outil en analysant sa forme. Les chercheurs envisagent donc de pouvoir créer des protéines sur mesure. Toutefois, seule la conformation de 60 % environ d’entre elles peut être prédite par Alphafold2. Ce n’est notamment pas le cas des anticorps, activés en temps réel par notre organisme.
Le défi: mettre au point une IA de confiance
À quoi ChatGPT et autres peuvent-ils servir ? “À bien des choses, estime le chercheur. À condition de ne pas se tromper sur leurs capacités. En particulier, ils synthétisent plutôt bien. Ils introduisent une nouvelle façon d’accéder à l’information. L’invention de l’écriture a permis d’externaliser notre mémoire en nous évitant de tout apprendre par cœur. Cela ne plaisait pas à Platon, soit dit en passant. Le moteur de recherche a amplifié ce phénomène en nous permettant d’accéder à toute l’information en ligne. Les héritiers de ChatGPT auront tout lu et répondront à nos questions sous la forme d’une synthèse.”
Au cours de la décennie passée, l’apprentissage profond a démontré un potentiel inespéré. “On ne sait pas vraiment pourquoi cela marche aussi bien”, admet Francis Bach. Mais il y a un bémol: les réseaux de neurones sont des boîtes noires, qui peuvent toujours réserver de mauvaises surprises. D’où ce mot d’ordre: il faut mettre au point une IA explicable, certifiable, équitable, responsable… bref, une IA de confiance. Pour ce faire, on parie notamment sur une hybridation des réseaux de neurones avec “l’autre IA”, celle d’avant l’ère de l’apprentissage: l’IA symbolique ou cognitiviste, qui manipule des connaissances et raisonne. Mais cela n’empêchera pas les mésusages, et l’idée d’une régulation s’impose progressivement. Pionnière en la matière, l’Union européenne travaille depuis 2021 sur un AI Act, dont le vote final doit intervenir début 2024. Cette initiative semble faire tache d’huile…
Des jumeaux numériques pour optimiser l’avenir
Qu’y a-t-il de commun entre une articulation d’épaule, la ville de Madrid et la Mar Menor, grande lagune du sud-est de l’Espagne ? Toutes les trois possèdent un jumeau numérique, leur réplique virtuelle en 3D. Si, à l’origine, ces digital twins ont été utilisés en tant qu’outil d’aide à la conception dans l’aéronautique ou l’automobile, ils se multiplient aujourd’hui dans de nombreux secteurs d’activité, avec l’objectif de perfectionner les systèmes existants. L’explosion de l’IA n’est pas étrangère à ce phénomène.
Dans la pratique, grâce à l’acquisition de milliers de données mises à jour en temps réel et optimisées grâce à des algorithmes, un modèle 3D est fabriqué. Puis des scénarios sont simulés et donnent des indications précises permettant, par des allers et retours entre le réel et le virtuel, de mieux appréhender des situations complexes ou les changements à y apporter. Ainsi, au CHU de Nice, le chirurgien Marc-Olivier Gauci optimise le placement d’une prothèse grâce à la projection en 3D de l’épaule de son patient. Dans un tout autre domaine, la ville de Madrid, grâce à son jumeau numérique, a pu réduire de 33 % le nombre de kilomètres parcourus par les livreurs de colis, source d’encombrements et de pollution, en optimisant le type et le nombre de véhicules ainsi que leur parcours. En Espagne toujours, le projet européen Smart Lagoon vise à créer un jumeau numérique de la Mar Menor pour prédire son évolution (qualité des eaux, trait de côte, etc. ), en faisant varier les facteurs anthropiques: agriculture environnante, pêche, transports, etc.
Grâce à l’IA, les digital twins prennent naturellement la suite des systèmes d’aide à la décision, ces programmes informatiques nés dans les années 2000, avec un réel échange humain-machine. À condition de les mettre à jour, car ces objets deviennent très vite obsolètes s’ils ne sont pas nourris de données en continu. Et de veiller au fin équilibre entre les dépenses énergétiques qu’ils génèrent et la décarbonation qu’ils permettent.
Pour plus d’informations et d’analyses sur la Guinée, suivez Africa-Press