Africa-Press – Togo. Lorsqu’un média traite d’intelligence artificielle (IA), il y a de fortes chances qu’il illustre le sujet par un robot, humanoïde de préférence, avec le sous-entendu que la machine est en train de devenir un équivalent de l’humain. C’est encore loin d’être le cas. Les robots actuels restent très spécialisés, sur des chaînes industrielles ou dans des entrepôts comme chez Amazon. Et dans ces contextes, l’environnement a été adapté pour eux (sols plats, espace dégagé), et non l’inverse, avec des interactions humain-machine limitées pour des raisons de sécurité.
Les progrès de l’apprentissage automatique ouvrent toutefois de réelles perspectives. La start-up californienne Physical Intelligence applique la méthode des modèles de langage (LLM) à son algorithme p (pi-zero) destiné à gérer les mouvements de robots autonomes. Sauf qu’au lieu de collecter des masses de données d’Internet comme le font OpenAI, Google ou Meta, elle met en scène et filme quantité de situations où des robots téléopérés réalisent toutes sortes de tâches. La logique étant, comme pour les LLM, d’avoir une base d’apprentissage suffisamment riche pour que l’algorithme puisse extrapoler des gestes de manière à se déplacer en toute situation.
« Mais le robot n’est pas autonome dès lors qu’il s’agit de faire émerger des concepts pour la manipulation ou la locomotion, puisqu’il réplique ce que l’humain lui a montré, tempère Justin Carpentier, responsable de l’équipe Willow à l’Institut national de recherche en sciences et technologies du numérique (Inria). Le robot imite correctement mais, pour nous, ce n’est pas de l’intelligence physique. » Sans compter que, comme pour les LLM, cette approche est vulnérable aux hallucinations. On imagine sans peine les dangers d’un robot qui « génère » des mouvements aberrants…
Les machines ont d’abord beaucoup expérimenté
C’est pourquoi nombre d’autres projets reposent non plus sur les données mais sur l’essai-erreur, à savoir l’apprentissage par renforcement. Le robot bipède Cassie, d’Agility Robotics (issue de l’université d’État de l’Oregon, aux États-Unis), a appris de cette manière à marcher, à courir ou à emprunter des escaliers.
À l’automne 2023, des chercheurs en robotique américains et chinois dévoilaient un robot quadrupède enchaînant les épreuves du parkour (une discipline athlétique inspirée du parcours du combattant) et l’an dernier, DeepMind (division IA de Google) présentait des mini-robots footballeurs. Dans tous ces projets, les machines ont beaucoup expérimenté et se sont beaucoup trompées, avant de trouver d’elles-mêmes les mouvements les plus efficaces pour un contexte donné.
La méthode a pour grand intérêt d’ouvrir la voie à des comportements contre-intuitifs, qu’un codeur humain n’aurait pas imaginé et qui n’existent dans aucun exemple en image. Elle implique néanmoins d’innombrables itérations, un algorithme étant incapable d’apprendre, comme un humain, après un ou deux essais. D’où un entraînement se déroulant d’abord en simulation. « Il faut plusieurs ‘équivalents-années’ pour obtenir quelque chose de pertinent, note Justin Carpentier. Nous sommes en train de travailler sur ce que l’on appelle les dérivés de la simulation, des objets mathématiques qui permettraient d’accélérer cet apprentissage, mais c’est compliqué. »
L’équipe Willow a obtenu en septembre 2024 un financement européen (ERC), à hauteur de 1,5 million d’euros sur cinq ans, pour le projet Artefact, reposant sur l’apprentissage autosupervisé: l’algorithme est entraîné sur des données non annotées puis est appliqué à un jumeau numérique du robot, en environnement simulé. « La simulation doit être suffisamment fidèle à la réalité physique pour que nous puissions tester, tâtonner et corriger l’algorithme lorsqu’il se trouve dans une situation absente de sa base d’apprentissage « , explique Justin Carpentier. C’est ce que l’on appelle la commande prédictive (par opposition à la commande instantanée des robots d’usine), qui consiste à anticiper la chute d’un robot pour rectifier à temps sa trajectoire.
Des travaux qui, à terme, rendront les machines adaptables à plus de situations que celles qui existent actuellement. Elles seront sans doute moins rapides mais plus polyvalentes.
Apprentissage par renforcement
Cette méthode s’applique surtout à l’apprentissage d’un comportement, non à la production d’une prédiction. D’où son usage en robotique ou dans la programmation d’agents capables de jouer à un jeu. Elle a même servi à la tenue de route de véhicules autonomes. Un algorithme d’apprentissage par renforcement ne s’appuie sur aucune instruction ou exemple préalable mais sur l’expérience, par tâtonnement.
Il déclenche au départ des actions aléatoires, mais celles qui s’avèrent efficaces pour le but recherché (avancer, tenir en équilibre) s’accompagnent d’un signal dit de récompense. En fonction de quoi, les comportements s’améliorent au fur et à mesure. Mais un tel algorithme obéit à un compromis: il ne doit pas se contenter de refaire les mêmes actions récompensées ; il doit en trouver d’autres en explorant de nouveaux comportements, quitte à échouer de temps en temps.
Pour plus d’informations et d’analyses sur la Togo, suivez Africa-Press