Africa-Press – Madagascar. Robotique, vision par ordinateur et modèle de langage. C’est la combinaison détonante du projet PaLM-E d’une équipe de chercheurs de Google et de l’université technique de Berlin (Allemagne). Un modèle de langage appelé Pathways, présenté par une équipe de Google en 2022, a été intégré à un robot mobile conçu par la division robotique de Google. L’utilisateur interroge ou donne des instructions en langage naturel, l’agent conversationnel bâti sur Pathways répond et cette réponse déclenche une action de la part de la machine, sorte de version incarnée, matérielle, d’un chatbot. D’où le nom du projet : Pathways Language Model-Embodied (incarné, en anglais).
Mais, à l’instar du projet de robot-peintre FRIDA de l’université Carnegie-Mellon, évoqué par Sciences et Avenir récemment, les instructions sont dites « multimodales », à savoir que l’on peut interagir avec l’agent conversationnel en lui envoyant une combinaison de texte et d’images. Par exemple, comme on le voit sur la page de démos du site du projet, la photo d’un étal de donuts est associée à la question « A quel parfum est le donut sur la gauche ? » pour générer la réponse « A la myrtille ».
« Comment répartir les blocs par couleurs ? »
Google a mené plusieurs expérimentations de manipulations d’objets avec un bras robotique préhensible monté sur roue. Il est équipé d’une caméra qui lui permet d’envoyer des informations visuelles sur l’environnement. Tandis que l’appareil cadre une table sur laquelle sont disposés des petits blocs colorés de diverses formes, l’agent conversationnel reçoit comme question : « Comment répartir les blocs par couleurs dans chaque coin ? » Ce qui déclenche toute une séquence où le robot agit étape par étape.
Première réponse de PaLM-E : « pousse le rond rouge dans le coin haut gauche », suivi du mouvement correspondant du robot. Le flux vidéo témoigne maintenant d’un nouvel état sur la table, ce qui amène une deuxième instruction du chatbot : « pousse l’étoile rouge vers le rond rouge ». Puis « pousse le cœur jaune dans le coin haut à droite », et ainsi de suite.
Sur ce principe, l’équipe a fait accomplir à la machine quelques tâches plus complexes, comme celle consistant à aller chercher un paquet de chips dans un tiroir de cuisine (qu’il faut trouver et ouvrir) et l’apporter à quelqu’un (voir la vidéo ci-dessous). Or, quand l’équipe tente de perturber l’accomplissement de sa mission, en lui reprenant le paquet pour le remettre dans le tiroir, le robot persiste, comme prisonnier d’une boucle, tant qu’il n’a pas apporté l’objet à son destinataire comme le chatbot le lui a indiqué.
Pour une de ses expérimentations, Google a créé l’environnement d’une cuisine. Le robot doit se repérer et trouver un paquet de chips dans un tiroir avant de l’apporter à un opérateur. Crédits : Robotics at Google, Google Research, TU Berline
Sur le plan moteur, le résultat est encore très lent (les vidéos de démo sont accélérés quatre fois sans que les scènes aillent à une vitesse folle) mais il ouvre les perspectives. Le projet montre en effet que l’entrainement initial de l’algorithme suffit et que le robot peut accomplir ses tâches sur des objets qu’il ne connaît pas, dans la mesure où la combinaison texte- flux vidéo apporte les informations nécessaires.
Pour plus d’informations et d’analyses sur la Madagascar, suivez Africa-Press