Africa-Press – Gabon. Les ingénieurs d’OpenAI ont appelé ce phénomène le grokking dans un article publié début 2022. Lorsque l’on entraîne sur des données un transformeur, le type d’algorithme qui sert de base aux grands modèles d’intelligence artificielle générative tel GPT d’OpenAI, la première période d’entraînement (ou epoch) ne donne pas de résultats formidables. Si on prolonge l’entraînement sur une même durée, avec les mêmes données, sans rien changer à l’algorithme, même chose. Et ainsi de suite pendant des dizaines de milliers de séances de durées strictement identiques quand soudain, la qualité des résultats monte en flèche, d’un coup !
Or, ni les chercheurs d’OpenAI, qui ont découvert ce grokking par hasard, ni personne d’autre ne savent pourquoi il se produit. Le terme vient du célèbre roman de science-fiction “En terre étrangère” (1961), de Robert Heinlein, et renvoie au fait de comprendre intuitivement. Manière de suggérer que la machine serait douée de compréhension faute d’explication plus scientifique !
Explorer différentes méthodes pour en savoir plus
Directeur de recherche et président du comité d’éthique du numérique du CEA, à Saclay, Alexei Grinbaum n’hésite en tout cas pas à parler d’un “phénomène mystérieux”. “C’est un domaine fascinant sur lequel il y a encore assez peu de recherches. La science commence tout juste à aborder cette question, et la première approche serait d’utiliser ce que l’on appelle les phénomènes critiques en physique statistique, quand il y a des transitions de phase. ”
C’est-à-dire quand, par exemple, l’état de la matière change physiquement en fonction d’une variable. “Pour les systèmes physiques, comme les gaz, les liquides, nous avons des variables comme la pression, la température, le volume. Mais pour les grands modèles de langage, nous ne savons pas quelles sont les variables pertinentes permettant de décrire cette transition. C’est compliqué de construire un modèle dans ces conditions. ”
Parmi les différentes méthodes pour essayer d’en savoir plus, le développement de “modèle-jouet” est le plus prometteur, selon le chercheur. Il s’agit tout simplement de petits algorithmes de type transformeur, avec peu de couches, permettant d’observer plus facilement comment s’opèrent les calculs. “Sans doute qu’il se passe des choses dans les très grands transformeurs qu’on ne voit pas du tout dans les petits, prévient Alexei Grinbaum. Mais cela peut nous donner quelques idées. ”
Pour plus d’informations et d’analyses sur la Gabon, suivez Africa-Press