Africa-Press – Côte d’Ivoire. Imaginez que vous êtes un enfant qui entend le klaxon d’un camion à glace pour la première fois: vous êtes intrigué, mais sans attente particulière. Peu après, vos parents vous surprennent en vous offrant une délicieuse glace. Le camion à glace revient chaque jour, et chaque fois, vos parents vous donnent une glace. À mesure que cette scène se répète, la glace devient de moins en moins surprenante et le son du klaxon finit par être agréable, car il annonce la récompense. Ce phénomène bien connu, où un stimulus neutre (le klaxon) devient associé à une réponse (le plaisir de la glace), s’appelle le conditionnement pavlovien, du nom du chercheur qui l’a étudié pour la première fois chez les chiens.
Les théories classiques décrivent la formation d’associations entre deux événements comme proportionnelle à l’erreur de prédiction, c’est-à-dire la différence entre ce qui est attendu et ce qui survient réellement. Dans l’exemple du camion de glaces, le premier jour, le klaxon ne permet pas encore de prédire l’arrivée de la glace: l’erreur entre la prédiction et la récompense est donc très grande, l’association augmente. Plus tard, lorsque la glace devient prévisible, cette erreur est réduite et l’association se stabilise.
La dopamine, reflet d’une « erreur de prédiction »
« Dans les années 1990, des chercheurs ont découvert que la dopamine, un neurotransmetteur (messager chimique du cerveau, ndlr), reflète cette erreur de prédiction. Des expériences mesurant la dopamine ont montré que lorsque l’erreur de prédiction est grande, le pic de dopamine est grand ; à l’inverse, lorsque l’association est apprise et que l’erreur devient nulle, le pic de dopamine disparaît. On a même pu observer que lorsque l’on s’attend à recevoir une récompense mais qu’elle ne se matérialise pas, ce qui correspond à une erreur de prédiction négative, on observe une diminution de dopamine », nous explique Noé Hamou, chercheur en neurosciences à l’University College London (Grande-Bretagne) et auteur des travaux publiés dans la revue Nature Communications, en collaboration avec des chercheurs des Universités de Harvard et de Princeton (Etats-Unis).
« Cette découverte est l’une des grandes « success stories » des neurosciences modernes: elle permet de mettre en lien une molécule biologique et une quantité psychologique, l’erreur de prédiction », poursuit Noé Hamou. Ces erreurs de prédiction ont permis d’analyser plus précisément nos mécanismes d’apprentissage, mais ont également inspiré les algorithmes d’intelligence artificielle. Les modèles à apprentissage par renforcement qui en découlent ont permis de battre les meilleurs joueurs d’échecs ou, plus récemment, de Go, et font tous usage de ces erreurs de prédiction.
Intégrer la dimension temporelle de l’apprentissage
Les recherches se poursuivant, certains résultats expérimentaux se sont avérés incohérents avec cette théorie classique fondée sur les erreurs de prédiction. En effet, ce modèle ne parvient pas à expliquer les expériences montrant que l’apprentissage est extrêmement sensible au temps.
Plusieurs laboratoires de psychologie expérimentale ont démontré que le laps de temps séparant des événements (signal-récompense ou récompense-récompense) avait un impact significatif sur la capacité d’apprentissage. « En modifiant la durée de ces intervalles, la vitesse d’apprentissage change elle aussi. Cette dimension temporelle est un élément central de l’apprentissage, et pourtant elle reste absente des modèles classiques, souligne Noé Hamou. Nous avons donc développé un nouveau modèle qui intègre à la fois cette dimension temporelle et les erreurs de prédiction, afin de nous rapprocher le plus possible des résultats expérimentaux ».
Le modèle proposé par ces chercheurs intègre donc une “distribution temporelle des intervalles” entre stimulus et récompense (à quelle “distance dans le temps” les récompenses surviennent après tel stimulus) et la probabilité causale qu’un certain stimulus soit la “cause” de la récompense.
Autrement dit, la formule mathématique est la suivante:
La probabilité de réponse P(réponse) est la somme sur l’ensemble des stimulus considérés i, de la probabilité de distribution temporelle P(Ti) multipliée par la probabilité de l’association causale du stimulus P(Ci).
Un apprentissage causal
Mais qu’est-ce qui rend ce modèle particulièrement novateur? « Selon notre modèle, l’apprentissage nécessite à la fois un signal temporel prédictif, basé sur les erreurs de prédiction classiques, mais également un signal rétrospectif, qui reflète la causalité entre deux événements », résume Noé Hamou. Autrement dit: « étant donné que j’ai reçu une récompense, quelle était la probabilité qu’un signal l’ait précédée? » ou encore: « j’ai eu une indigestion ; je vais essayer de me souvenir de ce qui aurait pu la provoquer, et la prochaine fois j’éviterai probablement cet aliment. »
Reste maintenant à découvrir où se cache, dans le cerveau, ce mécanisme d’apprentissage causal. D’autres neurotransmetteurs comme l’acétylcholine et la sérotonine figurent parmi les suspects… mais rien n’est encore tranché.
Pour plus d’informations et d’analyses sur la Côte d’Ivoire, suivez Africa-Press





