L’Algorithme D’Openai Utilisé pour Retrouver la Voix en Temps Réel

11
L’Algorithme D’Openai Utilisé pour Retrouver la Voix en Temps Réel
L’Algorithme D’Openai Utilisé pour Retrouver la Voix en Temps Réel

Africa-Press – Senegal. C’était en 2021, pour le film Top Gun: Maverick. L’acteur Val Kilmer, incapable de parler suite à un cancer de la gorge, a été doté d’une voix de synthèse créée par intelligence artificielle (IA) à partir d’archives. Mais le résultat obtenu consiste en des dialogues dictés par le scénario, plaqués a posteriori sur les images ; la technique ne redonnait pas une voix en temps réel à l’acteur. Pour cela, une équipe pluridisciplinaire de chercheurs d’universités britanniques et chinoises travaille sur une autre approche, combinant matériel et logiciel, à savoir des capteurs et la version 4o-mini du modèle de langage GPT d’OpenAI.

Le projet est destiné à redonner une voix à des personnes ayant des difficultés à parler suite à une attaque ou en raison d’une maladie neurodégénérative (maladie de Parkinson, maladie de Charcot). L’article, publié en ligne sur ArXiv, avance des résultats prometteurs avec un taux d’erreur sur les mots et les phrases de respectivement 4,2% et 2,9%.

Un système non-invasif

Les chercheurs ont mis au point un système non-invasif. Des capteurs de tension en polyester imprimés en 3D sont placés sur le larynx pour en enregistrer les micro-mouvements musculaires lorsque la personne parle (sans être audible).

Ces données sont ensuite analysées par un algorithme d’apprentissage automatique construit à partir de GPT 4o-mini. Les chercheurs l’ont entrainé sur un jeu de données captées sur dix personnes capables, elles, de parler, permettant ainsi à l’algorithme d’apprendre à associer des mouvements du larynx avec des mots et phrases correspondants. Concrètement, ces personnes ont dû prononcer (et répéter 100 fois) 47 mots chinois utilisés par des victimes d’un AVC et 20 phrases (répétées, elles, 50 fois) construites autour de ces mots. Dans l’article, les chercheurs expliquent qu’après avoir soumis 25 fois chaque mot (et les mouvements du larynx allant avec) à l’algorithme, celui-ci atteint une performance de reconnaissance de 92,2%.

Capteurs sur la carotide

Mais ce n’est pas tout. D’autres capteurs au niveau de la carotide prennent le pouls pour affiner les résultats par des données contextuelles, en l’occurrence l’état émotionnel de la personne. Là encore, l’algorithme a été entraîné au préalable, et s’avère capable de reconnaître trois états: une émotion neutre, la frustration et le soulagement.

Ces données, ainsi que d’autres sur le temps qu’il fait et l’heure de la journée, servent à affiner les propos transcrits par le modèle de langage. Le texte généré est alors passé dans le logiciel de text-to-speech open source Seed-TTS pour faire entendre réellement une voix de synthèse. Au final, entre le moment où le patient articule ses propos inaudibles et celui où ils sortent en synthèse vocale, tout le processus se déroule en une seconde.

Le système repose toutefois sur une approche statistique. Les résultats peuvent donc parfois ne pas correspondre à ce que veut dire la personne ni à comment elle veut le dire, sans compter que la voix de synthèse peut ne pas lui plaire dans un contexte où la personne est déjà en difficulté. Cela reste néanmoins une piste prometteuse, surtout dans le fait que le système est pensé pour être portable et pour n’exiger absolument aucune adaptation ou apprentissage de la part du patient. Ce dernier parle comme il a toujours fait, sans se préoccuper de la technique.

Pour plus d’informations et d’analyses sur la Senegal, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here