L’Algorithme D’Openai Utilisé pour Retrouver la Voix en Temps Réel

2025-01-16

Africa-Press – Senegal. C’était en 2021, pour le film Top Gun: Maverick. L’acteur Val Kilmer, incapable de parler suite à un cancer de la gorge, a été doté d’une voix de synthèse créée par intelligence artificielle (IA) à partir d’archives. Mais le résultat obtenu consiste en des dialogues dictés par le scénario, plaqués a posteriori sur les images ; la technique ne redonnait pas une voix en temps réel à l’acteur. Pour cela, une équipe pluridisciplinaire de chercheurs d’universités britanniques et chinoises travaille sur une autre approche, combinant matériel et logiciel, à savoir des capteurs et la version 4o-mini du modèle de langage GPT d’OpenAI.

Le projet est destiné à redonner une voix à des personnes ayant des difficultés à parler suite à une attaque ou en raison d’une maladie neurodégénérative (maladie de Parkinson, maladie de Charcot). L’article, publié en ligne sur ArXiv, avance des résultats prometteurs avec un taux d’erreur sur les mots et les phrases de respectivement 4,2% et 2,9%.

Un système non-invasif

Les chercheurs ont mis au point un système non-invasif. Des capteurs de tension en polyester imprimés en 3D sont placés sur le larynx pour en enregistrer les micro-mouvements musculaires lorsque la personne parle (sans être audible).

Ces données sont ensuite analysées par un algorithme d’apprentissage automatique construit à partir de GPT 4o-mini. Les chercheurs l’ont entrainé sur un jeu de données captées sur dix personnes capables, elles, de parler, permettant ainsi à l’algorithme d’apprendre à associer des mouvements du larynx avec des mots et phrases correspondants. Concrètement, ces personnes ont dû prononcer (et répéter 100 fois) 47 mots chinois utilisés par des victimes d’un AVC et 20 phrases (répétées, elles, 50 fois) construites autour de ces mots. Dans l’article, les chercheurs expliquent qu’après avoir soumis 25 fois chaque mot (et les mouvements du larynx allant avec) à l’algorithme, celui-ci atteint une performance de reconnaissance de 92,2%.

Capteurs sur la carotide

Mais ce n’est pas tout. D’autres capteurs au niveau de la carotide prennent le pouls pour affiner les résultats par des données contextuelles, en l’occurrence l’état émotionnel de la personne. Là encore, l’algorithme a été entraîné au préalable, et s’avère capable de reconnaître trois états: une émotion neutre, la frustration et le soulagement.

Ces données, ainsi que d’autres sur le temps qu’il fait et l’heure de la journée, servent à affiner les propos transcrits par le modèle de langage. Le texte généré est alors passé dans le logiciel de text-to-speech open source Seed-TTS pour faire entendre réellement une voix de synthèse. Au final, entre le moment où le patient articule ses propos inaudibles et celui où ils sortent en synthèse vocale, tout le processus se déroule en une seconde.

Le système repose toutefois sur une approche statistique. Les résultats peuvent donc parfois ne pas correspondre à ce que veut dire la personne ni à comment elle veut le dire, sans compter que la voix de synthèse peut ne pas lui plaire dans un contexte où la personne est déjà en difficulté. Cela reste néanmoins une piste prometteuse, surtout dans le fait que le système est pensé pour être portable et pour n’exiger absolument aucune adaptation ou apprentissage de la part du patient. Ce dernier parle comme il a toujours fait, sans se préoccuper de la technique.

Pour plus d’informations et d’analyses sur la Senegal, suivez Africa-Press

ARTICLES CONNEXESPLUS DE L'AUTEUR

Le Fardier, précurseur de l’automobile

Wikipédia À 25 Ans: L’Avenir Face À L’IA

Box Internet Fibre: La Très Haute Vitesse et Nos Usages

IA Identifie Mutations Génétiques de Maladies Rares

ChatGPT Et Santé Mentale: Un Chatbot Ne Remplace Pas L’Humain

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR