Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

2023-05-15

Africa-Press – Djibouti. Une équipe de chercheurs israéliens a mis au point un modèle de traduction automatique capable de traduire en anglais des tablettes cunéiformes de l’ancienne Mésopotamie. Un véritable défi, car les signes de l’écriture cunéiforme peuvent se lire de diverses manières. Publiés dans la revue PNAS Nexus, les résultats des multiples tests pratiqués pour vérifier l’acuité des traductions produites par le réseau d’intelligence artificielle sont plus que prometteurs, puisqu’ils indiquent que la machine est tout à fait capable de traduire directement les signes cunéiformes sans passer par une étape de translittération en caractères latins. C’est une nouvelle voie qui s’ouvre pour les universitaires, car ce type de collaboration entre l’humain et la machine – où l’humain viendra parfaire la première lecture fournie par la machine –, permettra de faire avancer la recherche en rendant plus accessibles les centaines de milliers de tablettes d’argile qui attendent encore d’être déchiffrées.

Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

Les tablettes retrouvées sur les sites archéologiques de l’ancienne Mésopotamie regorgent d’informations sur les civilisations de la région ; il est donc indispensable de comprendre les textes qui y ont été notés en écriture cunéiforme, dans la langue sumérienne au sud, et dans la langue akkadienne au nord (environ 2700 avant notre ère – 75 de notre ère). Étant donné le nombre de tablettes en langue akkadienne dont on ne connaît pas encore la teneur en raison du temps nécessaire pour leur déchiffrement et leur traduction, une équipe de chercheurs en informatique et d’experts en langues anciennes des universités d’Ariel et de Tel Aviv (Israël), dirigée par Shai Gordin, a entrepris de mettre à contribution l’intelligence artificielle. Après lui avoir appris à reconstituer des tablettes fragmentées, c’est une mission plus ardue qui lui a été confiée : celle d’aider les universitaires à accomplir les tâches fastidieuses et chronophages de leur traduction.

Réduire le nombre d’étapes nécessaire à la traduction

Une équipe de chercheurs israéliens a mis au point un modèle de traduction automatique capable de traduire en anglais des tablettes cunéiformes de l’ancienne Mésopotamie. Un véritable défi, car les signes de l’écriture cunéiforme peuvent se lire de diverses manières. Publiés dans la revue PNAS Nexus, les résultats des multiples tests pratiqués pour vérifier l’acuité des traductions produites par le réseau d’intelligence artificielle sont plus que prometteurs, puisqu’ils indiquent que la machine est tout à fait capable de traduire directement les signes cunéiformes sans passer par une étape de translittération en caractères latins. C’est une nouvelle voie qui s’ouvre pour les universitaires, car ce type de collaboration entre l’humain et la machine – où l’humain viendra parfaire la première lecture fournie par la machine –, permettra de faire avancer la recherche en rendant plus accessibles les centaines de milliers de tablettes d’argile qui attendent encore d’être déchiffrées.

Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

Réduire le nombre d’étapes nécessaire à la traduction

Pour traduire une tablette écrite en cunéiforme, un expert en paléographie doit accomplir trois tâches successives : recopier les signes (glyphes), les transcrire en alphabet latin, puis traduire le texte dans la langue cible – ici l’anglais. Les chercheurs se basent donc sur ce schéma pour attribuer à l’IA deux séries de tâches comparables afin de déterminer laquelle est la plus efficace. D’une part, la machine est chargée de traduire en anglais le texte transcrit en caractères latins ; d’autre part, dans la mesure où la reconnaissance optique des caractères (OCR) est particulièrement efficace, la machine doit transcrire elle-même en code informatique les glyphes cunéiformes pour les traduire directement en anglais.

Schéma des tâches de traduction. La ligne du haut représente les tâches accomplies par l’humain, la ligne médiane, la traduction accomplie par l’IA à partir de la translittération, la dernière ligne, la traduction directement accomplie par l’IA à partir du cunéiforme. Crédits : Gutherz et al., 2023

Les traductions automatiques sont comparées à des traductions de référence

Pour évaluer les résultats de la traduction automatique, ils sont comparés à des traductions de référence effectuées par les humains. Les chercheurs constatent avec satisfaction que la machine réalise de bons scores, aussi bien en passant par la translittération qu’en traduisant directement les glyphes en cunéiforme. Dans la mesure où « des traductions de haute qualité peuvent être obtenues en traduisant directement du cunéiforme vers l’anglais », ils en concluent que « l’étape de translittération n’est pas nécessaire », comme cela se produit déjà pour des langues utilisant des idéogrammes (le chinois ou le japonais par exemple). Le principal critère de variabilité des résultats est plutôt la longueur du texte donné à traduire. Les textes trop longs sont les plus sujets aux erreurs, tandis que les meilleurs scores sont obtenus avec des phrases de moyenne longueur, estimée à 118 caractères. L’IA est également très performante dès que le texte inclut des formules, ce qui s’applique aussi bien aux écrits administratifs ou législatifs, qu’aux textes divinatoires.

L’IA produit différents types d’hallucinations

Les erreurs de sens générées par la traduction automatique sont dénommées « hallucinations ». La machine « invente » en effet des morceaux de phrases dès qu’elle bute, ce qui peut se produire lorsque ses données d’apprentissage ne sont pas cohérentes (quand la traduction humaine de référence ne correspond pas au texte source), ou bien lorsqu’elle zappe des parties du texte à traduire, soit parce qu’il est trop long, soit parce qu’il est trop court et qu’elle manque de contexte pour le caractériser. Il faut préciser que la langue akkadienne est particulièrement difficile à interpréter, tout d’abord parce qu’elle ne connaît pas la ponctuation, mais aussi parce que chaque glyphe peut correspondre à différentes formes phonétiques et logographiques (on peut le lire de diverses façons) et revêtir diverses significations selon le contexte. Le paléographe note ces éléments par le biais de signes ajoutés à la translittération latine. L’équipe de Shai Gordin a déjà entrepris de faire accomplir cette tâche par la machine, en obtenant une précision de 97%. Enfin, le réseau de neurones artificiels pèche également par ignorance, car il ne connaît pas tous les noms propres mentionnés dans les tablettes.

Les pistes à développer

Les chercheurs concluent des multiples expériences réalisées, impliquant diverses configurations, que « la meilleure façon de traduire un texte est de le diviser en phrases plus courtes », ce qui est tout à fait réalisable car les textes se présentent sous formes de lignes sur les tablettes ; ils décident ainsi qu’il leur faudra « définir chaque ligne de texte inscrite sur la tablette comme une unité de traduction ». Ils constatent également que malgré les bons résultats de la traduction directe à partir du cunéiforme, elle « est plus sujette aux hallucinations étant donné la nature polyvalente des signes cunéiformes ». Quant aux lacunes en matière de noms propres (noms de personnes ou de lieux), elles seront comblées au fur et à mesure de l’entraînement, en particulier en diversifiant les genres de textes.

Lors de cette première batterie de tests, les chercheurs ont d’ailleurs été surpris par la capacité de la machine à reproduire le style et le genre du texte source. Conclusion : ces premières expériences réalisées sur des tablettes akkadiennes démontrent que la traduction générée par l’IA serait parfaitement utilisable dans le cadre d’une collaboration entre l’humain et la machine, où la traduction automatique serait corrigée et affinée par les chercheurs. Ce qui permettra non seulement de rendre ces sources plus accessibles aux universitaires, mais aussi de mieux faire connaître au public et de mieux préserver ce patrimoine de l’humanité.

Pour plus d’informations et d’analyses sur la Djibouti, suivez Africa-Press

ARTICLES CONNEXESPLUS DE L'AUTEUR

Neutrino Énergétique Provenant d’un Blazar

Briques de Vie Révélées par Échantillons de Ryugu

Remise des prix du concours de mémorisation du Coran

Bahdon Encourage Retrait des Cartes d’Électeur

Soutien de la diaspora djiboutienne à Guelleh

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR