Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

7
Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle
Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

Africa-Press – Djibouti. Une équipe de chercheurs israéliens a mis au point un modèle de traduction automatique capable de traduire en anglais des tablettes cunéiformes de l’ancienne Mésopotamie. Un véritable défi, car les signes de l’écriture cunéiforme peuvent se lire de diverses manières. Publiés dans la revue PNAS Nexus, les résultats des multiples tests pratiqués pour vérifier l’acuité des traductions produites par le réseau d’intelligence artificielle sont plus que prometteurs, puisqu’ils indiquent que la machine est tout à fait capable de traduire directement les signes cunéiformes sans passer par une étape de translittération en caractères latins. C’est une nouvelle voie qui s’ouvre pour les universitaires, car ce type de collaboration entre l’humain et la machine – où l’humain viendra parfaire la première lecture fournie par la machine –, permettra de faire avancer la recherche en rendant plus accessibles les centaines de milliers de tablettes d’argile qui attendent encore d’être déchiffrées.

Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

Les tablettes retrouvées sur les sites archéologiques de l’ancienne Mésopotamie regorgent d’informations sur les civilisations de la région ; il est donc indispensable de comprendre les textes qui y ont été notés en écriture cunéiforme, dans la langue sumérienne au sud, et dans la langue akkadienne au nord (environ 2700 avant notre ère – 75 de notre ère). Étant donné le nombre de tablettes en langue akkadienne dont on ne connaît pas encore la teneur en raison du temps nécessaire pour leur déchiffrement et leur traduction, une équipe de chercheurs en informatique et d’experts en langues anciennes des universités d’Ariel et de Tel Aviv (Israël), dirigée par Shai Gordin, a entrepris de mettre à contribution l’intelligence artificielle. Après lui avoir appris à reconstituer des tablettes fragmentées, c’est une mission plus ardue qui lui a été confiée : celle d’aider les universitaires à accomplir les tâches fastidieuses et chronophages de leur traduction.

Réduire le nombre d’étapes nécessaire à la traduction

Une équipe de chercheurs israéliens a mis au point un modèle de traduction automatique capable de traduire en anglais des tablettes cunéiformes de l’ancienne Mésopotamie. Un véritable défi, car les signes de l’écriture cunéiforme peuvent se lire de diverses manières. Publiés dans la revue PNAS Nexus, les résultats des multiples tests pratiqués pour vérifier l’acuité des traductions produites par le réseau d’intelligence artificielle sont plus que prometteurs, puisqu’ils indiquent que la machine est tout à fait capable de traduire directement les signes cunéiformes sans passer par une étape de translittération en caractères latins. C’est une nouvelle voie qui s’ouvre pour les universitaires, car ce type de collaboration entre l’humain et la machine – où l’humain viendra parfaire la première lecture fournie par la machine –, permettra de faire avancer la recherche en rendant plus accessibles les centaines de milliers de tablettes d’argile qui attendent encore d’être déchiffrées.

Les tablettes cunéiformes seront bientôt traduites par l’intelligence artificielle

Les tablettes retrouvées sur les sites archéologiques de l’ancienne Mésopotamie regorgent d’informations sur les civilisations de la région ; il est donc indispensable de comprendre les textes qui y ont été notés en écriture cunéiforme, dans la langue sumérienne au sud, et dans la langue akkadienne au nord (environ 2700 avant notre ère – 75 de notre ère). Étant donné le nombre de tablettes en langue akkadienne dont on ne connaît pas encore la teneur en raison du temps nécessaire pour leur déchiffrement et leur traduction, une équipe de chercheurs en informatique et d’experts en langues anciennes des universités d’Ariel et de Tel Aviv (Israël), dirigée par Shai Gordin, a entrepris de mettre à contribution l’intelligence artificielle. Après lui avoir appris à reconstituer des tablettes fragmentées, c’est une mission plus ardue qui lui a été confiée : celle d’aider les universitaires à accomplir les tâches fastidieuses et chronophages de leur traduction.

Réduire le nombre d’étapes nécessaire à la traduction

Pour traduire une tablette écrite en cunéiforme, un expert en paléographie doit accomplir trois tâches successives : recopier les signes (glyphes), les transcrire en alphabet latin, puis traduire le texte dans la langue cible – ici l’anglais. Les chercheurs se basent donc sur ce schéma pour attribuer à l’IA deux séries de tâches comparables afin de déterminer laquelle est la plus efficace. D’une part, la machine est chargée de traduire en anglais le texte transcrit en caractères latins ; d’autre part, dans la mesure où la reconnaissance optique des caractères (OCR) est particulièrement efficace, la machine doit transcrire elle-même en code informatique les glyphes cunéiformes pour les traduire directement en anglais.

Schéma des tâches de traduction. La ligne du haut représente les tâches accomplies par l’humain, la ligne médiane, la traduction accomplie par l’IA à partir de la translittération, la dernière ligne, la traduction directement accomplie par l’IA à partir du cunéiforme. Crédits : Gutherz et al., 2023

Les traductions automatiques sont comparées à des traductions de référence

Pour évaluer les résultats de la traduction automatique, ils sont comparés à des traductions de référence effectuées par les humains. Les chercheurs constatent avec satisfaction que la machine réalise de bons scores, aussi bien en passant par la translittération qu’en traduisant directement les glyphes en cunéiforme. Dans la mesure où “des traductions de haute qualité peuvent être obtenues en traduisant directement du cunéiforme vers l’anglais”, ils en concluent que “l’étape de translittération n’est pas nécessaire”, comme cela se produit déjà pour des langues utilisant des idéogrammes (le chinois ou le japonais par exemple). Le principal critère de variabilité des résultats est plutôt la longueur du texte donné à traduire. Les textes trop longs sont les plus sujets aux erreurs, tandis que les meilleurs scores sont obtenus avec des phrases de moyenne longueur, estimée à 118 caractères. L’IA est également très performante dès que le texte inclut des formules, ce qui s’applique aussi bien aux écrits administratifs ou législatifs, qu’aux textes divinatoires.

L’IA produit différents types d’hallucinations

Les erreurs de sens générées par la traduction automatique sont dénommées “hallucinations”. La machine “invente” en effet des morceaux de phrases dès qu’elle bute, ce qui peut se produire lorsque ses données d’apprentissage ne sont pas cohérentes (quand la traduction humaine de référence ne correspond pas au texte source), ou bien lorsqu’elle zappe des parties du texte à traduire, soit parce qu’il est trop long, soit parce qu’il est trop court et qu’elle manque de contexte pour le caractériser. Il faut préciser que la langue akkadienne est particulièrement difficile à interpréter, tout d’abord parce qu’elle ne connaît pas la ponctuation, mais aussi parce que chaque glyphe peut correspondre à différentes formes phonétiques et logographiques (on peut le lire de diverses façons) et revêtir diverses significations selon le contexte. Le paléographe note ces éléments par le biais de signes ajoutés à la translittération latine. L’équipe de Shai Gordin a déjà entrepris de faire accomplir cette tâche par la machine, en obtenant une précision de 97%. Enfin, le réseau de neurones artificiels pèche également par ignorance, car il ne connaît pas tous les noms propres mentionnés dans les tablettes.

Les pistes à développer

Les chercheurs concluent des multiples expériences réalisées, impliquant diverses configurations, que “la meilleure façon de traduire un texte est de le diviser en phrases plus courtes”, ce qui est tout à fait réalisable car les textes se présentent sous formes de lignes sur les tablettes ; ils décident ainsi qu’il leur faudra “définir chaque ligne de texte inscrite sur la tablette comme une unité de traduction”. Ils constatent également que malgré les bons résultats de la traduction directe à partir du cunéiforme, elle “est plus sujette aux hallucinations étant donné la nature polyvalente des signes cunéiformes”. Quant aux lacunes en matière de noms propres (noms de personnes ou de lieux), elles seront comblées au fur et à mesure de l’entraînement, en particulier en diversifiant les genres de textes.

Lors de cette première batterie de tests, les chercheurs ont d’ailleurs été surpris par la capacité de la machine à reproduire le style et le genre du texte source. Conclusion : ces premières expériences réalisées sur des tablettes akkadiennes démontrent que la traduction générée par l’IA serait parfaitement utilisable dans le cadre d’une collaboration entre l’humain et la machine, où la traduction automatique serait corrigée et affinée par les chercheurs. Ce qui permettra non seulement de rendre ces sources plus accessibles aux universitaires, mais aussi de mieux faire connaître au public et de mieux préserver ce patrimoine de l’humanité.

Pour plus d’informations et d’analyses sur la Djibouti, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here