NZNTV

NOYAUZERONETWORK.ORG / GENEVA, SWITZ.
NewTech. Un nouvel outil pour aider les ordinateurs à traduire

MY TAILOR IS RICH. «Entre les langues, ça ne colle jamais!» Le diagnostic est celui d’Andrei Popescu-Belis, chercheur senior à l’Institut de recherche Idiap, à Martigny. A la tête d’un consortium suisse, cet informaticien a développé de nouvelles techniques pour améliorer les outils de traduction automatique.Il a présenté ses résultats il y a une dizaine de jours, lors d’une conférence à Valence, en Espagne.

Chacun a son anecdote et nous avons tous déjà lu un mode d’emploi surréaliste passé entre les mains d’un traducteur maladroit. Le problème, détaille Andrei Popescu-Belis, c’est que tous les mots, ou presque, ont plusieurs sens, donc plusieurs traductions. Les pronoms ne sont pas identiques dans toutes les langues… Les Espagnols et les Italiens se permettent même d’en supprimer! Pour compliquer le tout, la concordance des temps varie également. Et ne parlons pas du chinois ou du japonais…
100 milliards de mots.

L’enjeu est de taille puisqu’un outil comme Google Translate traite chaque jour quelque 100 milliards de mots. Depuis les années nonante, des progrès ont été effectués en recourant aux statistiques: l’ordinateur apprend la probabilité qu’un mot signifie une chose plutôt qu’une autre, en fonction des mots voisins. La proposition d’Andrei Popescu-Belis a été de ne plus effectuer ce calcul phrase par phrase mais de croiser des informations contenues ailleurs dans le texte. Ainsi, si le terme anglais «rock» est employé, il faut regarder si l’on parle de musique (rock’n roll) ou de géologie (la roche).

Un autre exemple? Les pronoms font en général référence à ce qui est apparu plus tôt dans le texte. Or, le «it» anglais (destiné aux objets et aux animaux) n’existe pas en français: on utilisera «il» ou «elle». Si vous demandez à un ordinateur de traduire «Ma tante a acheté une excellente voiture. Elle n’est pas très jolie», la version anglaise risque fort de remettre en cause la beauté de votre parente. Pour une bonne raison: le système a appris que «joli» est généralement utilisé pour des personnes, contrairement à «rouillé» ou «en panne». Là encore, un coup d’œil dans le rétroviseur pourrait éviter un impair.

Algorithmes publics

L’idée, donc, est de pousser le programme à «comprendre le sens global pour améliorer les choix locaux». Cette question est désormais étudiée dans le monde entier. A Martigny, Genève et Zurich, une vingtaine de personnes ont participé au projet d’Andrei Popescu-Belis, financé par le Fonds national suisse de la recherche. Des linguistes de l’Université de Genève ont notamment cherché à savoir où regarder pour donner la bonne réponse. «Dans les grandes lignes, nous indiquons au système le nombre de phrases précédentes qu’il doit analyser et comment il doit les analyser, puis nous procédons à des tests en conditions réelles», résume l’informaticien.

Avec l’anglais et l’espagnol, ces travaux permettent de supprimer un tiers des erreurs liées aux pronoms et 80% des problèmes de verbes. «Notre outil prend du temps pour effectuer les calculs, précise le chercheur. Il ne permet pas de traiter des milliers de phrases à la minute.» L’utilisation par tout un chacun n’est donc pas encore possible, mais ces algorithmes sont publics. D’autres pourront «les emballer et les rendre plus efficaces». Trois collaborateurs du consortium ont d’ailleurs été débauchés par Google Zurich.

«L’esprit est plein d’ardeur, mais la chair est faible»

Reste à savoir si, un jour, notre ordinateur pourra livrer un résultat parfait. «Nous en sommes très loin, mais ces systèmes permettent déjà de comprendre dans les grandes lignes un article rédigé dans une langue inconnue.» Autre limite: si certaines langues ont été bien étudiées, la plupart restent les parents pauvres de la traduction automatique.

Andrei Popescu-Belis conclut que, dans ce domaine, les chercheurs se sont en général montrés trop optimistes. Durant la guerre froide, les Américains essayaient déjà de décrypter les messages russes. L’histoire raconte qu’ils auraient testé leur système avec la phrase biblique «The spirit is willing but the flesh is weak» («L’esprit est plein d’ardeur, mais la chair est faible»). Un aller-retour vers le russe et le résultat aurait donné: «La vodka est forte, mais la viande est pourrie.» Depuis, de grands progrès ont été réalisés. La Bible, toutefois, reste hors de portée.

Un outil pour faire des recommandations

Le domaine d’activité d’Andrei Popescu-Belis s’appelle «linguistique computationnelle». Hormis la traduction automatique, son équipe aide des sites Internet à proposer des recommandations. Elle a par exemple développé pour TED (un site regroupant de courtes conférences réalisées par des personnalités marquantes) un mécanisme permettant de conseiller aux usagers de nouvelles vidéos.

La subtilité: les suggestions ne sont pas uniquement liées au fait que vous vous êtes déjà intéressé à un thème. Elles prennent en compte les commentaires que vous avez déposés, le logiciel étant capable de déterminer si leur tonalité est positive ou négative. «Quand vous écrivez «nul» ou «exceptionnel», cela ne pose pas de problème, mais si vous employez le terme «pas mal», l’ordinateur doit comprendre que ces mots doivent être traités ensemble», décrit le chercheur. L’analyse permet aussi de savoir sur quels aspects vous êtes positif ou négatif. «Nous avons employé cette méthode pour un site de livres audio. Nous pouvons ainsi préciser si vous avez apprécié l’histoire ou son lecteur.»

Pour Andrei Popescu-Belis, l’inconvénient de tels outils est qu’ils enferment les gens dans des cases et n’élargissent pas leur horizon – que ce soit dans les loisirs ou sur les opinions. Et le risque de manipuler le public? «Nous n’avons jamais développé de projet commercial mais c’est vrai, cela permettrait une publicité ciblée. De toute façon, il faut savoir que ce que nous faisons sur le net n’est jamais privé, mais se reflète en partie dans les recommandations que nous recevons.»