Ngoc Quang LUONG soutient sa thèse de doctorat le 12 novembre 2014  à 14h dans l’Amphithéâtre H de l'Ensimag (681 Rue de la Passerelle, Domaine universitaire de Saint Martin d'Hères). Intitulée "Word Confidence Estimation for Statistical Machine Translation", cette thèse a été préparée au sein du laboratoire d’informatique de Grenoble (LIG) dans l'équipe GETALP et encadrée par Laurent Besacier (Directeur de thèse) et Benjamin Lecouteux (Co-encadrant de thèse).

 

Résumé :
Les systèmes de traduction automatique (TA), qui génèrent automatiquement la phrase de la langue cible pour chaque entrée de la langue source, ont obtenu plusieurs réalisations convaincantes pendant les dernières décennies et deviennent les aides linguistiques efficaces pour la communauté entière dans un monde globalisé. Néanmoins, en raison de différents facteurs, sa qualité en général est encore loin de la perfection, constituant le désir des utilisateurs de savoir le niveau de confiance qu'ils peuvent mettre sur une traduction spécifique. La construction d'une méthode qui est capable d'indiquer des bonnes parties ainsi que d'identifier des erreurs de la traduction, et puis donc de conclure la qualité globale de chaque hypothèse est absolument un bénéfice pour non seulement les utilisateurs, mais aussi les traducteurs, post-éditeurs, et les systèmes de TA eux-mêmes. Nous appelons cette méthode les mesures de confiance (MC). Les motivations de la construction de ces méthodes automatiques proviennent des inconvénients réels des mesures manuelles: elles sont chères en termes de temps et d'efforts humains, et parfois impossibles dans le cas où les lecteurs manquent fondamentalement les connaissances de la langue source.

Cette thèse se porte principalement sur les méthodes des MC au niveau des mots (MCM). Le système de MCM assigne à chaque mot de la phrase cible un étiquette de qualité. Le mécanisme sur lequel ce système fonctionne est simple: il s'agit d'un classificateur appris sur l'ensemble des paramètres en appliquant certaines méthodes d'apprentissage. Pour chaque mot dans la sortie de TA, il calcule les scores de confiance de tous les labels de qualité, et ensuite choisi ce avec le score le plus élevé comme le résultat de classification. Aujourd'hui, les MCM jouent un rôle croissant dans nombreux aspects de TA. Tout d'abord, elles aident les post-éditeurs d'identifier rapidement les erreurs dans la traduction et donc d'améliorer leur productivité de travail. De plus, elles informent les lecteurs des portions qui ne sont pas fiables pour éviter leur malentendu sur le contenu de la phrase. Troisièmement, elles sélectionnent la meilleure traduction parmi les sorties de plusieurs systèmes de TA. Finalement, et ce qui n'est pas le moins important, les scores MCM peuvent aider à perfectionner la qualité de TA via certains scénarios : ré-ordonnance des listes N-best (liste des N meilleure traductions), ré-décodage du graphique de la recherche, etc.

Dans cette thèse, nous visons à renforcer et optimiser notre système de MCM, puis à l'exploiter pour améliorer MT ainsi que les mesures de confiance au niveau des phrases (MCP). Comparer avec les approches précédentes, nos nouvelles contributions étalent sur les points principaux comme suivants. Tout d'abord, nous proposons et intégrons différents types des paramètres: ceux qui sont extraits du système TA, avec des caractéristiques lexicales, syntaxiques et sémantiques pour construire le système MCM de base. L'application et la comparaison entre les performances de différents méthodes d'apprentissage nous permet d'identifier la meilleure (méthode: "Champs conditionnels aléatoires") qui convient le plus nos données. Ensuite, l'efficacité de tous les paramètres est plus profond examiné en utilisant un algorithme heuristique de sélection des paramètres. Troisièmement, nous exploitons l'algorithme Boosting comme notre méthode d'apprentissage afin de renforcer la contribution des sous-ensembles des paramètres dominants du système MCM, et en conséquence d'améliorer la capacité de prédiction du système MCM. En outre, nous enquérons les contributions des MCM vers l'amélioration de la qualité de TA via différents scénarios. Dans le re-ordonnance des liste N-best, nous synthétisons les scores à partir des sorties du système MCM et puis les intégrons avec les autres scores du décodeur afin de recalculer la valeur de la fonction objective, qui nous permet de re-ordonner la liste pour l'obtention d'un mieux candidat. D'ailleurs, dans le ré-décodage du graphique de la recherche, nous appliquons des scores de MCM directement aux noeuds contenant chaque mot pour mettre à jour leurs coûts. Une fois la mise à jour se termine, la recherche pour meilleur chemin sur le nouveau graphique nous donne la nouvelle hypothèse de TA. Finalement, les scores de MCM sont aussi utilisés pour renforcer les performances des systèmes de MCP. Au total, notre travail apporte une image perspicace et multidimensionnelle sur des MCM et leurs impacts positifs sur différents secteurs de la TA. Les résultats très prometteurs ouvrent une grande avenue où MCM peuvent exprimer leur rôle, comme: MCM pour la reconnaissance automatique de la parole (RAP) (lorsqu'ils sont combinés avec des paramètres de RAP), MCM pour la sélection parmi plusieurs systèmes de TA, et MCM pour les systèmes de TA auto-apprentissages.

 

Jury :
Laurent BESACIER, Université Joseph Fourier, Grenoble, Directeur de thèse
Benjamin LECOUTEUX, Université Pierre Mendès France, Grenoble, Co-directeur de thèse
Kamel SMAÏLI, Université de Lorraine, Nancy, France, Rapporteur
Lucia SPECIA, University of Sheffield, United Kingdom, Rapporteur
Catherine BERRUT, Université Joseph Fourier, France, Examinateur
Guilaume WISNIEWSKI, Université Paris-Sud XI, Paris, Examinateur