Traductologie de corpus

Un article de Wikipédia, l'encyclopédie libre.

La traductologie de corpus (le terme équivalent en anglais est corpus-based translation studies) est le résultat du rapprochement entre la linguistique de corpus et la traductologie. L’article fondateur est « Corpus Linguistics and Translation Studies: Implications and Applications »[1]Mona Baker propose que la linguistique de corpus peut révolutionner le cadre de la traductologie descriptive : les traductologues peuvent utiliser ses méthodes d’analyse et les corpus électroniques pour analyser les textes traduits[2].

À côté de la recherche en traductologie, les corpus sont utilisés comme des outils d’aide à la traduction et dans l’apprentissage des futurs traducteurs. En plus, les corpus électroniques jouent un rôle dans le débat sur la qualité des traductions[2].

Cependant, l’utilisation des corpus dans le cadre de la traductologie est liée à des problèmes d’ergonomie. En premier lieu, en raison des nombreux types de corpus électroniques, ce n’est pas facile de les appréhender. Deuxièmement, la disponibilité des corpus est limitée, et enfin, il n’existe pas une homogénéité entre eux (au niveau du contenu, de l’étiquetage, de l’interface)[2].

 Historique[modifier | modifier le code]

En 1993, Mona Baker publie l'article fondateur dans le cadre de la traductologie de corpus.

La linguistique de corpus se développe depuis la seconde moitié du vingtième siècle, grâce à la révolution informatique. Les nouvelles technologies permettent d’utiliser les corpus électroniques via un ordinateur, c’est-à-dire que les recherches sont automatisées et rapides[3]. En 1957, Firth publie un article sur l’origine de la linguistique de corpus britannique[4], et au début des années 1960, le Brown Corpus, le premier corpus électronique, est créé aux Etats-Unis[2].

En même temps, depuis les années 1990, les chercheurs en traductologie commencent à utiliser des corpus qui ne contiennent que des traductions pour analyser le processus (l’activité traduisante)[2]. C’est Mona Baker qui suggère d’exploiter les outils développés par la linguistique de corpus pour décrire les textes traduits[5]. Après son article fondateur, la traductologie de corpus évolue rapidement : plusieurs projets de recherche sont lancés et on commence à développer des corpus monolingues et multilingues de langue traduite[2].

Enjeux[modifier | modifier le code]

Enjeux interprétatifs[modifier | modifier le code]

La nouvelle approche de Mona Baker joue un rôle central dans le cadre de la traductologie de corpus. En effet, la langue traduite devient un objet d’analyse et elle est étudiée pour elle-même ; par conséquent, « le texte traduit acquiert un statut d’égal avec le texte original »[2], on ne compare plus les textes sources et les textes cibles, mais la langue originale et la langue traduite[2].

Qualité des traductions[modifier | modifier le code]

Les chercheurs dans le cadre de la traductologie de corpus essayent de développer des outils objectifs d’évaluation de la qualité des traductions[2]. En comparant la langue originale et la langue traduite, on recherche les différences entre elles pour savoir si ces différences peuvent être utilisées comme critères de qualité. De plus, les corpus électroniques peuvent être exploités pour améliorer la qualité[2].

Enjeux techniques[modifier | modifier le code]

Un enjeu important pour la traductologie de corpus est le développement et la compilation des corpus électroniques. Grâce à l’article fondateur, on commence à créer des corpus qui contiennent la langue traduite afin d’étudier les différences entre la langue originale et la langue traduite[2]. De ce fait, le Translational English Corpus (qui contient l’anglais traduit depuis diverses langues) est compilé à l’Université de Manchester et il est aujourd’hui le corpus de référence pour l’anglais traduit[2].

Tandis que le Translational English Corpus est unilingue, il existe des corpus multilingues aussi. Par exemple, PLECI (Poitiers-Louvain Échange de Corpus Informatisés) contient des textes originaux en anglais et en français et leur traduction dans l’autre langue[2].

Principaux types de corpus[modifier | modifier le code]

Les corpus monolingues[modifier | modifier le code]

Le corpus monolingue de langue traduite ne contient qu’une langue, la langue cible, sans les textes sources. Le meilleur exemple est le Translational English Corpus qui est développé en vue d’analyser l’anglais original et l’anglais traduit par comparaison avec le British National Corpus (BNC) et le Corpus of Contemporary American English (COCA) : corpus monolingues de la langue originale[2].

De la même façon, des corpus monolingues pour d’autres langues sont compilés. Par exemple, le ZJU Corpus of Translational Chinese (contenant du chinois traduit) et le Lancaster Corpus of Mandarin Chinese (composé du chinois original)[2].

Les corpus multilingues[modifier | modifier le code]

Les corpus multilingues contiennent des textes en plus d’une langue. Ces corpus sont composés des textes originaux et leur traduction dans l’autre langue de corpus[2]. En outre, les corpus multilingues sont divisés en unidirectionnels et multidirectionnels. Les corpus unidirectionnels contiennent les traductions d’une langue vers l’autre langue, alors que les corpus multidirectionnels sont compilés de « traductions depuis les différentes langues du corpus vers les autres langues »[2]. Ainsi, l’ENPC (English-Norwegian Parallel Corpus) est un corpus bilingue bidirectionnel composé de textes originaux en anglais et en norvégien et de leur traduction dans l’autre langue[2].

Les corpus « Do-It-Yourself »[modifier | modifier le code]

Les corpus développés dans le cadre de projets de recherche (BNC, COCA, ENPC) ne sont pas toujours disponibles et gratuits. Les traducteurs professionnels peuvent compiler leurs corpus pour des projets spécifiques (par exemple, un corpus de langue spécialisée)[2].

Problèmes d’ergonomie[modifier | modifier le code]

Comme les corpus ne sont pas considérés comme des outils de TAO (Traduction Assistée par Ordinateur), ils ne sont pas exploités par les traducteurs professionnels[2]. De plus, à cause des problèmes d’ergonomie, les outils de TAO sont choisis avant les corpus électroniques.

Tout d’abord, l’existence de nombreux types de corpus entraîne la difficulté de les appréhender. Les corpus différents sont compilés en suivant des critères différents, c’est-à-dire genres/types de textes, variétés de langue, textes bruts ou annotés ; par conséquent, on ne les utilise pas de la même façon[2].

Ensuite, les corpus ne sont pas toujours disponibles en raison des questions de droits[2] ; souvent ce ne sont que les chercheurs qui ont accès aux corpus.

Enfin, comme il n’existe pas une homogénéité entre les corpus électroniques, leur utilisation par les traducteurs dépend du type du projet[2].

Notes et références[modifier | modifier le code]

  1. (en) Mona Baker, « Corpus Linguistics and Translation Studies – Implications and Applications », Text and Technology : In honour of John Sinclair,‎ , p. 233-249
  2. a b c d e f g h i j k l m n o p q r s t u v et w Rudy Loock, La traductologie de corpus, Villeneuve-d'Ascq, Presses universitaires du Septentrion,
  3. Rudy Loock, « La traductologie de corpus : étude de cas et enjeux », Au cœur de la démarche traductive : débat entre concepts et sujets,‎ , p. 99-116
  4. Natalie Kübler, « Traduction pragmatique, linguistique de corpus, traducteur : un ménage à trois explosif ? », Tralogy II,‎ (lire en ligne)
  5. (en) Sara Laviosa, Corpus-based Translation Studies. Theory, Findings, Applications, Amsterdam, Rodopi, , p. 18