Concordancier multilingue

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Un concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus.

Un corpus parallèle est un ensemble de groupes de textes tels que, deux à deux, dans chaque groupe, ces textes sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte, pour chacune des Langues officielles de l'Union européenne. L'ensemble des groupes désignant les lois régissant la communauté européenne.

De nombreux corpus sont bilingues. Le corpus de l'Hansard du parlement canadien (anglais↔français) en est un exemple connu car il fut l'un des premiers à être numérisé et mis à disposition des chercheurs en linguistique. Dans ces cas, les outils sont des concordanciers bilingues.

Depuis ces corpus sont plus nombreux et accessibles (voir la liste des liens externes). Leur origine est:

  • l'obligation de publier dans une certain nombre de langues officielles pour les organisations internationales
  • les états ayant plusieurs langues officielles
  • les publications de journaux dans plusieurs langues
  • la traduction des livres
  • la documentation des logiciels

les corpus parallèles numérisés sont une source importante pour tous les outils de traductique. À partir de ces corpus :

  • On peut exploiter directement les documents, en recherchant un mot ou une expression et afficher son occurrence dans le texte source et aligner le texte cible sur le même passage. L'avantage est de montrer l'expression dans son contexte complet.
  • en segmentant les phrases des documents et en alignant les phrases, on peut produire une mémoire de traduction ou des corpus d'entrainement pour la traduction automatique
  • en analysant les cooccurrences des termes dans les documents entre les différentes langues et ainsi construire un lexique multilingue.

Lien interne[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • I. Dan Melamed, Empirical Methods for exploiting parallel text, The MIT Press 2001
  • B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Armand Colin, 1997

Liens externes[modifier | modifier le code]

Corpus parallèles[modifier | modifier le code]

Outils[modifier | modifier le code]