Utilisateur:NGalichet

La notion de corpus comparables fait référence, en TALN, à la donnée de deux corpus de textes, éventuellement rédigés dans deux langues distinctes et qui sont « proches » dans un sens à définir précisément à chaque fois.

L'exploitation automatique de tels corpus présente de nombreuses applications. Citons dans le cadre de corpus monolingues, la segmentation des mots en classes, chacune contenant des mots liés par une certaine relation sémantique(synonymes, antonymes...). Lorsque les corpus sont rédigés en langues distinctes, on s'intéresse majoritairement à l'extraction automatique de mots en relation de traduction.

Définition et avantages des corpus comparables[modifier | modifier le code]

Définition[modifier | modifier le code]

On désigne par corpus comparables la donnée de deux corpus, un de $n$ textes appelé corpus source, et un autre de $m$ textes, appelé corpus cible. Ces corpus sont rédigés dans les langues éventuellement distinctes. Il est important de noter qu'ici la notion de corpus est celle définie par Sinclair, i.e un ensemble de textes ayant des caractéristiques contrôlées. Dans le cadre des corpus comparables, cela impose notamment que tous les textes présents dans les deux corpus partagent un genre, un domaine, un style ou une autre caractéristique commune.

Cette définition se veut la plus générique possible et ne précise pas formellement la notion de « comparabilité » des corpus. Plusieurs possibilités coexistent^[1], certaines s'attachent à des aspects qualitatifs des textes(genre, auteur, période...) et d'autres à des aspects quantitatifs(fréquence de mots). Par exemple dans le cas de l'extration terminologique Déjean et Gaussier^[1] définissent le degré de comparaison entre deux corpus comme suit :

« Deux corpus de deux langues $l_{1}$ et $l_{2}$ sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue $l_{1}$ , respectivement $l_{2}$ , dont la traduction se trouve dans le corpus de langue $l_{2}$ , respectivement $l_{1}$ . »

(La notion de partie « non négligeable » n'est pas très précise, elle assure seulement aux auteurs que l'extraction terminologique sera possible)

On remarque que dans la majorité des cas, des corpus comparables selon une certaine définition le restent pour d'autres définitions. Par exemple, si deux corpus traitent d'une thématique commune, ils ont de grandes chances de contenir un grand nombre de mots en relation de traduction. Il faudra néanmoins être attentif à la notion de « comparabilité » utilisée dans chaque cas.

Apports des corpus comparables[modifier | modifier le code]

Le TALN fait fréquemment appel à deux types de corpus : les corpus parallèles et les corpus comparables.

Un corpus parallèle est, comme un corpus comparable, la donnée de deux corpus, un cible et un source que l'on considère rédigés dans deux langues distinctes. Cependant, dans le cas des corpus parallèles, les corpus cible et source contiennent le même nombre de textes. Chacun des textes du corpus source sont en relation (de traduction) avec un unique texte cible. Ces corpus permettent d'opérer de manière efficace un alignement entre les documents cible et source avec une granularité variable(alignements entre textes, phrases, groupe de mots, mots). Ces corpus sont donc des outils performants pour trouver automatiquement la traduction d'un mot.

Cependant, par sa définition même, la constitution d'un corpus parallèle se fait sur la base de documents ayant des traductions les plus proche possibles(en terme de structure, contenu,registre...). Les sources les plus communes de corpus parallèles sont alors les traductions de documents techniques, de débats dans les organismes avec plusieurs langues officielles(Parlement canadien, ONU,...), les romans et textes religieux. Cela induit de nombreuses limitations pour les corpus parallèles :

Représentativité : une très grande partie des corpus parallèles disponibles ne font intervenir qu'un petit nombre de langues dans peu de domaine.
Taille : un corpus parallèle de grande taille est difficile à obtenir. Ce défaut est moins marqué avec la possibilité de se servir des pages d'un site internet multilingue.
Qualité de langue : l'utilisation de textes, notamment issu d'internet, pose le problème de la qualité et de la correction de la langue et de la traduction.

Les corpus comparables permettent d'obtenir sur ces points des améliorations significatives^[2]:

Représentativité : les textes traitants de sujets variés dans un grand nombre de langues sont facilement disponibles.
Taille : le nombre de documents portant sur une thématique particulière et dans une langue donnée sont généralement très nombreux.
Qualité de langue: On travaille sur des documents « originaux » dans le sens où ils ont été produits directement dans la langue cible. On peut donc espérer que la correction de langue soit plus élevée que dans le cas d'un document produit par traduction.

Il faut toutefois garder à l'esprit que si l'alignement dans le cadre de corpus parallèles est relativement précis, il est bien plus délicat à mettre en œuvre pour des corpus comparables.

Méthodes d'alignement translangue[modifier | modifier le code]

On se place ici dans le cas où les deux corpus sont rédigés dans deux langues distinctes. Il est important de rester vigilant au fait que les techniques d'extraction automatique de lexiques bilingues sont nombreuses(c'est un sujet de recherche actif) et doivent être situées dans leur contexte applicatif et les définitions appropriés. Elles partagent néanmoins souvent des principes communs(cooccurence par exemple).

Un premier exemple[modifier | modifier le code]

Nous nous intéressons à la méthode présentée dans l'article de Rapp^[3] en 1995. Elle a un intérêt double : c'est l'une des premières techniques utilisées dans le cadre de corpus non parallèles et elle met en œuvre le principe de cooccurrences dans un cadre simple.

L'objectif de l'article est de trouver, à partir deux corpus(anglais et allemand) et de manière automatique, la traduction en anglais d'une certain nombre de mots allemands. Pour cela, il est introduit l'utilisation d'un indice statistique important : la cooccurrences de termes. L'hypothèse est que deux mots qui apparaissent simultanément de manière plus répétée que aléatoirement dans une langue auront leurs traductions respectives qui cooccurreront dans une proportion comparable dans une autre langue. Par exemple, les mots « teacher » et « school » cooccurrent de manière plus fréquente que aléatoirement dans un corpus anglais, il est donc considéré que les mots « professeur » et « école » cooccurreront plus fréquemment en français.

La procédure pour trouver automatiquement le sens de $n$ mots d'une langue source dans une langue cible :

Pour chaque langue, on définit une matrice $nxn$ , qui associe à chaque ligne et chaque colonne un mot. On peut supposer, sans perdre en généralité, que les ordres de mots sont identiques en lignes et en colonnes. Les coefficients en position $(i,j)$ de la matrice représentent le degré de cooccurrence entre les mots $i$ et $j$ .

Plusieurs formes de coefficients sont possibles. Par exemple: ${\frac {(f(i,j))^{2}}{f(i)f(j)}}$ avec $f(i)$ fréquence d'apparition du mot i et $f(i,j)$ la fréquence d'apparition simultanée de $i$ et $j$ dans le corpus(source ou cible).

(Deux mots sont considérés cooccurrents s'ils apparaissent tous les deux à une distance fixée par un certain nombre de mots)

On dispose d'une mesure $s=\sum _{i,j=1}^{N}\vert S_{i,j}-C_{i,j}\vert$ de similarité entre les deux matrices( $N$ nombre de mots, $S$ matrice langue source, $C$ matrice langue cible). Cette mesure sera d'autant plus faible que les coefficients de cooccurences pour tous les couples de mots seront proches.
On fixe l'ordre des lignes et colonnes de la matrice $S$ et on permute les lignes et colonnes de la matrice $C$ .
Lorsque la mesure $s$ est minimale, on considère que le mot à la ligne(colonne) $i$ de la matrice cible est traduit par le mot de la ligne $i$ de la matrice source.

Cette méthode a fait l'objet d'une validation dans l'article. Il y est montré que pour trois formes de coefficients de corrélation possibles, la valeur de $s$ est minimale lorsque l'alignement convenable entre les mots de la langue cible et leurs traductions sont corrects. On constate également que $s$ croit en fonction du nombre de permutations de ligne/colonne effectuées par rapport à l'alignement optimal.

La technique exposée ici a pour elle sa simplicité conceptuelle et son efficacité relative. Elle présente cependant l'inconvénient rédhibitoire d'être d'une complexité computationnelle très élevée qui empêche l'implémentation en situation réelle(on travaille sur des matrices ${\text{(Nombre de mots à traduire)}}^{2}$ , sur lesquelles on effectue des permutations en nombre exponentiel...).

Dans un travail suivant, Rapp^[4] essaiera de corriger ce défaut en partant d'un petit lexique de mots(dont la traduction est connue) qu'il complètera ensuite.

Méthode plus fine[modifier | modifier le code]

Cet exemple est issu de travaux plus récents^[2]^[5] et s'intéresse en premier lieu au domaine particulier de la médecine.

Ce modèle reprend le principe général de Rapp en l'étendant. Le but est de trouver automatiquement la traduction de termes. Il se base principalement sur l'hypothèse que le sens des mots est déterminé par leur emploi. Les mots d'emploi comparables auront de bonnes chances d'être traduction l'un de l'autre. On va donc essayer de quantifier cette notion d'emploi. Pour cela, il s'agit ici de :

Comptabiliser les cooccurrences de mots et les caractériser. Deux mots seront cooccurrents s'ils sont suffisamment proches dans un texte. Le modèle raffine la proposition de Rapp en permettant de prendre en compte la force d'association plus ou moins grande des cooccurrences. Cela permet de produire des vecteurs de contextes qui ont , en théorie, autant de composantes que de mots dans le corpus, chaque composante étant la force d'association avec un autre mot du corpus. Ces vecteurs représentent le profil distributionnel du mot.
Comparer ces vecteurs entre eux par des mesures de similarités. Deux vecteurs de similarité forte seront interprétés comme étant les vecteurs de deux mots proches sémantiquement.

Exemples de mesures de similarités avec $V$ , $W$ vecteurs de contextes :

Jaccard $(V,W)={\frac {\sum _{k}v_{k}w_{k}}{\sum _{k}{v_{k}}^{2}+\sum _{l}{w_{l}}^{2}-\sum _{m}v_{m}w_{m}}}$

Cosinus $(V,W)={\frac {\sum _{k}v_{k}w_{k}}{{\sqrt {sum_{k}v{k}^{2}}}{\sqrt {sum_{l}w{l}^{2}}}}}$

Manhattan $(V,W)=\sum _{k}\vert v_{k}-w_{k}\vert$

...

La comparaison des vecteurs de contexte permet donc de définir une notion de distance sémantique entre les mots. Cette distance permet d'opérer diverses opérations sur les mots du corpus. Elle permet, par exemple, de définir des ensembles de mots de sens proches, ou de classer les mots selon leur similarité décroissante.

Le modèle ajoute un lexique d'amorçage bilingue qui sert de pivot entre les deux langues. On va réduire l'estimation des forces d'associations de chaque mot du corpus aux mots présents dans ce lexique(vecteurs de contexte bien plus petits). Comme on connait les traductions des mots de ce lexique, on va pouvoir comparer les vecteurs de contexte des mots des deux langues. Les mots ayant des vecteurs présentant une similarité maximale seront vraisemblablement traduction l'un de l'autre.

La constitution d'un tel lexique est un problème central et délicat, on souhaite qu'il présente les qualités suivante :

les mots du lexique doivent être suffisamment représentés dans les corpus pour obtenir un nombre intéressant de cooccurrences(discrimination). Il faut néanmoins faire attention à ce que les mots du lexiques ne cooccurrent pas avec trop de mots des corpus.
pas de mots grammaticaux
On veut éviter la polysémie, de manière à obtenir une traduction unique de chaque mot du lexique.

L'introduction de ce lexique pivot permet aussi de sélectionner les traductions possibles selon une autre modalité. En effet, d'après Déjean et Gaussier ^[1] :

« Deux mots de deux langues $l_{1}$ et $l_{2}$ sont, avec forte probabilité, traduction l'un de l'autre si leurs similarités avec les entrées des ressources bilingues disponibles sont proches »

On ne sélectionnerait donc plus, par application de cette hypothèse, une traduction de mot parce que ces deux mots présentent un profil distributionnel très similaires. La sélection aurait lieu ici en calculant le vecteur de contexte de chaque mot pivot, et en comparant les profils des mots avec ceux des mots pivot.

Notons enfin que la définition de la notion de distance sémantique ouvre la voie à des applications dans le cadre monolingue. Il est tout à fait possible d'évaluer la proximité de sens de deux mots dans une même langue, et à l'aide de cette mesure de créer des ensembles de mots possédant un lien sémantique défini(synonymie...).

Références[modifier | modifier le code]

↑ ^{a b et c} « Une nouvelle approche à l'extraction de lexiques bilingues à partir de corpus comparables », Déjean H. & Gaussier E., 2002
↑ ^{a et b} Cours sur les corpus comparables, Pierre Zweigenbaum, Université Paris Sud XI
↑ « Identifying word translation in non-parrallel texts» , Rapp R., 1995
↑ « Automatic identification of word translations from unrelated English and German corpora» , Rapp R., 1999
↑ « Looking for candidate translational equivalents in specialized, comparable corpora » Chiao Y.-C. & Zweigenbaum P.,2002

[DejeanGaussier-1] {a b et c} « Une nouvelle approche à l'extraction de lexiques bilingues à partir de corpus comparables », Déjean H. & Gaussier E., 2002

[pz-2] {a et b} Cours sur les corpus comparables, Pierre Zweigenbaum, Université Paris Sud XI

[Rapp95-3] « Identifying word translation in non-parrallel texts» , Rapp R., 1995

[Rapp99-4] « Automatic identification of word translations from unrelated English and German corpora» , Rapp R., 1999

[chiao-5] « Looking for candidate translational equivalents in specialized, comparable corpora » Chiao Y.-C. & Zweigenbaum P.,2002

[1]

[2]

[3]

[4]

[5]