Similarité lexicale

Un article de Wikipédia, l'encyclopédie libre.

En linguistique, la similarité lexicale est la mesure du degré de ressemblance entre des séries de mots appartenant à deux langages donnés. Une similarité lexicale de 1 (ou 100 %) correspondrait à un recouvrement total entre les vocabulaires, tandis que 0 signifie qu'il n'y a pas de mots communs.

Il y a plusieurs façons de définir la similarité lexicale et les résultats varient en conséquence. Par exemple, la méthode de l’Ethnologue consiste à comparer un ensemble standardisé de listes de mots et à compter les formes qui présentent une similitude à la fois dans la forme et dans la signification. En utilisant une telle méthode, l'anglais a été évalué comme présentant une similitude lexicale de 60 % avec l'allemand et de 27 % avec le français.

La similarité lexicale peut être utilisée pour évaluer le degré de relation génétique entre deux langages. Des pourcentages supérieurs à 85 % indiquent habituellement que les deux langues comparées sont probablement des dialectes apparentés[1].

La similarité lexicale constitue seulement une indication de l'intelligibilité mutuelle des deux langages, étant donné que cette dernière dépend aussi du degré de similitude phonétique, morphologique et syntaxique. Les variations dues aux différentes listes de mots utilisées ont aussi un effet là-dessus. Par exemple, la similitude lexicale entre le français et l'anglais est considérable dans les champs lexicaux relatifs à la culture, alors que leur similarité est plus restreinte quand il s'agit de mots de base (en termes de fonction). Contrairement à l'inter-intelligibilité, la similitude lexicale ne peut être que symétrique.

Langues indo-européennes[modifier | modifier le code]

Le tableau ci-dessous présente quelques valeurs de similarité lexicale pour des couples donnés de langues romanes, germaniques et slaves, telles que collectées et publiées par l'Ethnologue[2].

Lang.
code
Langue 1
Coefficients de similarité lexicale
Catalan Anglais Français Allemand Italien Portugais Roumain Romanche Russe Sarde Espagnol
cat Catalan 1 - 0,85 - 0,87 0,85 0,73 0,76 - 0,75 0,85
eng Anglais - 1 0,27 0,60 - - - - 0,24 - -
fra Français 0,85 0,27 1 0,29 0,89 0,75 0,75 0,78 - 0,80 0,75
deu Allemand - 0,60 0,29 1 - - - - - - -
ita Italien 0,87 - 0,89 - 1 - 0,77 0,78 - 0,85 0,82
por Portugais 0,85 - 0,75 - - 1 0,72 0,74 - - 0,89
ron Roumain 0,73 - 0,75 - 0,77 0,72 1 0,72 - 0,83 0,71
roh Romanche 0,76 - 0,78 - 0,78 0,74 0,72 1 - 0,74 0,74
rus Russe - 0,24 - - - - - - 1 - -
srd Sarde 0,75 - 0,80 - 0,85 - 0,83 0,74 - 1 0,76
spa Espagnol 0,85 - 0,75 - 0,82 0,89 0,71 0,74 - 0,76 1
Catalan Anglais Français Allemand Italien Portugais Roumain Romanche Russe Sarde Espagnol
Langue 2 → cat eng fra deu ita por ron roh rus srd spa

Notes :

  • Les codes langue sont ceux de la norme ISO 639-3
  • L'Ethnologue ne précise pas avec quelle variante de la langue sarde la similarité lexicale a été calculée
  • "-" indique que les données de comparaison ne sont pas disponibles

Notes et références[modifier | modifier le code]

  1. Définition sur www.ethnologue.com
  2. Voir par exemple les données de similarité lexicale pour le Français, l'allemand, l'Anglais