Lemme (linguistique)
En linguistique, différents termes permettent de désigner les unités autonomes constituant le lexique d'une langue : item lexical, lemme, lexie ou unité lexicale. On peut les définir comme une chaîne de signes formant une unité sémantique et pouvant constituer une entrée de dictionnaire. Les signes les constituant peuvent être réalisés par des caractères, des sons, des gestes.
Dans le vocabulaire courant, on parlera plus souvent de « mot », notion qui manque cependant de clarté. On construit des énoncés avec des lemmes ; les lemmes sont faits de morphèmes.
Comme tout signe linguistique, chaque lemme possède un signifiant (une « forme ») et un signifié (un sens) uniques. On distingue généralement dans le sens les aspects de dénotation et connotation.
Constitution des lemmes
Dans les langues indo-européennes (comme le français ou l'anglais), les lemmes sont constitués de phonèmes assemblés en morphèmes. Un lemme comme « anticonstitutionnellement », par exemple, s'analyse ainsi :
- il possède dix-neuf ou dix-huit phonèmes (selon que l'on prononce ou non le « e » caduc : [ɑ̃tikɔ̃stitysjɔnɛl(ə)mɑ̃]) ;
- il possède en diachronie un radical d'origine latine, « sta- » / « sti- » ;
- il est constitué en synchronie de six morphèmes :
préfixes | lexème | suffixes | |||
---|---|---|---|---|---|
anti- | con- | -stitu- | -tion | -nelle | -ment |
Dans d'autres types de langues comme les langues isolantes, le lemme se réduit à un lexème ou un assemblage de lemmes (mot composé), sans morphèmes, le plus souvent assez court. Ainsi, en mandarin, le lemme pour « cœur » est 心 xīn, celui pour « ami » 朋友 péngyou (lemme composé). Dans ce type de langues, la syntaxe est souvent plus rigide que dans les langues dont les lemmes sont formés de morphèmes : en effet, rien (ou presque) ne permet de distinguer les classes lexicales. Ainsi, le verbe pour « manger » se dit 吃飯 chīfàn quand il est employé sans complément d'objet (littéralement : « je mange de la nourriture ») mais 吃 chī quand le complément d'objet est exprimé :
- 我吃飯 wǒ chīfàn « je mange [de la nourriture] »
- 我吃肉 wǒ chī ròu « je mange [de la] viande ».
Forme des lemmes
Dans les langues indo-européennes
Un lemme peut être :
- simple : un seul mot → « tendre », « amour », « jamais » ;
- composé : un mot composé (mot formé de plusieurs mots) → « rouge-gorge », « [s']entre[-]tuer » ;
- complexe :
- un syntagme (groupe de mots placés dans un sens précis et s'organisant autour d'un terme central) →: « vert-de-gris », « petit-bourgeois », « grand-chose »,
- une expression complète → « je-ne-sais-quoi », « je-m'en-foutiste ».
Dans d'autres langues
En mandarin, par exemple, la notion de lemme apparaît différemment (on en a vu un exemple plus haut). On trouvera les explications voulues dans l'article Sinogramme.
Autonomie des lemmes
Chaque lemme possède une classe lexicale et un signifié indépendants de ses composants quand il n'est pas un mot simple (on parlera de « lemme complexe »). D'autre part, son autonomie se retrouve dans le fait qu'il n'a pas besoin d'être associé à un morphème ou à un autre lemme pour exister. Par exemple, « garou », dans « loup-garou » n'est pas un lemme. En effet, « garou » ne peut se dire seul. De même, « -ons », dans « marchons » n'est pas un lexème.
Il est souvent difficile de déterminer l'inventaire exact des formes relevant d'un lemme. Un exemple bien connu est celui des participes du français:
- Dans « Il est mort », on verra tantôt le passé composé du lemme « mourir » (construit à l'aide de l'auxiliaire « être » : « Il est mort en quelques instants »), tantôt le lemme « être » suivi du lemme « mort » (« Il est vraiment mort »).
- Les dernières éditions du Bescherelle[1] se distinguent des précédentes en signalant l'existence en français d'un gérondif constitué de « en » + participe présent ; suivant cette approche, « en mourant » (gérondif présent), « en étant mort » (gérondif passé) sont des formes du lemme « mourir ».
Mais il serait également loisible d'exclure les phénomènes d'auxiliation ou de collocation grammaticale du champ de l'analyse en lemmes. Suivant la décision prise, une opération automatique de réduction d'un texte aux lemmes qui le constituent (par exemple pour construire un index ou concordance) fera ou ne fera pas apparaître les occurrences de « être » ou de « en » dans les exemples donnés.
Sens du lemme composé ou complexe
Quand le lemme dépasse le mot simple, il est doté d'un signifiant indépendant de ses constituants : par exemple, le lemme « chou-fleur » doit être compris indépendamment de « chou » et « fleur ». Ce n'est pas un chou en fleur ni une fleur de chou mais un légume bien précis. De même, « rouge-gorge » ne se dit pas de tout ce qui a la gorge rouge : seule une espèce de passereau particulière est concernée.
Classe lexicale du lemme composé ou complexe
« Grippe-sou » a beau être composé d'abord d'un verbe, « gripper », puis de son régime, le nom « sou » : c'est un nom. De même, « je-m'en-foutiste » est une expression complète constituée de pronoms (« je », « me » et « en ») et d'une forme adjectivale dérivée du verbe « [s'en] foutre » : c'est un simple adjectif.
On voit bien qu'un lemme perd le mode de fonctionnement de ses constituants : « qu'en-dira-t-on » est une expression lexicalisée (devenue un lemme) fonctionnant comme un nom mais pas comme un syntagme : on ne peut pas dire « le qu'en-disais-tu ».
Lemmes et dictionnaires
Un dictionnaire classique recense les lemmes d'une langue mais non les formes de ce lemme. Quand cette langue est flexionnelle ou agglutinante, l'entrée du dictionnaire se fait au moyen d'une forme dite « canonique » :
- pour les noms : au singulier pour les langues sans déclinaison (français : « pommes » → « pomme »), au nominatif singulier pour le latin (« solitudinibus » → « solitudo ») ou le grec ancien (« φλεϐῶν » phlebỗn → « φλέψ » phléps), au nominatif ou sous la forme du thème morphologique en sanskrit (« aśvasya » → « aśva- », forme sans désinence), à la forme absolue en turc (« kaynağın » → « kaynak »), etc ;
- pour les verbes : à l'infinitif en français (« mourront » → « mourir ») ou turc (« okuyordum » → « okumak »), à la première personne du singulier du présent de l'indicatif en latin (« amabimus » → « amo ») et en grec (« ἐλελύκεσαν » elelúkesan → « λύω » lúô), etc.
Les règles de classement des lemmes dans le dictionnaire d'une langue doivent donc s'apprendre et nécessitent une connaissance de la grammaire de la langue, d'autant plus quand cette langue est flexionnelle, et quand le début du mot peut être modifié par la flexion (le classement alphabétique se faisant depuis le début du mot vers la fin). Les méthodes d'apprentissage des langues étrangères concernées ainsi que les grammaires expliquent souvent à un étudiant de cette langue comment chercher les mots dans le dictionnaire quand la recherche peut être complexe. De même, les dictionnaires recensent parfois les formes difficiles de certains lemmes en renvoyant vers le lemme canonique. Certains peuvent même décider d'inclure systématiquement toutes les formes ou presque (cf. le Wiktionnaire).
Voici quelques exemples.
- L'étudiant latiniste rencontrant la forme « poposcerunt » doit, en absolu, chercher à « posco » (« réclamer »), qui en est la forme canonique. Un dictionnaire de la langue latine comme le Gaffiot[2] recense cependant « poposci » en indiquant qu'il s'agit du parfait de « posco ». L'étudiant connaissant la grammaire de cette langue saura que « poposcerunt » est la troisième personne du parfait indicatif actif du verbe « posco ». Une personne qui, sans aucune connaissance du latin, chercherait cette forme, ne pourrait savoir que « poposci » et « poposcerunt » sont deux formes d'un même temps d'un même verbe et ne pourrait relier « poposcerunt » à « posco ». Pire, si le dictionnaire ne marque pas le renvoi de « poposci » à « posco », on ne peut établir aucun lien.
- Toujours en latin, la forme « milites » ne sera dans aucun dictionnaire, sous forme papier, reliée à sa forme canonique, « miles » (« soldat »). En effet, savoir qu'un mot terminé par « -ites » de ce type peut être dérivé d'un nom fini par « -es » et débutant par les mêmes lettres fait partie des compétences fondamentales du latiniste. Un profane n'aura aucune chance de déchiffrer même grossièrement un texte latin car chercher le sens des mots, indépendamment de la syntaxe, n'est pas toujours possible.
- En revanche, certains dictionnaires informatiques[3] peuvent permettre de retrouver le lemme. On y trouvera par exemple – pour un dictionnaire du latin –, la forme « milites » reliée à « miles », sa forme canonique, et la forme « latus » y renverra à la forme canonique « fero » et ses sens, mais aussi à « latus, -a, -um » et ses sens. C'est aussi le principe du Wiktionnaire (pour toutes les langues). De tels dictionnaires permettent alors de retrouver des lemmes homographiques.
- Le cas est très fréquent en grec. Cette langue utilisant un augment et le redoublement – cfr. l'article « Conjugaisons du grec ancien » –, l'initiale des verbes est souvent très altérée. Même si les dictionnaires de grec usuels fournissent des pistes de recherches, il faut déjà connaître la grammaire de la langue pour savoir que la forme « ᾤμωξα » ốimôksa dépend du lemme « οἰμώζω » oimốzô (« se lamenter »). Même si le squelette des deux formes est identique, les seules lettres en commun forment la syllabe « μω » au centre du mot.
- Dans les langues celtes, le phénomène des mutations consonantiques initiales est notable. En gallois, par exemple, il faut chercher « garreg », « charreg » ou « ngharreg » à « carreg » (« pierre »). Toutes ces formes résultent en effet des mutations consonantiques qu'entraînent des mots-outils comme les déterminants.
Lexicalisation
Quand un mot simple, mot composé, etc., entre dans le lexique d'une langue, on parle de lexicalisation : on dira que « je-ne-sais-quoi » est lexicalisé, par opposition à je ne comprends rien. « Je-ne-sais-quoi », en effet, est doté d'une classe lexicale unique – ici, le nom, qu'on peut faire précéder d'un article – et renvoie à un signifié précis. On ne peut en changer le signifiant.
Terminologie
Les notions de « lemme » et de « lexème » sont employées de manière très variable selon les linguistes et leur école de pensée. Pour certains, ce qu'on nomme ici « lemme » est un « lexème » et le mot « lemme » n'est pas employé. Dans cette encyclopédie, même si ce choix est contestable, on utilisera « lexème » et « lemme » de cette manière :
- le « lemme » est l'unité autonome du lexique ;
- le « lexème » est le constituant lexical, autonome ou non, d'un lemme.
Notes et références
- Resp. M. Arrivé, éd. Hatier
- Dictionnaire latin français abrégé de Félix Gaffiot, coll. « Livre de poche », par exemple
- Par exemple le Dictionnaire latin Contart