Lexique-grammaire

Un article de Wikipédia, l'encyclopédie libre.

Le lexique-grammaire est à la fois une méthode et une pratique effective de description formelle des langues[1], qui considère l'étude systématique des entrées lexicales comme le principal défi actuel de l'étude scientifique des langues[2],[3],[4]. Le lexique-grammaire a été développé par Maurice Gross à partir de la fin des années 1960[5], la méthode et la pratique se nourrissant mutuellement.

La base théorique sur laquelle se fonde le lexique-grammaire est le distributionnalisme de Zellig S. Harris[6],[7], et notamment la notion de transformation. Les conventions de notation pour la présentation des informations grammaticales se veulent aussi simples et aussi transparentes que possible.

La méthode du lexique-grammaire est inspirée des sciences expérimentales[8]. Elle met l'accent sur la collecte des faits, donc sur la confrontation avec la réalité des usages linguistiques, du point de vue quantitatif (description systématique du lexique) et qualitatif (précautions méthodologiques).

Le lexique-grammaire pose également une exigence de formalisation. Les résultats de la description doivent être suffisamment formels pour permettre une application au traitement automatique des langues, notamment à travers la réalisation d'analyseurs syntaxiques[9],[10]. Le modèle formel est tel que les résultats de la description prennent la forme de tableaux à double entrée, appelés tables ou matrices, qui croisent des entrées lexicales avec les propriétés syntaxico-sémantiques[11]. Les résultats obtenus sont une base d’informations syntaxico-sémantiques.

Les expériences ont montré que plusieurs individus ou équipes peuvent parvenir à une cumulativité de leurs descriptions.

Le terme lexique-grammaire est utilisé pour la première fois par Annibale Elia[12].

Base théorique[modifier | modifier le code]

La base théorique sur laquelle se fonde le lexique-grammaire est le distributionnalisme de Zellig Harris[6],[7], et notamment la notion de transformation au sens de Zellig Harris. Maurice Gross fut un étudiant de Zellig Harris. Les conventions de notation pour la présentation des informations grammaticales se veulent aussi simples et aussi transparentes que possible. Ce souci vient de Zellig Harris, dont la théorie est orientée vers la surface directement observable ; c'est aussi une différence avec la grammaire générative, qui recourt normalement à des structures abstraites telles que les structures profondes.

Collecte des faits[modifier | modifier le code]

La méthode du lexique-grammaire est inspirée des sciences expérimentales[8]. Elle met l'accent sur la collecte des faits, donc sur la confrontation avec la réalité des usages linguistiques[13], du point de vue quantitatif et qualitatif.

Quantitativement : le lexique-grammaire inclut un programme de description systématique du lexique, y compris observer pour chaque entrée lexicale dans quelles constructions syntaxiques elle apparaît[14]. Il s'agit d'un travail à grande échelle, réalisable par des équipes et non par des spécialistes isolés. La recherche exclusive de règles de syntaxe générales, indépendantes du matériel lexical qu’elles manipulent, est dénoncée comme une impasse[15]. C'est une différence avec la grammaire générative, qui valorise la notion de généralisation.

Qualitativement : des précautions méthodologiques sont appliquées pour assurer une bonne reproductibilité des observations, et notamment pour se prémunir contre les risques liés aux exemples construits[16]. Une de ces précautions consiste à prendre comme unité minimale de sens la phrase élémentaire[17]. En effet, un mot n'acquiert un sens précis que dans un contexte ; de plus, en insérant un mot dans une phrase, on a l'avantage de manipuler une séquence susceptible d'être jugée comme acceptable ou inacceptable. C’est à ce prix que des propriétés syntaxico-sémantiques ont pu être considérées comme définies avec suffisamment de précision pour que cela eût un sens de les confronter à l’ensemble du lexique. Ces précautions ont évolué au fur et à mesure des besoins et de l’apparition de nouveaux moyens techniques. Ainsi, à partir du début des années 1990, les contributeurs du lexique-grammaire ont pu recourir de plus en plus facilement à la prise en compte d’exemples attestés dans des corpus[18]. Cette nouvelle précaution s’est simplement ajoutée aux précédentes, faisant du lexique-grammaire une méthode qui relève à la fois de la linguistique introspective et de la linguistique de corpus[19], un peu comme le préconisait Fillmore[20]. Les projets américains FrameNet[21] et VerbNet[22] témoignent d’ailleurs d’une relative convergence vers des objectifs proches de ceux du lexique-grammaire.

Formalisation[modifier | modifier le code]

Le lexique-grammaire pose également une exigence de formalisation. Les résultats de la description doivent être suffisamment formels pour permettre :

- une vérification par confrontation à la réalité de l’usage,

- une application au traitement automatique des langues, et plus particulièrement au traitement linguistique profond (en), notamment à travers la réalisation d'analyseurs syntaxiques par des informaticiens[9],[10].

Cette contrainte de formalisation se manifeste par l’adoption d’un modèle discrétisé de la syntaxe et de la sémantique. Ainsi, l’acceptabilité est modélisée par une propriété binaire : pour les besoins de la description, une phrase est considérée soit comme acceptable, soit comme inacceptable, comme en grammaire générative et pour les mêmes raisons.

De même, l’ambiguïté lexicale est représentée en séparant soigneusement un mot en un nombre entier d’entrées lexicales, qui sont distinctes les unes des autres au même titre que deux entrées de mots morphologiquement différents (par exemple, les différents sens de manquer correspondent à des entrées distinctes).

Les propriétés syntaxico-sémantiques des entrées (par exemple les structures de phrase dans lesquelles un verbe donné peut apparaître, ou la distribution du sujet) forment une liste systématiquement confrontée à toutes les entrées. Elles sont identifiées par des intitulés assez informels tels que , qui représente une transformation entre deux structures de phrases (ou constructions syntaxiques) relevant d'une même entrée lexicale.

La notion d'entrée lexicale n'est donc pas confondue avec celle de construction syntaxique. C'est pourquoi on évite le terme de "cadre de sous-catégorisation (en)", souvent utilisé dans le contexte de modèles qui tendent à considérer que les deux notions sont en bijection. Dans le cadre du lexique-grammaire, les décisions sur la classification ("sous-catégorisation") d'une entrée se fondent a priori sur l'ensemble des constructions syntaxiques qui relèvent de l'entrée, non sur une seule construction ("cadre").

Enfin, seules sont retenues les propriétés pour lesquelles on trouve une procédure permettant de déterminer de façon suffisamment fiable si une entrée donnée la possède ou non. Une telle procédure est déterminée expérimentalement en testant sur un vocabulaire étendu la reproductibilité des jugements. Les propriétés sont donc modélisées comme binaires et non comme des continuums.

Étant donné ce modèle formel, l'essentiel de la description d'une langue consiste à spécifier les propriétés des entrées. Les résultats de la description prennent donc naturellement la forme de tableaux à double entrée, appelés tables ou matrices, qui croisent des entrées lexicales avec les propriétés syntaxico-sémantiques[11].

La description de la structure des phrases met en jeu l'identification d'un ensemble d'arguments caractéristique de chaque entrée prédicative ; en particulier, on met en application des principes pour distinguer les arguments (sujets et objets ou compléments essentiels) des compléments non essentiels (adverbiaux ou compléments circonstanciels).

Résultats[modifier | modifier le code]

Les résultats obtenus par l’application de ces principes méthodologiques par quelques dizaines de linguistes pendant quelques dizaines d’années sont une base d’informations syntaxico-sémantiques pour le traitement des langues. On peut juger de la qualité de cette base d'informations en prenant en compte :

- son volume, évaluable par le nombre d'entrées,

- la richesse des phénomènes linguistiques qu’elle prend en compte, évaluable par le nombre de propriétés,

- et son degré de formalisation.

Pour le français, plus de 75 000 entrées ont été établies[23] ; des descriptions plus ou moins substantielles, toujours suivant le même modèle, existent pour une dizaine d’autres langues, les mieux représentées étant l’italien[24], le portugais[25], le grec moderne[26] et le coréen[27].

Des travaux ont été réalisés et publiés dans le cadre du lexique-grammaire sur les substantifs prédicatifs depuis les années 1970[28], et sur les expressions figées depuis les années 1980[29].

La notion de substantif prédicatif est issue des travaux de Zellig Harris[30]. Elle part de l'idée que si, par exemple, le verbe étudier est analysé comme le prédicat dans la phrase Luc étudie les éclipses, il est naturel d'analyser le substantif étude (ou la séquence faire une étude) comme prédicat dans la phrase Luc fait une étude sur les éclipses. Dans ce cas, le substantif en question est dit prédicatif. Le verbe qui l'accompagne, ici faire, est, lui, qualifié de verbe support (it). L'idée a été appliquée systématiquement dans le cadre du lexique-grammaire à partir des années 1970[28],[31],[32],[33].

Les contributeurs du lexique-grammaire parlent d'expression figée lorsqu'une expression (par exemple mot de passe) possède des propriétés spécifiques (ici, son sens) qui justifient qu'on lui consacre une entrée lexicale, bien qu'elle soit constituée de plusieurs éléments (mot, de et passe) qui, d'une façon ou d'une autre, peuvent être considérés comme des mots[29]. Un programme systématique de description de ces expressions a été entrepris dans le cadre du lexique-grammaire à partir des années 1980[34],[35],[36],[37].

Cumulativité[modifier | modifier le code]

Ces expériences ont montré que plusieurs individus ou équipes peuvent parvenir à des résultats identiques. Cette reproductibilité assure la cumulativité des descriptions. Ce résultat est crucial pour le futur du traitement des langues : la quantité de données qui doit être accumulée et représentée au sein d'un modèle cohérent est telle que de nombreuses équipes de recherche et développement doivent coopérer, et on doit pouvoir fusionner leurs résultats sans avoir à réécrire des parties substantielles de la grammaire et du lexique de chaque langue. Cette exigence est loin d'être facile à remplir, car on connaît peu d'exemples de grammaires d'une taille significative qui ne soient pas l'œuvre d'un unique spécialiste.

Interface avec les standards internationaux[modifier | modifier le code]

Avec le but d'améliorer la mise à disposition des données de manière lisible et explicite, le lexique-grammaire du français a été transcodé en un format ISO standard LMF. Ces travaux sont détaillés dans le chapitre: Conversion of Lexicon-Grammar Tables to LMF: application to French[38].

Notes et références[modifier | modifier le code]

  1. Ibrahim, Amr Helmy. 2003. Le cadre du lexique-grammaire. Linx 48:101-122.
  2. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 9:

    « Nous nous proposons de remplacer [l'approche qui] consiste essentiellement à effectuer des observations isolées dans des régions différentes de la structure linguistique. Ces observations ne sont jamais systématiques, et les « trous » qui les séparent ne sont pas explorés empiriquement. (...) Toute construction théorique a toujours été précédée d’un long travail d'accumulation systématique de données, et les chercheurs se sont toujours efforcés de combler les trous qui pouvaient se présenter dans leurs données avant d'avancer une règle générale. »

  3. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 45:

    « Nous pensons que seul l'examen systématique des données peut conduire à la découverte [des] principes généraux abstraits [d'une] théorie linguistique un tant soit peu générale]. »

  4. Annibale Elia, « Pour un lexique-grammaire de la langue italienne : les complétives objet », Lingvisticae Investigationes, vol. 2, no 2,‎ , p. 233-276 (ISSN 0378-4169, e-ISSN 1569-9927, DOI https://doi.org/10.1075/li). Document utilisé pour la rédaction de l’article

    « Nous croyons qu'avant de proposer des interprétations ou des "explications", il faut passer par un travail aussi complet que possible d'énumération et d'observation du lexique d'une langue. »

  5. Gross, Maurice. 1968. Grammaire transformationnelle du français. Vol. 1, Syntaxe du verbe. Paris : Larousse (réédité sous le même titre, Paris: Cantilène, 1986).
  6. a et b (en) Harris, Zellig. 1964. "Transformations in Linguistic Structure", Proceedings of the American Philosophical Society (en) 108:5, p. 418-122.
  7. a et b Harris, Zellig, Notes du cours de syntaxe, Paris, Seuil,
  8. a et b Lamiroy, Béatrice. 2003. "In memoriam Maurice Gross", Travaux de linguistique 46:1, pp. 145-158.
  9. a et b Michel Delamar, Maurice Gross, http://www.univ-paris-diderot.fr/2001/pres011212.htm
  10. a et b (en) Roche, Emmanuel, 1997, "Parsing with Finite-State Transducers", in Finite-State Language Processing, Cambridge, Mass./ London, MIT Press.
  11. a et b Gross, Maurice. 1975. Méthodes en syntaxe. Le régime des constructions complétives. Paris : Hermann.
  12. Annibale Elia, « Pour un lexique-grammaire de la langue italienne : les complétives objet », Lingvisticae Investigationes, vol. 2, no 2,‎ , p. 233-276 (ISSN 0378-4169, e-ISSN 1569-9927, DOI https://doi.org/10.1075/li). Document utilisé pour la rédaction de l’article

    « Nous avons entrepris un projet de lexique-grammaire de la langue italienne. »

  13. (en) Eric Laporte, « The Science of Linguistics », Inference. International Review of Science, vol. 1, no 2,‎ (lire en ligne)
  14. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 225:

    « Nous pensons qu'il est normal qu’une propriété syntaxique ait une distribution non triviale sur le lexique »

  15. (en) Gross, Maurice. 1979. On the failure of generative grammar. Language 55:4, pp. 859-885.
  16. (en) Gross, Maurice, A linguistic environment for comparative Romance syntax, Papers from the XIIth Linguistic Symposium on Romance Languages, 1984, pp. 373-446, Amsterdam/Philadelphia: John Benjamins.
  17. (en) Gross, Maurice. 1988. Methods and Tactics in the Construction of a Lexicon-Grammar. In Linguistics in the Morning Calm 2, Selected Papers from SICOL 1986, pp. 177-197, Séoul : Hanshin Pub. Co.
  18. Notamment grâce au logiciel Intex développé par Max Silberztein.
  19. Laporte, Éric. 2008. Exemples attestés et exemples construits dans la pratique du lexique-grammaire. Observations et manipulations en linguistique: entre concurrence et complémentarité, sous la direction de Jacques François. Louvain/Paris/Dudley : Peeters. Mémoires de la Société de linguistique de Paris. Nouvelle Série. Vol. 16, pp. 11–32.
  20. (en) Fillmore, Charles. 1992. "'Corpus linguistics' vs. 'Computer-aided armchair linguistics'". Directions in Corpus Linguistics, Mouton de Gruyter, pp. 35-60. (Proceedings from a 1992 Nobel Symposium on Corpus Linguistics, Stockholm.)
  21. (en) Baker, Collin F., Charles J. Fillmore, Beau Cronin. 2003. "The Structure of the Framenet Database", International Journal of Lexicography 16.3, pp. 281-296.
  22. (en) Kipper-Schuler, Karin, Anna Korhonen, Neville Ryant, Martha Palmer. 2006. "Extending VerbNet with Novel Verb Classes". Proceedings of the International Conference on Language Resources and Evaluation (LREC), Genoa.
  23. Gross, Maurice. 2006. État du lexique-grammaire du français et perspectives d'extension. History of the Language Sciences, tome 3, Sylvain Auroux et al. (eds.), Berlin-New York: Walter de Gruyter, pp. 2122-2129.
  24. (en) D'Agostino, Emilio, Annibale Elia, & Simonetta Vietri. 2004. "Lexicon-Grammar, Electronic Dictionaries and Local Grammars of Italian", Lexique, syntaxe et lexique-grammaire. Papers in honour of Maurice Gross, Coll. Lingvisticae Investigationes Supplementa, 24, Amsterdam/Philadelphia : Benjamins, pp. 125–136.
  25. (en) Ranchhod, Elisabete; P. Carvalho; C. Mota; A. Barreiro, "Portuguese Large-scale Language Resources for NLP Applications". In Proceedings of the 4th LREC, pp. 1755-1758, Lisbon.
  26. Kyriacopoulou, Tita. 2004. Analyse automatique des textes écrits : le cas du grec moderne. Thessaloniki : University Press.
  27. Nam, Jee-sun, « Lexique-grammaire des adjectifs coréens et analyse syntaxique automatique », Langages, vol. 126,‎ , p. 105-123 (ISSN 0458-726X, e-ISSN 1958-9549, DOI 10.3406/lgge.1997.1779, lire en ligne, consulté le )
  28. a et b Labelle, Jacques. 1974. "Le substantif symétrique". Cahier de linguistique 5, pp. 17-49, Montréal: UQAM.
  29. a et b Gross, Maurice. 1982. Une classification des phrases "figées" du français. Revue québécoise de linguistique 11.2, pp. 151-185, Montréal: UQAM.
  30. (en) Harris, Zellig, 1964. "The Elementary transformations", Transformations and Discourse Analysis Papers, 54, Philadelphie, Université de Pennsylvanie (republié dans Papers in Structural and Transformational Linguistics, 1970, Dordrecht:Reidel).
  31. Giry-Schneider, Jacqueline. 1978. Les nominalisations en français. L'opérateur faire dans le lexique. Genève: Droz.
  32. Giry-Schneider, Jacqueline. 1987. Les prédicats nominaux en français. Les phrases simples à verbe support. Genève: Droz.
  33. Gross, Gaston. 1989. Les constructions converses du français, Genève : Droz.
  34. Laurence Danlos, « La morphosyntaxe des expressions figées », Langages, vol. 63,‎ , p. 53-74 (ISSN 0458-726X, e-ISSN 1958-9549, DOI 10.3406/lgge.1981.1876, lire en ligne, consulté le ).
  35. (en) Gross, Maurice. 1986. "Lexicon-Grammar. The Representation of Compound Words". In COLING-1986 Proceedings, Bonn, pp. 1-6. pdf
  36. (pt) Ranchhod, Elisabete. 1990. Sintaxe dos Predicados Nominais com Estar. Linguistica 1-2, Lisboa: Instituto Nacional de Investigaçao Cientifica.
  37. (en) Vietri, Simonetta. 2014. Idiomatic Constructions in Italian. A Lexicon-Grammar approach. Amsterdam: John Benjamins. 259 p. DOI: 10.1075/lis.31
  38. Eric Laporte, Elsa Tolone, Matthieu Constant: Conversion of Lexicon-Grammar Tables to LMF: application to French, in Gil Francopoulo (sous la direction de) LMF Lexical Markup Framework, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]