Stylométrie

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
image illustrant les probabilités et la statistique image illustrant la linguistique
Cet article est une ébauche concernant les probabilités et la statistique et la linguistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

A la croisée de la linguistique et de la statistique, la stylométrie tente d'identifier le style d'un texte, inhérent à son auteur, mais aussi à son époque, son genre...

La stylométrie peut être utilisée pour analyser des textes anciens, dont l'origine est incertaine : textes d'Homère[1] et de Platon[2], pièces de Corneille et Molière[3], poèmes de Shakespeare, manuscrit de Voynich[4]... Mais elle peut également s'appliquer à des écrits plus modernes : emails, blogs,...

Histoire[modifier | modifier le code]

La stylométrie a traversé les époques et les siècles. Peut-être inspirée par Pythagore (« Tout est nombre »), elle a véritablement débuté avec le logicien Anglais Auguste de Morgan, avant de se développer grâce à l'informatique moderne[5].

Méthodes[modifier | modifier le code]

La stylométrie suit une approche matérialiste, qui fait sa force et sa faiblesse. Loin de sonder l’esprit de l’auteur ou la réception du lecteur, elle recense objectivement les unités d’un texte. 

Selon le point de vue linguistique, ces unités varient. Le vocabulaire porteur du sens est naturellement le plus étudié[6] ; cependant, il implique un lemmatiseur pour ramener les formes lexicales aux entrées du dictionnaire, et sa richesse limite malencontreusement le nombre des occurrences. Les catégories grammaticales ont aussi été examinées[7] ; elles apparaissent néanmoins plus stéréotypées, leurs emplois étant dictés par des règles ; en outre, elles réclament également un étiqueteur grammatical. Ponctuation, espacements et lettres véhiculent enfin un élément plus archaïque et inconscient du langage, fait de sons et d’émotions ; objectifs et profus, les caractères constituent une ressource non négligeable[8].

De ces unités, les statistiques textuelles retiennent traditionnellement les fréquences d’apparition : le texte est appréhendé comme un sac dont on pèse les billes, les yeux fermés sur l’agencement. Pour pallier cette lacune, une première méthode consiste à segmenter un texte en morceaux, puis à suivre les évolutions des fréquences ; mais le découpage est souvent délicat, a fortiori la comparaison de deux architectures différentes. Prolongeant la marche vers l’infiniment petit, l'enregistrement de chaque occurrence permet d'appréhender un rythme fondateur en matière d'art[9].

Bibliographie[modifier | modifier le code]

  • Tannery Paul, La stylométrie, ses origines et son présent, Revue Philosophique de la France et de l'Étranger, T. 47
  • Gicquel Bernard, Stylistique littéraire et informatique, Artois Presses Université, 1999.
  • Lebart Ludovic, "Sur les analyses statistiques de texte", Journal de la société statistique de Paris, Numdam, 1994
  • Lutoslawski Wincenty, Principes de stylométrie appliqués à la chronologie des œuvres de Platon, E. Leroux, 1898.
  • Beaudouin Valérie & Yvon François, "Contribution de la métrique à la stylométrie", Lexicometrica, 2004 [PDF]

Notes et références[modifier | modifier le code]

  1. Vonfelt Stephan, Archéologie numérique de la poésie grecque, Université de Toulouse, (lire en ligne)
  2. Lutoslawski Wincenty, Principes de stylométrie appliqués à la chronologie des œuvres de Platon, E. Leroux, 1898.
  3. Vonfelt Stephan, « Les quanta de transition ou le trouble d'Amphitryon », Graphoscopie,‎ (lire en ligne)
  4. Vonfelt Stephan, « Les résonances étranges du manuscrit de Voynich », Graphoscopie,‎ (lire en ligne)
  5. Holmes David, « "The Evolution of Stylometry in Humanities Scholarship" », Digital Scholarship in the Humanities, Oxford Journals,‎ (lire en ligne)
    (traduction française)
  6. Brunet Etienne, Le vocabulaire français de 1789 à nos jours, Champion,
  7. Longrée Dominique, Luong Xuan, Mellet Sylvie, « Temps verbaux, axe syntagmatique, topologie textuelle : analyses d’un corpus lemmatisé », Lexicometrica,‎ (lire en ligne)
  8. Markov Andreï, « Un exemple de recherche statistique sur le texte d’Eugène Onéguine illustrant la liaison des épreuves en chaînes », Bulletin de l’Académie Impériale des Sciences, Saint-Pétersbourg,‎
  9. Vonfelt Stephan, La musique des lettres - Variations sur Yourcenar, Tournier et Le Clézio (thèse), Université de Toulouse, (lire en ligne)

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sur les autres projets Wikimedia :