Stylométrie

Un article de Wikipédia, l'encyclopédie libre.

La stylométrie[note 1] est un domaine de la linguistique utilisant des outils statistiques pour décrire les propriétés stylistiques d'un texte. Elle est souvent utilisée pour identifier le style d'un auteur spécifique. La stylométrie peut être utilisée pour analyser des textes anciens, dont l'origine est incertaine. Elle peut également s'employer dans le domaine judiciaire.

Histoire[modifier | modifier le code]

La stylométrie a traversé les époques et les siècles. Peut-être inspirée par Pythagore (« Tout est nombre »), elle a véritablement débuté avec le logicien anglais Auguste de Morgan, avant de se développer grâce à l'informatique moderne[2]. La première utilisation du terme stylométrie serait due à Lutoslawski[3],[4].

La stylométrie prend sa forme moderne en avec Frederick Mosteller de l’université de Harvard et David Wallace, de l’université de Chicago qui publient un article fondateur dans le journal de l’American Statistical Association[5],[1].

La stylométrie s'est également développée en France depuis, notamment avec Jean-Paul Benzécri, Charles Bernet, Étienne Brunet, Charles Muller et Jean-Marie Viprey[1]. Elle est enseignée notamment à l'École des Chartes[1].

Méthodes[modifier | modifier le code]

La stylométrie suit une approche quantitative. Elle recense les unités "objectivées" d’un texte. Selon le point de vue linguistique, ces unités varient. Le vocabulaire porteur du sens est naturellement le plus étudié[6] ; cependant, il implique un lemmatiseur pour ramener les formes lexicales aux entrées du dictionnaire, et sa richesse limite malencontreusement le nombre des occurrences. Les catégories grammaticales ont aussi été examinées[7] ; elles apparaissent néanmoins plus stéréotypées, leurs emplois étant dictés par des règles ; en outre, elles réclament également un étiqueteur grammatical. Ponctuation, espacements et lettres véhiculent enfin un élément plus archaïque et inconscient du langage, fait de sons et d’émotions ; objectifs et profus, les caractères constituent une ressource non négligeable[8].

De ces unités, les statistiques textuelles retiennent traditionnellement les fréquences d’apparition : le texte est appréhendé comme un sac dont on pèse les billes, les yeux fermés sur l’agencement. Pour pallier cette lacune, une première méthode consiste à segmenter un texte en morceaux, puis à suivre les évolutions des fréquences ; mais le découpage est souvent délicat, a fortiori la comparaison de deux architectures différentes. Prolongeant la marche vers l’infiniment petit, l'enregistrement de chaque occurrence permet d'appréhender un rythme fondateur en matière d'art[9].

Usages[modifier | modifier le code]

Les Federalist Papers[modifier | modifier le code]

En , Frederick Mosteller David Wallace établissent qui, d'Alexander Hamilton et de James Madison, a précisément écrit les divers articles des Federalist Papers qui visaient à promouvoir la constitution américaine, et publiés conjointement sous le pseudonyme de « Publius ». La recherche sur les mots de contenu (par exemple : « guerre ») est un échec mais l'usage de mots outils (tel que « et », « alors », « sur ») est révélateur : Hamilton utilise souvent « upon » (sur), Madison presque jamais, Hamilton se sert beaucoup de « to », Madison de « by », etc.[5],[1].

Patrimoine bibliographique[modifier | modifier le code]

La stylométrie a été utilisée pour identifier des textes d'Homère et de Platon[3], des pièces de Corneille et Molière, des poèmes de Shakespeare, le manuscrit de Voynich.

Les deux chartistes, Florian Cafiero et Jean-Baptiste Camps, ont confirmé en 2019 la paternité des œuvres de Molière, dont le doute subsistait au profit de Corneille[10],[11],[12].

Petr Plecháč pu corroborer en 2020 que John Fletcher avait aidé Shakespeare à écrire Henri VIII[13],[14],[1].

Juridique[modifier | modifier le code]

Dans le cadre de l'Affaire Grégory, une expertise en stylométrie avait été commandée par la juge Claire Barbier à la société suisse OrphAnalytics en [15], cette expertise revient sur le devant de l'actualité en , car elle aurait permis d'incriminer un suspect dans les fameuses lettres de « corbeaux » et s'accompagnerait de nouvelles auditions par le juge Dominique Brault. Les avocats et leur partie sont divisés quant à l'emploi de cette technique[16].

Aux États-Unis, de telles analyses linguistiques se pratiquent dans les tribunaux, depuis le travail pionnier de Patrick Juola (en), soulignent les deux chartistes, Florian Cafiero et Jean-Baptiste Camps. Ils se positionnent en faveur de son usage dans les affaires judiciaires en France rappelant que la technique de la stylométrie n'est ni rare, ni étrangère, ni nouvelle, tout en admettant qu'elle n'est pas infaillible, et que les courts textes étudiés dans le cadre de l'affaire Grégory, ceux connus par les médias, se prêtent mal à l'analyse statistique en présence de nombreux suspects. Les résultats devront en être scrutés avec attention[1].

Bibliographie[modifier | modifier le code]

  • Paul Tannery, « La stylométrie ses origines et son présent », Revue Philosophique de la France et de l'Étranger, vol. 47,‎ , p. 159–169 (ISSN 0035-3833, lire en ligne, consulté le 28 décembre 2020)
  • Bernard Gicquel, Stylistique littéraire et informatique, Arras, Artois presses université, , 134 p. (ISBN 2-910663-31-0 et 978-2-910663-31-5, OCLC 41302243, lire en ligne)
  • Wincenty Lutosławski, Principes de stylométrie appliqués à la chronologie des oeuvres de Platon, E. Leroux,
  • Valérie Beaudouin, « Contribution de la métrique à la stylométrie », JADT 2004 : 7es Journées internationales d’Analyse statistique des Données Textuelles,‎ , p. 12 (lire en ligne)
  • Andrei V. Zenkov, « A Method of Text Attribution Based on the Statistics of Numerals », Journal of Quantitative Linguistics, vol. 25, no 3,‎ , p. 256–270 (ISSN 0929-6174, DOI 10.1080/09296174.2017.1371915, lire en ligne, consulté le 28 décembre 2020)
  • [Tribune] Florian Cafiero et Jean-Baptiste Camps, « L’irruption de la stylométrie dans l’affaire Grégory promet de sérieuses controverses », Le Monde.fr,‎ (lire en ligne, consulté le 28 décembre 2020)

Notes et références[modifier | modifier le code]

Notes[modifier | modifier le code]

  1. À ne pas confondre avec la stylographie, qui consiste à dessiner avec un stylo[1].

Références[modifier | modifier le code]

  1. a b c d e f et g Cafiero et Camps (2020).
  2. Holmes David, « "The Evolution of Stylometry in Humanities Scholarship" », Digital Scholarship in the Humanities, Oxford Journals,‎ (lire en ligne)
    (traduction française)
  3. a et b W. Lutoslawski, « Principes de stylométrie appliqués à la chronologie des œuvres de Platon », Revue des Études Grecques, vol. 11, no 41,‎ , p. 61–81 (ISSN 0035-2039, DOI 10.3406/reg.1898.5847, lire en ligne, consulté le 21 décembre 2020)
  4. Adam Pawłowski et Artur Pacewicz, « Wincenty Lutosławski (1863–1954) », Historiographia Linguistica, vol. 31, nos 2-3,‎ , p. 423–447 (ISSN 0302-5160 et 1569-9781, DOI 10.1075/hl.31.2.10paw, lire en ligne, consulté le 20 décembre 2020)
  5. a et b Frederick Mosteller et David L. Wallace, « Inference in an Authorship Problem », Journal of the American Statistical Association, vol. 58, no 302,‎ , p. 275–309 (ISSN 0162-1459, DOI 10.2307/2283270, lire en ligne, consulté le 28 décembre 2020)
  6. Brunet Etienne, Le vocabulaire français de 1789 à nos jours, Champion,
  7. Longrée Dominique, Luong Xuan, Mellet Sylvie, « Temps verbaux, axe syntagmatique, topologie textuelle : analyses d’un corpus lemmatisé », Lexicometrica,‎ (lire en ligne)
  8. Markov Andreï, « Un exemple de recherche statistique sur le texte d’Eugène Onéguine illustrant la liaison des épreuves en chaînes », Bulletin de l’Académie Impériale des Sciences, Saint-Pétersbourg,‎
  9. Vonfelt Stephan, La musique des lettres : Variations sur Yourcenar, Tournier et Le Clézio (thèse), Université de Toulouse, (lire en ligne)
  10. (en) Florian Cafiero et Jean-Baptiste Camps, « Why Molière most likely did write his plays », Science Advances, vol. 5, no 11,‎ , eaax5489 (ISSN 2375-2548, PMID 31807702, PMCID PMC6881153, DOI 10.1126/sciadv.aax5489, lire en ligne, consulté le 28 décembre 2020)
  11. Florian Cafiero et Jean-Baptiste Camps, « Molière est bien l'auteur de ses œuvres », Pour la science, no 507,‎ , p. 54-58
  12. Frédéric Lewino, « Définitivement, Corneille n'a pas écrit les pièces de Molière ! », sur Le Point, (consulté le 28 décembre 2020)
  13. (en) Petr Plecháč, « Relative contributions of Shakespeare and Fletcher in Henry VIII: An analysis based on most frequent words and most frequent rhythmic patterns », Digital Scholarship in the Humanities,‎ , fqaa032 (ISSN 2055-7671 et 2055-768X, DOI 10.1093/llc/fqaa032, lire en ligne, consulté le 28 décembre 2020)
  14. Adrienne Rey, « L'IA révèle ce que Shakespeare n'a pas écrit, et qui l'a fait à sa place », sur korii., (consulté le 28 décembre 2020)
  15. Le Progrès, « Affaire Grégory. La justice lance une expertise inédite en France », sur www.leprogres.fr, (consulté le 4 avril 2018).
  16. Jean-Michel Décugis, Vincent Gautronneau, Jérémie Pham-Lê, Geoffroy Tomasovitch, Timothée Boutry, « Affaire Grégory : nouvelles auditions, expertise incriminante... l'enquête est relancée », sur leparisien.fr, (consulté le 16 décembre 2020)

Voir aussi[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sur les autres projets Wikimedia :