Hyperbase

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Hyperbase est un logiciel universitaire téléchargeable d'exploration documentaire et statistique des textes. Il est diffusé par le CNRS et l'Université Nice Sophia Antipolis et est conçu et développé par Étienne Brunet, assisté de Laurent Vanni, au sein de l'UMR Bases, Corpus, Langage[1]. Entre sa naissance en 1989 et sa dernière version 10 en 2016, Hyperbase a implémenté continuement le savoir-faire lexicométrique français en matière de statistique textuelle et d'exploration documentaire des grands corpus. Le logiciel est principalement utilisé pour les thèses et ouvrages de linguistique[2], littérature [3], histoire [4], sociologie ou sciences politiques [5].


Historique[modifier | modifier le code]

La première version du logiciel Hyperbase date de 1989. Après vingt ans d’expériences en divers langages sur gros systèmes, Étienne Brunet se tourne vers les microordinateurs et crée à l’occasion du Bicentenaire de la Révolution française, au Centre Georges-Pompidou, un logiciel micro-installable d'analyse des textes. D'abord développé sous Mac avec Hypercard, Hyperbase s'épanouit à partir de la fin des années 1990 sous Windows. Dans les années 2000, Hyperbase s'articule aux lemmatiseurs/étiqueteurs TreeTagger ou Cordial et dépasse ainsi le seul traitement statistique des mots graphiques par le traitement combiné des formes, des lemmes, des codes grammaticaux ou des enchainements syntaxiques. En 2010, Hyperbase traite à côté du français et du latin, des grandes langues européennes (anglais, espagnol, allemand, italien, portugais). En 2016, Hyperbase est développé, d'une part, sous une version 10.0 desktop qui offre plusieurs nouvelles fonctionnalités dont un traitement approfondi des cooccurrences, la comparaison des données avec GoogleBooks (70 milliards de mots) et une meilleure articulation avec des logiciels partenaires comme Iramuteq ou Gephi et, d'autre part, sous une version Web allégée [6].

Hyperbase (analyse arborée)

Fonctionnalités[modifier | modifier le code]

Hyperbase combine deux types de fonctions, documentaires et statistiques, qui permettent à l'analyste de décrire, caractériser, classer et interpréter les textes.

  • Fonctions documentaires
    • Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus
    • Navigation hypertextuelle dans le corpus par mots-clefs
    • Recherche et tri des contextes et des concordances d'une unité
    • Index et dictionnaires des formes, des lemmes, des codes et des fréquences
  • Fonctions statistiques
Hyperbase (graphe de distribution)
    • Calcul des spécificités et graphes de distribution des unités linguistiques du corpus
    • Indices de richesse lexicale et d'accroissement du vocabulaire
    • Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes dans la lignée des travaux de Jean-Paul Benzécri
    • Calcul de distances entre textes, classification et représentation arborées
    • Extraction des phrases typiques et des segments répétés
    • Calcul et représentations des cooccurrences et réseaux thématiques
    • Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus

Utilisation[modifier | modifier le code]

Hyperbase est utilisé dans plusieurs disciplines des Sciences humaines et sociales soucieuses de décrire et interpréter des textes (œuvres littéraires, archives historiques, discours politiques, questionnaires et entretiens sociologiques). Hyperbase permet d'établir des chronologies endogènes dans des corpus socio-historiques, de faire des typologies d'auteurs dans des corpus littéraires ou de caractériser les genres dans des corpus linguistiques. Le logiciel est particulièrement utilisé pour déceler les thématiques ou isotopies des discours, notamment grâce au calcul des univers lexicaux d'un mot-pole ou le traitement généralisé des cooccurrences.

Hyperbase (graphe cooccurrences)

Le logiciel se présente comme une outil heuristique qui permet grâce à l'articulation du quantitatif (statistique textuelle) et du qualitatif (retour assisté et systématique au texte) de nourrir et contrôler l'acte interprétatif au fondement des Humanités.

Configuré de manière ad hoc, il permet l'analyse en ligne de certains corpus comme "L'observatoire du discours présidentiel français (1958-2014)"[7], la base Balzac (recherche hypertextuelle dans la Comédie humaine)[8], Rabelais[9] ou la cinquantaine des plus grands auteurs de la littérature française (du Bellay, Racine, Hugo, Sand, Rimbaud, Aragon, Le Clézio, etc.)[10]

Voir aussi[modifier | modifier le code]

  • Alceste (M. Reinert, Image, Toulouse)

Bibliographie[modifier | modifier le code]

Où sont recensés quelques travaux universitaires qui appuient leurs analyses sur le logiciel Hyperbase ou expliquent son fonctionnement et son bien-fondé scientifique.

Ouvrages[modifier | modifier le code]

  • Cécile Alduy et Stéphane Wahnich, Marine Le Pen prise aux mots. Décryptage du nouveau discours frontiste, Paris, Sciences Humaines, 304 p. (ISBN 2021172104 et 978-2021172102)
  • Étienne Brunet
    • Comptes d’auteurs. Tome 1. Études statistiques de Rabelais à Gracq, textes édités par Damon Mayaffre, préface d’Henri Béhar, Paris, Champion, 2009, 396 p. (ISBN 274532019X et 978-2745320193).
    • Ce qui compte. Tome 2. Méthodes statistiques, textes édités par Céline Poudat, préface de Ludovic Lebart, Paris, Champion, 2011, 376 p. (ISBN 2745322257 et 978-2745322258).
    • Au bout du compte. Tome 3. Questions linguistiques, textes édités par Bénédicte Pincemin, préface de François Rastier, Paris, Champion, 2016.
  • Margareta Kastberg-Sjoblom, L'écriture de J.M.G. Le Clézio, Des mots aux thèmes, Paris, Champion, 2006, 304 p. (ISBN 2745314122 et 978-2745314123)
  • Véronique Magri-Mourgues, Voyage à pas comptés.Pour une poétique du récit de voyage au XIXe siècle, Paris, Champion, 2009, 328 p. (ISBN 2745319418 et 9782745319418)
  • Pascal Marchand, Le grand oral. Les discours de politique générale de la Ve République, Bruxelles, De Boeck, 2007, 215 p. (ISBN 2804153371 et 9782804153373)
  • Damon Mayaffre
    • Le discours présidentiel sous la Vème République. Chirac, Mitterrand, Giscard, Pompidou, de Gaulle, Paris, Presses de Sciences Po, 2012, 384 p. (ISBN 2724612442)
    • Mesure et démesure du discours. Nicolas Sarkozy (2007-2012), Paris, Presses de Sciences Po, 2012, 358 p. (ISBN 978-2-7246-1243-1)
  • Sylvie Mellet and Dominique Longrée (Editor), New Approaches in Text Linguistics, Amsterdam, John Benjamins Pub Co, 2009, 206 p. (ISBN 9027226830 et 9789027226839)

Thèses et travaux universitaires[modifier | modifier le code]

  • Attika Yasmine Abbès, Etude lexicologique, stylistique et pragmatique de l'œuvre de Mouloud Mammeri (dir. E. Brunet, 2000, Nice)
  • Marion Bendinelli, Étude des auxiliaires modaux et des semi-modaux dans les débats présidentiels américains (1960-2008) : analyse qualitative et quantitative. Relations d’influence et enjeux de pouvoir (dir. S. Mellet, 2012, Nice)
  • Julien Bonneau, Modulations mathématiques et descriptives pour l’émergence de parcours interprétatifs dans des corpus textuels. Application au corpus Mendès France (1922-1982) (dir. D. Mayaffre, 2012, Nice)
  • Yann Bouvier, Récits de voyage et représentation de l'espace. La Méditerranée de Jérôme Maurand, un espace vécu (dir. P.-Y. Beaurepaire, 2007, Nice) (Chapitre III : "La lecture Logométrique et les outils d'Hyperbase", pp. 72-85)[1]
  • Magali Guaresi, Parler au féminin. Les professions de foi des député-e-s sous la Cinquième République (1958-2007) (dir. D. Mayaffre et co-dir. J.-P. Pellegrinetti, 2015, Nice)
  • Aude Hendrick, Des mots de circonstance. Le discours de rentrée de la haute magistrature belge au XIXème siècle (Promoteur Jean-Pierre Nandrin et co-promoteur Xavier Rousseau, 2012, Bruxelles)
  • Hakim Hessas, L’Europe dans la revue Europe. Analyse sémantique et statistique de corpus, (dir. F. Rastier, 2010, Paris)
  • Véronique Magri-Mourgues, Le Discours sur l’Autre à travers quatre récits de voyage en Orient (Voyage en Orient de Lamartine, Le Nil, Égypte et Nubie de Maxime Du Camp, Un Été dans le Sahara et Voyage en Égypte de Fromentin) (dir. E. Brunet, 1993, Nice)
  • Damon Mayaffre, Le discours politique dans les années 1930. Analyse du vocabulaire de Maurice Thorez, Léon Blum, Pierre-Etienne Flandin et André Tardieu (1928-1939) (dir. R. Schor, 1998, Nice)
  • Caroline Philippart, Hagiographie et statistique linguistique (dir. S. Mellet, 2008, Nice)
  • José Parada-Ramirez, Lecture documentée et analyse textométrique de l'œuvre de Jules Verne : les influences de la Franc-Maçonnerie dans son œuvre (dir. V. Magri-Mourgues, 2013, Nice)
  • Yumiko Tahata, "Qu'est-ce qu'un Français". La construction et les effets de la "francité" dans la société française contemporaine (dir. J. Streiff-Fenart et M. Sekine, Nice et Keio)

Articles[modifier | modifier le code]

  • Raymond Blanchard, Joceline Chabot, Sylvia Kasparian, "Sous la loupe d’Hyperbase : les combattants russes dans l’œil de la presse illustrée française de 1914 à 1919", JADT 2012.
  • Étienne Brunet (2012). « Nouveau traitement des cooccurrences dans Hyperbase », Corpus, 11, pp. 219-248.
  • Benoît Corvez et Anne-Sophie Lechevallier, "La verbalisation de 68 dans la doxa intellectuelle" in A. Callu (dir.),Le mai 68 des historiens. Entre identités narratives et histoire orale, Villeneuve d'Ascq : Presses universitaires du Septentrion, 2010, pp. 37-52.
  • Carine Duteil-Mougel, "Les mécanismes persuasifs des textes politiques. Propositions théoriques pour l’analyse de corpus", Corpus, 4, 2005.
  • Baptiste Foulquié, "De l'utilité de la sémantique textuelle comme médium entre corpus et analyse, Texto, 2006.
  • Jean-Philippe Genet, "Panorama critique de l’utilisation d’internet par les médiévistes en France", [Edito a stampa in Medioevo in retetra ricerca edidattica, acuradi Roberto Greci, Bologna 2002, pp. 23-34].
  • Véronique Magri-Mourgues, "Analyse textométrique et interprétation. Hyperbase, Rousseau et les Lumières", Travaux neuchâtelois de linguistique (TRANEL), n°5. La linguistique de corpus – de l’analyse quantitative à l’interprétation qualitative / Korpuslinguistik – von der quantitativen Analyse zur qualitativen Interpretation, Daniel Elmiger & Alain Kamber (éds), p. 77-93.
  • Damon Mayaffre, "Plaidoyer en faveur de l’Analyse de Données co(n)Textuelles Parcours cooccurrentiels dans le discours présidentiel français (1958-2014)", JADT 2014, Proceedings of the 12th International Conference on Textual Data Statistical Analysis, édité par E. Néé, M. Valette, J.-M. Daube et S. Fleury, Paris, Inalco-Sorbonne nouvelle, 2014, pp. 15-32.
  • Jean-Michel Rampon, "Professions de foi et élection présidentielle de 2002. Une approche verbale de la distance entre candidats", Mots. Les langages du politique [En ligne], n°81, 2006, mis en ligne le 1er juillet 2008, consulté le 26 janvier 2015.
  • Laurent Vanni et Adiel Mittmann, "Cooccurrences spécifiques et représentations graphiques, le nouveau "thèmes" d'Hyperbase", JADT2016 - Statistical Analysis of Textual Data, Nice, Presses Fac Imprimeur, 2016, vol. 1, pp. 295-306.

Notes et références[modifier | modifier le code]

  1. http://www.unice.fr/bcl/
  2. Cf. bibliographie. Par exemple : Marion Bendinelli, Étude des auxiliaires modaux et des semi-modaux dans les débats présidentiels américains (1960-2008) : analyse qualitative et quantitative. Relations d’influence et enjeux de pouvoir (dir. S. Mellet, 2012, Nice)
  3. Cf. bibliographie. Par exemple : Véronique Magri-Mourgues, Le Voyage à pas comptés. Pour une poétique du récit de voyage au XIXe siècle, Champion, 2009
  4. Cf. bibliographie. Par exemple : Magali Guaresi, Parler au féminin. Les professions de foi des député-e-s sous la Cinquième République (1958-2007) (dir. D. Mayaffre et co-dir. J.-P. Pellegrinetti, 2015, Nice)
  5. Cf. bibliographie. Par exemple : Damon Mayaffre, Mesure et démesure du discours. Nicolas Sarkozy 2007-2012, Presses de SciencesPo, 2012
  6. http://hyperbase.unice.fr//
  7. http://mesure-du-discours.unice.fr//
  8. http://ancilla.unice.fr/~brunet/BALZAC/balzac.htm
  9. http://ancilla.unice.fr/rabelais.html
  10. http://logometrie.unice.fr/pages/bases//