Collection Pangloss

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

La Collection Pangloss est une bibliothèque numérique développée par le laboratoire LACITO du CNRS à Paris. Son objectif est de rassembler des enregistrements sonores en diverses langues du monde — la plupart menacées d'extinction – et de les rendre accessibles à un large public[1].

La collection offre un libre accès en ligne à des documents de divers types (contes et légendes, récits de vie, témoignages d'artisans, enquêtes lexicales ou phonologiques…) dans des langues de tous les continents[2]. Elle accueille également des dictionnaires.

En février 2018, la Collection Pangloss contenait 3559 enregistrements[3] dans 170 langues[4].

Principes[modifier | modifier le code]

2017-fr.wp-orange-source.svg
Cette section ne cite pas suffisamment ses sources (août 2017)
Pour l'améliorer, ajoutez des références vérifiables [comment faire ?] ou le modèle {{Référence nécessaire}} sur les passages nécessitant une source.

Une archive sonore avec transcriptions synchronisées[modifier | modifier le code]

Du point de vue de la science linguistique, la langue est d'abord et avant tout orale, et son mode de transmission principal est le son. La Collection Pangloss donne accès à des enregistrements originaux auxquels sont associées transcriptions (phonétique, phonologique, et/ou orthographique, selon les cas) et traductions[5]. Ces documents constituent des ressources pour la recherche, mais aussi pour diverses autres finalités dont l'enseignement, la découverte des cultures concernées… Chaque document est enregistré dans son contexte culturel, et transcrit en collaboration avec des locuteurs natifs, selon les méthodes classiques d'enquête et description de langues à tradition orale[6].

Dictionnaires[modifier | modifier le code]

Outre les enregistrements sonores, la Collection Pangloss héberge également des dictionnaires depuis 2002[7]. En 2017, la collection de dictionnaires de la Collection Pangloss a adopté le nom « Lexica »[8].

Architecture de l'archive ouverte[modifier | modifier le code]

Les données archivées sont structurées selon les normes en vigueur, dans un format ouvert, et peuvent être téléchargées sous licence CreativeCommons. Le logiciel utilisé pour préparer et diffuser les ressources est en libre accès (code open-source). La Collection Pangloss est un membre du réseau OLAC d'archives linguistiques.

La Collection Pangloss est définie comme une des collections de CoCoON (pour « COllections de COrpus Oraux Numériques »), plate-forme technique qui accompagne les producteurs de ressources orales dans la création, la structuration et l'archivage de leurs corpus.[9] Les données sont archivées dans l'archive de la Très Grande Infrastructure de Recherche Huma-Num.

Historique[modifier | modifier le code]

En 2001, la Collection Pangloss (à l'époque "Programme Archivage du LACITO") comptait une centaine de documents dans une vingtaine de langues[5].

En 2011, la Collection Pangloss comptait environ 1000 enregistrements en 67 langues, dont 350 documents transcrits et annotés[10].

En 2014, la Collection Pangloss comptait 1400 enregistrements, dont environ 400 documents transcrits et annotés[2].

En octobre 2016, la Collection Pangloss comptait 132 langues.[11]

En février 2018, la Collection Pangloss atteignait 3559 enregistrements[3] en 170 langues[4].

Liens externes[modifier | modifier le code]

Références[modifier | modifier le code]

  1. Présentation de la Collection Pangloss (site du LACITO).
  2. a et b Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135. http://hdl.handle.net/10125/4621
  3. a et b Voir la liste de toutes les ressources Pangloss sur le site de l'hébergeur “CoCoON” (accès 25 février 2018).
  4. a et b Nombre des entrées dans la liste des langues représentées sur Pangloss (accès 25 février 2018).
  5. a et b (en) Michel Jacobson, Boyd Michailovsky et John B. Lowe, « Linguistic documents synchronizing sound and text », Speech Communication, vol. 33, nos 1-2,‎ , p. 79–96 (DOI 10.1016/s0167-6393(00)00070-4, lire en ligne)
  6. Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d’études linguistiques et anthropologiques de France.
  7. Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  8. Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  9. « Collections de Corpus Oraux Numériques » (consulté le 11 septembre 2017)
  10. Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  11. « Collection Pangloss - FAQ » (consulté le 10 novembre 2016)