Fair data

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Les 4 principes du Fair data (en anglais)
L'interopérabilité vise à permettre de croiser des types et formats de données très divers ; c'est l'un des principes et critères du FAIR data

Dans le contexte de l'accessibilité de l'Internet, du Big data des données de la recherche et des sciences ouvertes (Open science) et plus largement du partage et l'ouverture des données, la notion de FAIR data (ou Fair data) recouvre les manières de construire, stocker, présenter ou publier des données de manière à permettre que la donnée soit « trouvable, accessible, interopérable et réutilisable ».

Le mot Fair fait aussi référence au Fair use, fair trade, fair play, etc., il évoque un comportement proactif et altruiste du producteur de données, qui cherche à les rendre plus facilement trouvables et utilisables par tous, tout en facilitant en aval le sourçage (éventuellement automatique) par l'utilisateur des données.

Principes et critères[modifier | modifier le code]

Le Fair data implique que les données publiées répondent aux principes détaillés ci-dessous [1] :

Données (re)trouvables[modifier | modifier le code]

Pour être Fair-data, les données doivent être faciles à (re)trouver par tous (via les moteurs de recherche en général, ce qui implique des arborescences de classement et des mots clé cohérents et une stratégie de préservation à long-terme de la donnée (archivage sécurisé, etc.)[1]. Pour cela les (méta)données doivent avoir un identificateur unique et persistant[1]. Elles doivent être décrites avec des « métadonnées riches » (voir plus bas) incluant notamment et explicitement l'identificateur des données qu'elles décrivent. Ces (méta)données doivent être enregistrées (ou au moins indexées) dans un lieu consultable[1] ;

Données accessibles et dans la mesure du possible « ouvertes »[modifier | modifier le code]

Pas obligatoirement « open data » par défaut, les Fair-datas doivent dans tous les cas être récupérables par leur identifiant en utilisant un protocole standard de communication (ouvert, libre, et d'usage universel)[1], et dans tous les cas les (méta)données sont disponibles à des conditions connues, grâce à des licences claires (Creative commons par exemple), et bien visibles ; si un protocole de procédure d'authentification et d'autorisation est nécessaires (ex : identification précise de la personne qui consulte, passage par un comité d'attribution de droits de consultation) cette condition doit être également bien visible. Enfin, les métadonnées doivent rester accessibles, même si les données ne sont plus disponibles[1] ; Quand les données ne peuvent être ouvertes, ou ne sont ouvertes qu'à certaines entités, il est recommandé pourquoi et pour combien de temps, clairement et en séparant les raisons juridiques et contractuelles de toute restriction volontaire (ex : accord de consortium)[1]. Si des outils logiciels ou méthodes particulières sont nécessaires pour accéder aux données ou les exploiter, la documentation sur ces logiciels nécessaires ou la méthode devraient aussi être disponibles pour tous en utilisant un logiciel à code open source quand c'est possible. Le lieu de consultation des (méta)données doit aussi être clairement identifié et accessible[1]. Les dépôts certifiés de données qui soutiennent l'accès libre devraient tant que possible être préférés[1].

Données interopérables[modifier | modifier le code]

L'interopérabilité (à ne pas confondre avec une simple « compatibilité ») ; elle est sémantique et syntaxique, et elle implique l'utilisation des métadonnées contextuelles précises, et de contenu et de formats respectant les grands standards internationaux et utilisant un vocabulaire informatique respectant les principes FAIR[1] ;

Données réutilisables[modifier | modifier le code]

Le réusage (libre, conditionnel ou payant) doit être facilité par l'utilisation de standards communs, grâce à des bases de données rassemblant des données claires, vérifiées et bien décrites, directement (ré)utilisables pour la recherche ou d'autres usages[1].

Les (méta)données doivent être richement décrites, par une pluralité d'attributs précis et pertinents, incluant des détails sur leur provenance[1]. Elles sont libérées avec une licence d'utilisation claire et accessible[1] (ex : Creative comomns)

Histoire du concept[modifier | modifier le code]

Les bailleurs de fonds publics de la Recherche, certains éditeurs et un nombre croissant d'agences gouvernementales commencent à exiger la publication de données ouvertes ou plus facilement réutilisables, et des plans de gestion de données numériques à long terme. Le Fair data est aussi apparu comme l'un des moyens de mieux valoriser le big data.

Dans le monde depuis plusieurs années de grands organismes tels que la National Science Foundation des États-Unis, les Conseils de la recherche du Royaume-Uni (en) ou la Netherlands Organisation for Scientific Research exigent déjà des « plans de gestion des données » pour les recherches qu’ils financent et encouragent l’open data.

En Europe, le programme européen Horizon 2020 intégrait un projet pilote Open Research Data puis dès son programme de travail 2017, il a élargi à tous les thèmes l'incitation au Fair data, avec un « accès libre par défaut » pour les données de recherche générée par les subventions européennes. Il invite les chercheurs à s'appuyer sur des licences ouvertes et sur les principes et critères du FAIR data (Findable, Accessible, Interoperable, Re-useable), en réponse notamment aux demandes de l’OCDE et de la Commission européenne d’une large ouverture des données. Dans ce cadre, l'approche FAIR data a été notamment portée par « FORCE11 », une communauté d'académiques, bibliothécaires, archivistes, éditeurs et bailleurs de fonds de la Recherche.

Les data papers sont encouragés pour mieux disséminer et faire partager les résultats des projets financés dans le cadre européen, et pour favoriser l’innovation et la création de connaissances nouvelles.

En France, le statut des donnés pour la recherche a également récemment changé [2]. La loi « pour une République numérique »[3] précise que dès lors que les données, liées à une publication, ne sont pas protégées par un droit spécifique et qu'elles ont été rendues publiques par le chercheur, leur réutilisation est libre. « L'éditeur d'un écrit scientifique ne peut de ce fait pas limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. La description, la publication et la réutilisation des données liées à une publication sont entrées dans la loi française, le bien-fondé de leur exposition dans des data papers s’en trouve renforcé »[4].
le Plan d’action de l'ANR (et son Appel à projets générique 2016) incitent les chercheurs à utiliser les grandes bases de données existantes et à publier leurs résultats en accès ouvert ;

Enjeux[modifier | modifier le code]

Logo de l'Open science
Quelques concepts en jeu avec le Fair data
Schéma d'organisation de Dataverse

Pour le Pr Barend Mons (spécialiste néerlandais de la gestion et de l'interopérabilité des données), le Fair data est notamment l'une des réponses à la croissance exponentielle des données (ex : doublement tous les 6 mois par exemple dans le domaine de la biologie)[5] et une nécessité pour le « data mining » devenu nécessaire dans le cadre du big data.

Ces principes visent à faciliter et améliorer la réutilisation de données déjà publiées, issues de la science ou utiles à la Recherche notamment dans les domaines hautement complexes (ex : prévision météorologique, changement climatique, biologie computationelle, biodiversité et services écosystémiques, médecine, économie, etc.

Les 4 principes du FAIR concernent l'accessibilité et l'usage par et pour l'homme, mais aussi l'usage direct de la donnée brute par les ordinateurs et les « agents de calcul », au service de la recherche, de la connaissance, de l'éducation, de la formation, de l'innovation et et de plus en plus de formes d'intelligence artificielle (apprentissage automatique, etc.). En accédant plus facilement à des données bien décrites, les ordinateurs peuvent en effet mettre en relation d'énormes quantités de données et identifier des tendances, détecter des signaux faibles, considérablement accélérer certains processus d'innovation. Mais ils ont besoin que les données soient rangées dans des ensembles bien structurés et qu'elles soient décrites dans un langage non ambigu.

Ces 4 principes accélèrent et facilitent le travail collaboratif ; ils sont par exemple utilisés dans les plans de gestion de données qui prennent une importance croissante alors qu'apparaissent de nouveaux lieux de stockage mondial de grandes quantités de données avec par exemple Dataverse, FigShare [6], Dryad, Mendeley Data [7], Zenodo [8], DataHub [9], DANS [10], EUDat, etc. Dans des domaines plus spécialisés et anciens on peut citer dans le domaine des sciences de la vie et de la génétique : Genbank, Worldwide Protein Data Bank (wwPDB)[11] UniProt[12] ; ou pour le domaine des sciences et technologies spatiales : le Space Physics Data Facility de la Nasa (SPDF) [13] ou la base d'identifications astronomiques SIMBAD[14]. Ou encore pour les sciences humaines et sociales les services NAKALA de l'infrastructure Huma-Num[15].

Partant du principe que toutes les composantes du processus de recherche devraient être disponibles pour assurer la transparence, la reproductibilité, la vérifiabilité et une possible réutilisation, certains auteurs invitent à appliquer ces principes aux « données » au sens conventionnel du terme (données numériques et certains objets digitaux tels qu’algorithmes ou modèles mathématiques et informatiques par exemple, gènes et codes génétiques dans les banques de données génétiques développées pour la recherche et les biotechnologies), mais aussi à tous les algorithmes utiles, et aux outils, méthodes et flux de travail qui ont conduit à pouvoir produire ces données.

Des enjeux éthiques et notamment bioéthiques sont associés à ces approches, ainsi que de sécurité informatique.

Difficultés[modifier | modifier le code]

Un temps et des moyens significatifs et croissants devront être consacré à préparer la donnée et sa gestion future. Les gestionnaires de données doivent continuellement se former et s'adapter à la croissance du Big data et aux nouveaux outils de gestion de données.

Des systèmes « automatiques » de création de métadonnées existent mais souvent ils ne déchargent pas le producteur de donnée de tout le travail. Par exemple les appareils photos numériques et caméras récentes, dotés d'un GPS (et d'un capteur de pression/profondeur pour la photo subaquatique) produisent automatiquement une donnée enrichie sur le lieu, le moment et les conditions de la photo, sur le matériel utilisé, etc. mais c'est au photographe de prendre le temps et les moyens de légender correctement sa photo, et avec des données contextuelles et quelques mots-clé pertinents, et avec éventuellement une version en anglais et de l'hypertexte pour enrichir cette légende. Une licence peut éventuellement être associée en amont à chaque document[1].

Le producteur et le gestionnaire de données devraient le plus en amont possible préparer leur plan de gestion des données après avoir réfléchi aux buts de la collecte ou production de données (en lien avec les objectifs de leur projet) aux formats de données qui seront générés ou recueillis, en prévoyant les modes de réutilisation, la taille de la base de données, ses mises à jour, le public des futurs utilisateurs (publics, privés...)[1].

Données concernées[modifier | modifier le code]

La donnée peut être publique ou privée, et plus ou moins "ouverte".
Au sens large il peut s'agir de données de bases ou d'images, de textes, de photos, films, sons, etc.
Wikipédia, wikimedia commons et Wikidata sont des exemples de mise en œuvre collaborative de ces principes, en amélioration continue.

Revues dédiées[modifier | modifier le code]

Plusieurs publications scientifiques spécialisées sur le thème de la donnée et de sa gestion sont apparues depuis les années 1970, mais pour la plupart après 2012[16],[17].

  • Journal of Physical and Chemical Research Data (créée en 1972), pas en open data
  • Journal of Open Archaeology Data (2012)
  • Genomics Data Elsevier (2013)
  • Geoscience Data Journal (2014)
  • Scientific Data Nature (2014)
  • Research Data Journal for the Humanities and Social Sciences Brill (2016)


Notes et références[modifier | modifier le code]

  1. a b c d e f g h i j k l m n et o Mark Wilkinson (2016) Les principes du Fair Data ; datafairport.org - Jan 25, 2016
  2. Maurel Aka Lionel (2016) Quel statut pour les données de la recherche après la loi numérique ? Publication du 3 novembre 2016. S.I.Lex – Carnet de veille et de réflexion d'un juriste et bibliothécaire
  3. L’article 38 de la loi « pour une République numérique » ; République française. LOI no 2016-1321 du 7 octobre 2016 pour une République numérique
  4. Reymonet N (2017) Améliorer l’exposition des données de la recherche : la publication de data papers 5 / 5)
  5. Professor Barend Mons – Social machines & FAIR data, mis en ligne sur YouTube par l'Université de Leyde le 11 janvier 2017
  6. (http://figshare.com)
  7. https://data.mendeley.com/
  8. http://zenodo.org/
  9. http://datahub.io
  10. http://www.dans.knaw.nl/
  11. Berman, H., Henrick, K. & Nakamura, H. (2003) Announcing the worldwide Protein Data Bank. Nat. Struct. Biol. 10, 980–980 .
  12. The Uniprot Consortium. UniProt: a hub for protein information. Nucleic Acids Res. 43, D204–D212 (2015).
  13. http://spdf.gsfc.nasa.gov/
  14. Wenger, M. et al. The SIMBAD astronomical database-The CDS reference database for astronomical objects. Astron. Astrophys. Suppl. Ser. 143, 9–22 (2000)
  15. (https://www.nakala.fr)
  16. Nathalie Reymonet. Améliorer l'exposition des données de la recherche : la publication de data papers. Ce texte pr_esente la structure et le contenu d'un " data paper " ainsi que des exemples de revues.. 2017. <sic 01427978>
  17. Akers, Katherine. A Growing List of Data Journals. Posted on May 9, 2014

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Vidéographie[modifier | modifier le code]