Qualité des données

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Page d'aide sur l'homonymie Pour les articles homonymes, voir qualité.

La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran).

De même, les données sont jugées de grande qualité si elles représentent correctement le mode de fabrication auquel elles se réfèrent.

Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun

Historique[modifier | modifier le code]

La plupart des technologies sur les données informatiques sont nées du désir d'envoyer des informations par courrier. Avant l'émergence de serveurs bon marché, les ordinateurs centraux étaient utilisés pour mettre à jour les données (noms, adresses, et autres attributs) afin que les courriers électroniques arrivent correctement à leur destination. Les mainframes utilisaient des règles métiers pour corriger les défauts dans les données (fautes sur les champs nom et date, défauts de structuration), ainsi que pour suivre les clients qui avaient changé d'adresse, disparu, fusionné, ou expérimenté d'autres événements.

Aux États-Unis, les agences de gouvernement commencèrent à mettre à disposition des données postales à quelques sociétés de service pour gérer les entreprises selon le registre de changement d'adresse national (NCOA). Cette technique a fait économiser à de grandes entreprises de grandes sommes d'argent (millions de dollars) en comparaison de la gestion manuelle des données client. Les grandes entreprises ont réduit leurs frais postaux, les factures et courriers atteignant leurs destinataires plus précisément. Vendue à l'origine comme un service, la qualité des données s'est intégrée au sein des organisations grâce à la disponibilité de technologies serveurs abordables.

Bien que la plupart des entreprises pensent au nom et à l'adresse quand elles se préoccupent de qualité des données, on reconnaît aujourd'hui que la qualité des données est la façon d'améliorer tous les types de données, comme les données sur la chaîne logistique, les données des progiciels de gestion intégrée, les données transactionnelles, etc. Par exemple, mettre en conformité les données de la chaîne d'approvisionnement à un certain standard a une valeur pour une organisation en :

  1. évitant de surstocker des stocks similaires mais légèrement différents
  2. améliorant la compréhension d'achats en négociant des remises en quantité
  3. évitant les coûts logistiques en stockant et envoyant des pièces détachées à travers une grande organisation.

Alors que les données sur les noms et adresses ont un standard clair avec les définitions des autorités postales, les autres types de données ont peu de standards reconnus. Il y a une tendance de fond aujourd'hui dans l'industrie pour standardiser certaines données qui ne sont pas des adresses. Le groupe GS1 fait partie des groupes qui sont fers de lance dans ce mouvement.

Importance de la qualité des données[modifier | modifier le code]

La qualité des données est très importante pour réaliser l'interopérabilité de systèmes complexes. En particulier, elle intervient dans les exigences de traçabilité, qui se manifestent dans plusieurs secteurs économiques :

  • Santé et pharmacie,
  • Agroalimentaire et grande distribution,
  • Chimie,
  • Automobile...

Dans le même ordre d'idées, la qualité des données intervient aussi dans l'analyse du cycle de vie des produits.

La qualité des données revêt une grande importance également dans le Direct Marketing ou plus globalement le Customer Relationship Management (CRM) où les données client représentent une source de valeur importante pour les entreprises.

Sous un angle plus directement lié à la sécurité des données, elle intervient dans la gestion des documents d'archive, pour l'imputabilité.

La qualité des informations est l'un des 11 facteurs du modèle d'intelligence économique (AFDIE).

D'après le rapport du CIGREF sur le capital immatériel, la fiabilité et l'auditabilité des données conditionnent l'évaluation du capital immatériel des entreprises, et le calcul du retour sur investissement des projets d'ingénierie des connaissances. Il est donc nécessaire de disposer de référentiels de données normalisés pour évaluer la qualité des données.

On peut dire aussi que l'objectif poursuivi par la gestion de contenu de parvenir à une convergence des systèmes de gestion de contenu participe d'une démarche qualité dans le domaine des données.

Qualité des informations dans le modèle d'intelligence économique[modifier | modifier le code]

Le modèle d'intelligence économique de l'AFDIE identifie six critères de qualité de l'information :

1. Coût et valeur de l'information :

La mise en œuvre des normes IAS/IFRS comporte la comptabilisation du capital immatériel en immobilisations incorporelles ; elle pousse l'entreprise à mieux évaluer la valeur de l'information dans sa stratégie.

2. Connaissances capitalisées et validées,

Le moyen de capitaliser et de valider les connaissances se fait par des projets d'ingénierie des connaissances.

3. Mémoire vivante et accessible,

La mémoire peut être gérée efficacement par une démarche de gestion de contenu, qui visera à unifier les différents systèmes de gestion de contenu présents dans l'entreprise.

4. Informations et connaissances mieux partagées et protégées,

Il s'agit de mettre en place des communautés de pratique, avec des critères permettant de protéger le patrimoine informationnel.

5. Informations écrites et orales indispensables avant la prise de décision,

6. Information prospective et historique.

Il s'agit de disposer d'un référentiel historisé et permettant de faire des analyses prospectives selon des axes d'analyse.

Qualité des données et système décisionnel[modifier | modifier le code]

Le système décisionnel a pour objet d’aider les décideurs à effectuer des choix pertinents à partir de données historiques. Ceci implique généralement de prendre en charge de grandes quantités de données disparates afin de les calibrer en information suffisamment précise et sûre pour qu’en confiance des actions puissent être définies et lancées. Ce défi classique pour les architectes de systèmes décisionnels est amplifié ces derniers temps par l’augmentation des exigences en matière de variété, de profondeur et de fraîcheur des données historiques à gérer. Dans ce contexte, la vitesse avec laquelle des données peuvent être « nettoyées », « transformées » et intégrées dans un entrepôt de données devient essentielle pour la compétitivité des entreprises.

La qualité d’une donnée dépend d’abord du contexte dans lequel elle a été initialement saisie, mais d’un point de vue décisionnel son intérêt dépend de l’usage qu’un utilisateur peut en faire. La qualité d’une donnée ne doit donc pas être appréciée dans l’absolu mais de façon relative à son intérêt métier. Les besoins métiers évoluant, l’appréciation de la qualité d’une donnée ne peut donc jamais être fixée de façon définitive. Les programmes d’amélioration de la qualité des données doivent être ciblés en fonction des intérêts métier, sinon il y a un fort risque de se créer une charge de travail digne de Sisyphe.

Normalisation[modifier | modifier le code]

Il existe très peu de normes relatives spécifiquement à la qualité des données. On peut noter toutefois :

Des besoins existent aussi sur les informations contenues dans les ressources informatiques que les informaticiens appellent "non structurées". Des travaux sont en cours pour parvenir à des normalisations des données de référence qui sont utilisées dans ce type de ressources, notamment les ressources Web qui se généralisent et ont besoin de s'interfacer avec d'autres types de ressources informatiques.

Qualité des données ouvertes[modifier | modifier le code]

Un certain nombre de travaux scientifiques consacrés à l'analyse de la qualité des données dans des sources de données ouvertes, tels que Wikipédia, Wikidata, DBpedia et autres. Dans le cas de Wikipedia, l’analyse de la qualité peut porter sur l’ensemble de l’article[1] ou ses parties séparées (telles que infobox[2]). La modélisation de la qualité y est effectuée au moyen de diverses méthodes. Certains d'entre eux utilisent des algorithmes d'exploration de données, y compris Random Forest[3],[4], machine à vecteurs de support[5] et autre. Il existe également des travaux scientifiques[6],[7] utilisant des mesures synthétiques pour évaluer la qualité des articles Wikipedia dans différentes langues. Cette méthode est implémentée dans le projet WikiRank.

Les méthodes d'évaluation de la qualité des données dans Wikidata, DBpedia et d'autres sources LOD sont différentes[8].

Bibliographie[modifier | modifier le code]

  • AFDIE, Modèle d'intelligence économique, préface d'Alain Juillet, collection L'intelligence économique, Economica, 2004.
  • Christophe Brasseur, Data Management : qualité des données et compétitivité, éditions Hermes Science, Collection Management et informatique, 2005.
  • Michel Fournel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007, (ISBN 978-2-7483-3847-8).

Notes et références[modifier | modifier le code]

  1. Mostafa Mesgari, Okoli Chitu, Mohamad Mehdi, Nielsen Finn Årup et Arto Lanamäki, « “The Sum of All Human Knowledge”: A Systematic Review of Scholarly Research on the Content of Wikipedia », Journal of the Association for Information Science and Technology, vol. 66, no 2,‎ , p. 219-245 (DOI 10.1002/asi.23172, lire en ligne)
  2. Krzysztof Węcel et Włodzimierz Lewoniewski, « Modelling the Quality of Attributes in Wikipedia Infoboxes », Lecture Notes in Business Information Processing, vol. 228,‎ , p. 308-320 (DOI 10.1007/978-3-319-26762-3_27, lire en ligne)
  3. Włodzimierz Lewoniewski, Krzysztof Węcel et Witold Abramowicz, « Quality and Importance of Wikipedia Articles in Different Languages », Information and Software Technologies. ICIST 2016. Communications in Computer and Information Science, vol. 639,‎ , p. 613-624 (DOI 10.1007/978-3-319-46254-7_50, lire en ligne)
  4. Morten Warncke-Wang, Dan Cosley et John Riedl, « Tell me more: An actionable quality model for wikipedia », WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration,‎ (DOI 10.1145/2491055.2491063, lire en ligne)
  5. Daniel Hasan Dalip, Marcos André Gonçalves et Marco Cristo, « Automatic quality assessment of content created collaboratively by web communities: a case study of wikipedia », JCDL '09 Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries,‎ , p. 295-304 (DOI 10.1145/1555400.1555449, lire en ligne)
  6. Włodzimierz Lewoniewski et Krzysztof Węcel, « Relative Quality Assessment of Wikipedia Articles in Different Languages Using Synthetic Measure », Lecture Notes in Business Information Processing, vol. 303,‎ , p. 282–292 (DOI 10.1007/978-3-319-69023-0_24, lire en ligne)
  7. Włodzimierz Lewoniewski, Krzysztof Węcel et Witold Abramowicz, « Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles », Informatics, vol. 4, no 4,‎ (DOI 10.3390/informatics4040043, lire en ligne)
  8. Michael Färber, Frederic Bartscherer, Carsten Menne et Achim Rettinger, « Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO », Semantic Web, vol. 9, no 1,‎ , p. 77-129 (DOI 10.3233/SW-170275, lire en ligne)

Voir aussi[modifier | modifier le code]

Source[modifier | modifier le code]