Data profiling

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.

Objectifs[modifier | modifier le code]

Le profiling a pour objectif :

  • d'identifier les données réutilisables pour d'autres fins,
  • d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise,
  • d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications,
  • d'évaluer si les métadonnées décrivent correctement les données sources,
  • d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet (ex. avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels,...).
  • d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.