Data profiling
Un article de Wikipédia, l'encyclopédie libre.
|
|
Cet article est une ébauche concernant l’informatique.
Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.
|
Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.
Objectifs [modifier]
Le profiling a pour objectif :
- d'identifier les données réutilisables pour d'autres fins,
- d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise,
- d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications,
- d'évaluer si les métadonnées décrivent correctement les données sources,
- d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet (ex. avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels,...).
- d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « data profiling » (voir la liste des auteurs)