Lac de données

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Un lac de données (en anglais data lake) est une méthode de stockage des données utilisée par le big data[1] (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées.[2].

On trouve donc dans un lac de données des données de natures différentes : des données structurées issues notamment de bases de données relationnelles (lignes et colonnes), des données semi-structurées (CSV, journaux, XML, JSON...), et des données non structurées (emails, documents, PDF) et fichiers de type blob (images, audio, vidéo notamment).

Les données sont utilisées pour des tâches telles que la création de rapports, la visualisation, l'analyse, l'apprentissage automatique...

Plusieurs environnements fournissent des services complets permettant la gestion d'un lac de données. La plupart d'entre eux sont basés sur la technologie Hadoop et fournissent des installations en local (MapR, Cloudera, Hortonworks) ou dans le Cloud (Microsoft Azure, Google Cloud Platform, Amazon S3)[3].

On parle parfois de marécage de données (data swamp) pour désigner un lac de données inaccessible aux utilisateurs concernés, ou de peu de valeur.

Références[modifier | modifier le code]

  1. Alain Clapaud, « Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue », sur Le Journal du Net, (consulté le 22 juin 2016)
  2. (en) « Top Five Differences between Data Lakes and Data Warehouses », sur Blue-Granite.com, (consulté le 15 septembre 2017)
  3. « Data lake as a Service : Amazon et Microsoft surnagent, Google sous l'eau », sur journaldunet.com, (consulté le 22 décembre 2018)

Articles connexes[modifier | modifier le code]