Lac de données

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

Introduction[modifier | modifier le code]

La notion de lac de données (ou data lake) est un concept intrinsèquement lié à celui de big data. Ce dernier correspond à des ensembles de données devenus si massifs et volumineux qu’il est devenu impossible pour l’esprit humain ou pour l’outil informatique classique de gestion de les traiter et de les analyser. Ces données proviennent de sources multiples et sont produites chaque jour dans des quantités astronomiques (environ 2.5 trillions d’octets de données par jour).

Pour pallier cela, le Big Data intervient en proposant des outils extrêmement performants qui permettent à tout le monde d’accéder en temps réel à des bases de données géantes. Selon Gartner, ce concept regroupe une famille d’outils qui répondent à une règle des 3V qui recoupe trois aspects des données :

  • Volume de données considérable à traiter
  • Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…)
  • Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage des données.

La notion de Data Lake intervient à ce stade de la réflexion. En effet, outre la capacité à traiter un grand nombre d’informations diverses dans un temps très court, il s’agit aussi de pouvoir les stocker, sans avoir à systématiquement les retravailler.


Définition[modifier | modifier le code]

Un lac de données (en anglais data lake) est une méthode de stockage des données utilisée par le big dataErreur de référence : La balise ouvrante <ref> est mal formée ou a un mauvais nom. (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées.[1].

On trouve donc dans un lac de données des données de natures différentes : des données structurées issues notamment de bases de données relationnelles (lignes et colonnes), des données semi-structurées (CSV, journaux, XML, JSON...), et des données non structurées (emails, documents, PDF) et fichiers de type blob (images, audio, vidéo notamment). Elles sont ainsi conservées dans la base de données jusqu’à ce qu’elles soient requises pour répondre à un besoin d’un utilisateur. Il s’agit d’une solution de gestion de données hybrides et variées qui peuvent s’adapter au big data et générer des niveaux d'analyse en temps réel inédits, destinée aux entreprises.

La principale qualité du lac de données réside en sa flexibilité. Il doit pouvoir interagir avec les données, quel que soit leur format. Lorsqu’une donnée est intégrée au sein du Data Lake, elle se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'un besoin se présente, il suffit d'interroger le Data Lake pour y rechercher des informations pertinentes. Il est alors possible d'analyser cet ensemble de données plus restreint ainsi obtenu pour apporter une réponse à ce besoin.

Ainsi chacun dispose d’une importante source d’information brute qu’il peut exploiter pour réaliser ses opérations, évitant ainsi la perte de temps liée à la mise en forme de l’information nécessaire à son stockage. Pour retrouver la bonne information stockée au sein d’un Data Lake, plusieurs types d’analyses sont possibles tels que les requêtes SQL, les analyses de données volumineuses, la recherche plein texte, l'analyse en temps réel ou encore l'apprentissage machine. Au fur et à mesure que les organisations dotées d'entrepôts de données voient les avantages des lacs de données, elles font évoluer leur entrepôt pour y inclure des lacs de données. Gartner nomme cette évolution "Data Management Solution for Analytics" ou "DMSA"[2].


Usages et fonctions[modifier | modifier le code]

Les données sont utilisées pour des tâches telles que la création de rapports, la visualisation, l'analyse, l'apprentissage automatique… Le lac de données est donc un outil de gestion des métadonnées à destination des entreprises et de leurs utilisateurs, dans des domaines qui nécessitent le stockage de volumes massifs de données. Le Data Lake permet ainsi la manipulation de données en fonction de besoins précis, à des instants plus où moins éloignés de la date d’archivage.

Cet outil apporte certains avantages tels que la rationalisation des données, la réduction des coûts de stockage, et l’amélioration des décisions d’une façon globale. Pour ce qui est de la rationalisation, le lac de donnée permet en effet de réduire le temps passé à préparer des données et ce coût relatif puisque le stockage se fait dans le format d’origine.

On note également une réduction des dépenses d'exploitation en utilisant le lac de données comme référentiel pour les données plus anciennes. Sans le lac de données, il serait nécessaire d’opter pour des Data Warehouse pour stocker celles-ci, or cette solution est bien plus onéreuse. En dernier lieu, de part la garantie de l’outil que les données soient fiables et pertinentes, en associant cela aux capacités d’analyse en temps réel et d’intelligence artificielle du Data Lake, celui-ci permet une meilleure information des entreprises et la saisie d’opportunités.

Plusieurs environnements fournissent des services complets permettant la gestion d'un lac de données. La plupart d'entre eux sont basés sur la technologie Hadoop et fournissent des installations en local (MapR, Cloudera, Hortonworks) ou dans le Cloud (Microsoft Azure, Google Cloud Platform, Amazon S3)[3].


Distinctions avec d'autres méthodes de stockage[modifier | modifier le code]

Aujourd’hui il existe différents moyens de stocker les données autres que les Data Lake. On retrouve aussi les Data Swamp (marécages de données) et les entrepôts de données (Data Warehouse), chacun se distinguant des autres par des caractéristiques propres.

En effet, les premiers, les Data Warehouse permettent également de stocker une grande quantité de données. Cependant leur stockage nécessite de les structurer un minimum, c’est à dire qu’il s’agit de les retravailler pour passer ainsi d’une “donnée brute” à une “donnée nette”. La structure des données et le schéma sont définis à l'avance pour optimiser les requêtes SQL rapides, dont les résultats sont généralement utilisés pour le reporting et l'analyse opérationnels. Les données sont nettoyées, enrichies et transformées afin qu'elles puissent agir comme la "source unique de vérité" en laquelle les utilisateurs peuvent avoir confiance. Cette structuration de données peut être ou bien un gain de temps si l’on doit travailler sur une base de données organisée, ou bien une perte de temps si au contraire il est nécessaire de travailler sur une structure différente que celle apportée pour le stockage. Dans ce cas il faut remonter aux données brutes pour établir de nouvelles données nettes. A l’inverse les Data Lake stockent une multitude de données quel que soit le niveau de structuration de ces dernières.

Toutefois, on peut aussi distinguer le Data Lake du Data Swamp, traduit par marécage de données en français. Par analogie, on pourrait définir le marécage de données comme une version de son cousin le Data moins organisée et moins propre. Le Data Swamp découle du Data Lake. En effet, le risque de déverser une multitude de données diverses et de format différent est de créer un flou et un désordre, si un référentiel n’est pas créé pour les organiser, apportant une sorte de nettoyage du Data Lake. On parle donc de marécage de données (data swamp)[4],[5] pour désigner un lac de données inaccessibles aux utilisateurs concernés, ou de peu de valeur. A ce propos, Andrew Brust[6] assimile pour sa part complètement le Data Swamp à une extension d’un Data Lake qui aurait sursaturé au fur et à mesure que des quantités trop importantes de données sont intégrées[7].

Avantages et inconvénients[modifier | modifier le code]

Le Data Lake permet de nombreuses manipulations et promet de nombreux avantages à ses utilisateurs, tels que :

  • Une puissance de stockage permettant de définir des modèles prédictifs basés sur la mise en place de scénarios. Ces derniers peuvent être un moteur de recommandations propres au domaine et à l’entreprise elle-même.
  • La traçabilité et la cohérence des informations circulant dans l’entreprise, tous les services se servent d’une donnée unique ce qui justifie la cohérence des analyses effectuées en aval.
  • Garder un historique des données, qui permet de garder l’ensemble des données d’origine et donc d’éviter la destruction de détail voire même d’informations. (ex : Schema on Read).
  • La corrélation de tous ces documents de formats différents et de sources différentes permet à l’organisation de prendre des décisions plus éclairées pour la croissance future.

Malgré tout, il serait imprudent de reconnaître le Data Lake comme étant une solution parfaite. En effet, par opposition aux avantages cités précédemment, il est nécessaire de relever certains inconvénients de l’outil.

Il est tout d’abord très difficile de conserver un lac de données propre et organisé, ce qui est relativement chronophage et à terme particulièrement onéreux. Le risque étant alors comme il a été évoqué dans une partie précédente, de se retrouver avec un marécage de données illisible et massif qui serait complexe à nettoyer.

Dans cet esprit, il faut rappeler la problématique du croisement des données. Sans la création de jointures qui les relies entre elles, parfois elles ne peuvent pas se recouper et il ne ressortira aucune information de la recherche ou bien une information erronée ou incomplète. On cherche à obtenir un résultat qui intervient au croisement de deux types d’informations (ou plus) mais si ces informations ne sont pas liées, il ne sera pas possible d’en obtenir la réponse escomptée. Il faut donc mettre en place les jointures nécessaires et penser à les actualiser en temps voulu.

Outre ces deux problématiques liées aux données en elle-même, il ressort celle de la sécurité également avec l’existence d’un risque pour la confidentialité des données. Il faut savoir que les lois et les régulations relatives à la confidentialité des données diffèrent dans tous les pays. De fait, il faut déjà adapter les modèles de lac de données selon l’emplacement géographique de l’utilisateur, mais aussi pouvoir assurer à ceux-ci la protection de leurs données. Or, aujourd’hui, les fuites de données sensibles sur les clients, tels que des informations financières ou de e-mails privés, sont fréquentes et dans certains cas lourdes de conséquences.[8]


Références[modifier | modifier le code]

  1. (en) « Top Five Differences between Data Lakes and Data Warehouses », sur Blue-Granite.com, (consulté le 15 septembre 2017)
  2. « Définition : Qu’est-ce que le Big Data ? », sur LeBigData.fr (consulté le 15 décembre 2019)
  3. « Data lake as a Service : Amazon et Microsoft surnagent, Google sous l'eau », sur journaldunet.com, (consulté le 22 décembre 2018)
  4. (en-US) Daniel Gutierrez, « Data Swamp or Data Lake? Five Key Questions Before You Dive In », sur insideBIGDATA, (consulté le 9 décembre 2019)
  5. « Gouvernance de lac de données », sur www.ibm.com (consulté le 9 décembre 2019)
  6. (en-US) Andrew Brust, « How to Prevent A Data Lake from Becoming a Data Swamp », sur DATAVERSITY, (consulté le 15 décembre 2019)
  7. Collibra, « Data Lake vs. Data Swamp - Pushing the Analogy », sur Collibra (consulté le 15 décembre 2019)
  8. Philippe Nieuwbourg, « Le concept de « data lake » - lac de données : explication de texte », sur Decideo - Actualités sur le Big Data, Business Intelligence, Data Science, Data Mining (consulté le 15 décembre 2019)

Articles connexes[modifier | modifier le code]