Big data

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 8 janvier 2015 à 17:17 et modifiée en dernier par Like tears in rain (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

Une visualisation des données créée par IBM montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[1].
Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information ; source : http://www.martinhilbert.net/WorldInfoCapacity.html.

Les big data, littéralement les « grosses données », ou mégadonnées (recommandé[2]), parfois appelées données massives[3], désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. L'on parle aussi de datamasse[4] en français par similitude avec la biomasse.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes et pour partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités en termes d'exploration de l'information diffusée par les médias[5], de connaissance et d'évaluation, d'analyse tendancielle et prospective et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques[6], mais aussi en termes de génomique ou métagénomique[7], pour la médecine (compréhension du fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »…) l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité[8].

Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée.

Divers experts, grandes institutions (comme le MIT[9] aux États-Unis), administrations[10] et spécialistes sur le terrain des technologies ou des usages[11] considèrent le phénomène big data comme l'un des grands défis informatiques de la décennie 2010-2020 et en ont fait une de leurs nouvelles priorités de recherche et développement.

Dimensions des big data

Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[12]. Ces analyses sont appelées Big Analytics[13] ou «broyage de données». Elles portent sur des données quantitatives complexes avec des méthodes de calcul distribué.

En 2001, un rapport de recherche du META Group (devenu Gartner)[14] définit les enjeux inhérents à la croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle dite «des 3V» (volume, vélocité et variété[15]). Ce modèle est encore largement utilisé aujourd'hui pour décrire ce phénomène[16].

Le taux de croissance annuel moyen mondial du marché de la technologie et des services du Big Data sur la période 2011-2016 devrait être de 31,7%. Ce marché devrait ainsi atteindre 23,8 milliards de dollars en 2016 (d'après IDC mars 2013).

Le Big Data devrait également représenter 8% du PIB européen en 2020 (AFDEL février 2013).

Volume

Le volume des données stockées aujourd’hui est en pleine expansion. Selon une étude IDC sponsorisée par EMC Gartner, les données numériques créées dans le monde seraient passées de 1,2 zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s'élèveront à 40 zettaoctets en 2020[17]. À titre d'exemple, Twitter générait en janvier 2013, 7 teraoctets de données chaque jour et Facebook 10 teraoctets[18].

Ce sont pourtant les installations scientifiques qui produisent le plus de données. De nombreux projets, de dimension pharaonique, sont ainsi en cours. Le radiotelescope “Square Kilometre Array” par exemple, produira 50 teraoctets de données analysées par jour, à un rythme de 7 000 teraoctets de données brutes par seconde[19]!

Variété

Le volume des Big Data met les data centers devant un réel défi : la variété des données. Il ne s'agit pas de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voire non structurées (cependant, les données non-structurées devront, pour utilisation, être structurées[20]). Ce sont des données complexes provenant du web (Web Mining), au format texte (Text Mining) et images (Image Mining). Elles peuvent être publiques (Open Data, Web des données), géo-démographiques par îlot (adresses IP), ou relever de la propriété des consommateurs (Profils 360°)[réf. nécessaire]. Ce qui les rend difficilement utilisables avec les outils traditionnels.

La démultiplication des outils de collecte sur les individus et sur les objets permettent d’amasser toujours plus de données[21]. Et les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes.

Vélocité

La vélocité représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées.
Des flux croissants de données doivent être analysés en temps réel (Data Stream Mining) pour répondre aux besoins des processus chrono-sensibles[22]. Par exemple, les systèmes mis en place par la bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du système quand les principaux opérateurs deviennent des "robots" capables de lancer des ordres d'achat ou de vente de l'ordre de la nanoseconde (Trading haute fréquence), sans disposer de tous les critères pertinents d'analyse pour le moyen et long terme.

Différence avec l'informatique décisionnelle

Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de “V” supplémentaires selon l’inspiration des services marketing), la maturation du sujet fait apparaitre un autre critère plus fondamental de différence d’avec l'informatique décisionnelle et concernant les données et leur utilisation[23] :

  • Informatique décisionnelle : utilisation de statistique descriptive, sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ;
  • Big Data : utilisation de statistique inférentielle, sur des données à faible densité en information[24] dont le grand volume permet d’inférer des lois (régressions….) donnant dès lors (avec les limites de l’inférence) au big data des capacités prédictives[25].

Représentation

Modèles

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du Big Data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de gérer des bases massivement parallèles[26]. Des patrons d’architecture “Big Data Architecture framework (BDAF)”[27] sont proposés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le framework Hadoop. Avec ce système les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en parallèles (map). Les résultats sont ensuite rassemblés et récuperés (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées. Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft[28]. Les acteurs du marché s’appuient sur des systèmes à forte scalabilité horizontale et sur des solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles classiques[29].

Stockage

Pour répondre aux problématiques Big Data l’architecture de stockage des systèmes doit être repensée et les modèles de stockage se multiplient en conséquence.

  • le cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et en libre service sur des ressources informatiques partagées et configurables[30]. Les services les plus connus sont ceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.
  • les super calculateurs hybrides : Les HPC pour High Performance Computing, qu’on retrouve en France dans les centres nationaux de calculs universitaire tels quel’IDRIS, le CINES, mais aussi au CEA ou encore le HPC-LR[31]
  • Les systèmes de fichiers distribuées (DFS - Distributed files system): les données ne sont plus stockées sur une seule machine car la quantité à stocker est beaucoup trop importante. Les données, les fichiers sont "découpés" en morceaux d'une taille définie et chaque morceau est envoyé sur une machine bien précise utilisant du stockage local[32]. Le stockage local est préféré au stockage SAN/NAS pour des raisons de goulots d'étranglement au niveau du réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de type SAN coûte bien plus cher pour des performances bien moindres. Dans les systèmes de stockage distribué pour le Big Data, l'on introduit le principe de "Data locality"[33]. Les données sont sauvegardées là où elles peuvent être traitées.

Applications des big data

Les big data trouvent une application dans de nombreux domaines : de grands programmes scientifiques (CERN28 Mastodons), de grandes entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA) des entreprises spécialisées (Teradata, Jaspersoft30, Pentaho31…) de l'Open Source (Apache Hadoop, Infobright32, Talend33…) et des Start-up (aleph-networks[34],Bionatics[35], Hariba Médical[36], SafetyLine[37], KwypeSoft[38], Vigicolis, PredicSis[39]) :

Recherche scientifique

Les expériences du Large Hadron Collider représentent environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde. Il y a autour de 600 millions de collisions par seconde, et après filtrage, il reste 100 collisions d’intérêt par seconde. En conséquence, il y a 25 Po de données à stocker chaque année, et 200 Po après réplication[40],[41],[42].

Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a amassé plus de données en quelques semaines que toutes les données collectées dans l’histoire de l’astronomie. Il continue à un rythme de 200 Go par nuit, et a aujourd’hui stocké plus de 140 teraoctets d’information. Des prévisions annoncent que le Large Synoptic Survey Telescope, dont la mise en route est prévue en 2015, amassera ce même montant tous les cinq jours[43].

Décoder le génome humain a originellement pris 10 ans, cela peut désormais être fait en moins d'une semaine : les séquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois la loi de Moore (100 environ sur 10 ans)[44]. En biologie, les approches massives basées sur une logique d’exploration des données et de recherche d’induction sont légitimes et complémentaires des approches classiques basées sur l'hypothèse initiale formulée[45].

Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de données d’observations et de simulations climatiques[46].

Politique

L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour analyser les opinions politiques de la population[47].

Depuis l'année 2012, le Département de la défense américain investit annuellement sur les projets de Big Data plus de 250 millions de dollars[48].

Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète[49].

La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois terminé, ce data center pourra supporter des yottaoctets d’information collectés par la NSA sur internet.

En 2013, le big data faisait partie des 7 ambitions stratégiques de la France déterminées par la Commission innovation 2030[50].

Secteur privé

Walmart traite plus d’un million de transactions client par heure, celles-ci sont importées dans des bases de données dont on estime qu’elles contiennent plus de 2,5 Po d’information[43].

Facebook traite 50 milliards de photos.

D’une manière générale l'exploration de données de Big Data permet l’élaboration de profils clients dont on ne supposait pas l’existence[51].

Perspectives et évolutions

L'un des principaux enjeux de productivité du Big Data dans son évolution va porter sur la logistique de l'information, c'est-à-dire sur comment garantir que l'information pertinente arrive au bon endroit au bon moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la combinaison entre les approches micro- et macro-économique d'un problème.

Selon une étude IDC, les données numériques créées dans le monde atteindraient 40 zettaoctets d'ici 2020[52]. A titre de comparaison, Facebook générait environ 10 teraoctets de données par jour au début 2013. Le développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomènes simultanément: la pénurie de disques durs due aux inondations en Thaïlande en 2011, l'explosion du marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du cloud-computing de plus en plus proche, grâce à des outils comme Dropbox, amène le big data au centre de la logistique de l'information.

Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avancées doivent être faites, et ce en suivant trois axes :

Modélisation de données

Les méthodes actuelles de modélisation de données ainsi que les systèmes de gestion de base de données ont été conçus pour une utilisation à des fins commerciales de l’information. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il faudra des modélisations de données et des langages de requêtes permettant :

  • une représentation des données en accord avec les besoins de plusieurs disciplines scientifiques ;
  • de décrire des aspects spécifiques à une discipline (modèles de métadonnées) ;
  • de représenter la provenance des données ;
  • de représenter des informations contextuelles sur la donnée ;
  • de représenter et supporter l’incertitude ;
  • de représenter la qualité de la donnée[53].

De très nombreux autres thèmes de recherche sont liés à ce thème, citons notamment: la réduction de modèle pour les EDP, le compressive sensing en imagerie, l'étude de méthodes numériques d'ordre élevé… Probabilités, statistiques, analyse numérique, Equations aux Dérivées Partielles déterministes et stochastiques, approximation, calcul haute performance, algorithmique… Une grande partie de la communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce thème porteur.

Gestion de données

Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer le principe qui veut qu’une requête sur un SGBD fournisse une réponse complète et correcte sans tenir compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que le SGBD puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui permettraient de guider le scientifique dans sa recherche[53].

Dans le domaine des données clients, il existe également de réels besoins d'exploitation de ces données, en raison notamment de la forte augmentation de leur volume des dernières années[54]. Le big data et les technologies associées permettent de répondre à différents enjeux tels que l'accélération des temps d’analyse des données clients, la capacité à analyser l’ensemble des données clients et non seulement un échantillon de celles-ci ou la récupération et la centralisation de nouvelles sources de données clients à analyser afin d’identifier des sources de valeur pour l’entreprise.

Outils de gestion des données

Les outils utilisés à l’heure actuelle ne sont pas en adéquation avec les volumes de données engendrés dans l’exploration de big data. Il est nécessaire de concevoir des instruments permettant de mieux visualiser, analyser, et cataloguer les ensembles de données afin de permettre une optique de recherche guidée par la donnée[53]. La recherche en big data ne fait que commencer. La quantité de data évolue beaucoup plus rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prévoit qu'il n y aura pas suffisamment de scientifiques du data. En 2018, les États-Unis auraient besoin de 140 000 à 190 000 scientifiques spécialisés en big data[48].

Voir aussi

Notes et références

  1. Watters, Audrey. Visualize Big Data with Flowing Media. ReadWriteWeb. 15 avril 2010. http://www.readwriteweb.com/start/2010/04/visualize-big-data-with-flowing-media.php.
  2. Terme recommandé en France par la DGLFLF, Journal officiel du 22 août 2014, et au Canada par l'OQLF.
  3. http://www.telecom-paristech.fr/formation-continue/masteres-specialises/big-data.html.
  4. http://iucg.org/wiki/Dictionnary#Definitions.
  5. Les médias dans la moulinette du « big data », 6 janvier 2014, consulté 12 janvier 2014.
  6. Le rôle du Big Data dans la campagne présidentielle américaine en 2012
  7. Big Data : un ADN utilisateur séquençable pour moins de 1 000 $
  8. « La sécurité se met résolument au «Big Data» », LeMagIT, mars 2012.
  9. CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data, Tackling the Challenges of Big Data, janvier 2014, consulté 2014-01-12
  10. Gouvernement français (2012) - Investissements d’avenir – Fonds national pour la société numérique, Appel à projets no 3 - Big Data.
  11. Big Data Paris, conférence-exposition, 20-21 mars 2012.
  12. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
  13. http://www.amazon.com/Big-Data-Analytics-Intelligence-Businesses/dp/111814760X
  14. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
  15. http://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml
  16. http://www-01.ibm.com/software/data/bigdata/
  17. Étude IDC-EMC « Extracting value from chaos » citée par Delphine Cuny sous le titre « "Big data" : la nouvelle révolution », Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
  18. http://www.cnrs.fr/fr/pdf/cim/28/#/1/
  19. http://ercim-news.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities
  20. Big data : du concept à la mise en œuvre. Premiers bilans.
  21. http://www.technologyreview.com/news/423897/data-analysis-is-creating-new-business-opportunities/
  22. https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&S_CMP=is_bdebook1_bda
  23. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
  24. http://www.andsi.fr/tag/dsi-big-data/
  25. http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com
  26. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
  27. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
  28. http://www.zdnet.fr/actualites/explosion-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm
  29. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
  30. www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
  31. https://www.hpc-lr.univ-montp2.fr/
  32. (en) Michel Sumbul, « HDFS », sur http://whatsbigdata.be/hdfs, (consulté le )
  33. (en) « HDFS », sur http://whatsbigdata.be/hdfs/, (consulté le )
  34. http://www.aleph-networks.com
  35. http://www.bionatics.com/
  36. http://healthstartup.eu/2012/05/top-big-data-opportunities-for-health-startups/.
  37. http://www.safety-line.fr/index.php/fr/.
  38. http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/10-jeunes-entreprises-innovantes-reperees-pour-leurs-projets-big-data.html
  39. www.PredicSis.com.
  40. (en) « LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public. », CERN-Brochure-2010-006-Eng. LHC Brochure, English version., CERN (consulté le )
  41. (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers. », CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le )
  42. Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,‎ , p. 282–83 (DOI 10.1038/469282a, lire en ligne).
  43. a et b http://www.economist.com/node/15557443.
  44. http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf#page=6
  45. http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=6.
  46. http://www.nasa.gov/centers/goddard/news/releases/2010/10-051.html.
  47. http://bosmol.com/2013/02/how-big-data-analysis-helped-president-obama-defeat-romney-in-2012-elections.html.
  48. a et b http://thegovlab.org/govlab-index-the-digital-universe/.
  49. http://www.informationweek.com/government/enterprise-applications/image-gallery-governments-10-most-powerf/224700271.
  50. http://www.innovation2030.org/fr/.
  51. http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-cas/data-mining-clients.php>
  52. Régis Castagné (Interoute) : "Big Data et Cloud Computing seront intimement liés", silicon.fr, 7 novembre 2013.
  53. a b et c http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
  54. Infographie - l’exploitation des données clients à l’ère du Big Data , blog MARKESS International

Liens externes

Sur les autres projets Wikimedia :