Big data

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2].

Les big data, littéralement les « grosses données », ou mégadonnées (recommandé[3]), parfois appelées données massives[4], désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. On parle aussi de datamasse[5] en français par similitude avec la biomasse.

L’explosion quantitative (et souvent redondante) de la donnée numérique contraint à de nouvelles manières de voir et analyser le monde[6]. De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données. Les perspectives du traitement des big data sont énormes et en partie encore insoupçonnées ; on évoque souvent de nouvelles possibilités d'exploration de l'information diffusée par les médias[7], de connaissance et d'évaluation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de phénomènes religieux, culturels, politiques[8], mais aussi en termes de génomique ou métagénomique[9], pour la médecine (compréhension du fonctionnement du cerveau, épidémiologie, écoépidémiologie...), la météorologie et l'adaptation aux changements climatiques, la gestion de réseaux énergétiques complexes (via les smartgrids ou un futur « internet de l'énergie »…) l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, des réseaux trophiques avec le GBIF par exemple), ou encore la sécurité et la lutte contre la criminalité[10]. La multiplicité de ces applications laisse d'ailleurs déjà poindre un véritable écosystème économique impliquant, d'ores et déjà, les plus gros joueurs du secteur des technologies de l'information[11].

Certains supposent qu'ils pourraient aider les entreprises à réduire leurs risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée.

Divers experts, grandes institutions (comme le MIT[12] aux États-Unis), administrations[13] et spécialistes sur le terrain des technologies ou des usages[14] considèrent le phénomène big data comme l'un des grands défis informatiques de la décennie 2010-2020 et en ont fait une de leurs nouvelles priorités de recherche et développement.

Histoire[modifier | modifier le code]

Croissance de la capacité mondiale de stockage de données et informations[15].

Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de l'information et comme espace virtuel prenant une importance volumique croissante dans le cyberespace.

L'expression « Big data » serait apparue en octobre 1997 selon les archives de la bibliothèque numérique de l’ACM (Association for Computing Machinery), dans des articles scientifiques sur les défis technologiques à relever pour visualiser les « grands ensembles de données ».

Selon V. Tréguier (2014) et selon la « très courte histoire du big data » publiés par Gil Press en 2013[16] pour la période 1944-2012, sa naissance est liée aux progrès des systèmes de stockage, de fouille et d'analyse de l'information numérisée, qui ont permis une sorte de big bang de l'information stockée puis une croissance inflationniste de l'univers de la donnée numérisée. Mais ses prémisses sont à trouver dans le croisement de la cybernétique et de courants de pensée nés durant la Seconde Guerre mondiale, selon lesquels l’homme et le monde peuvent être représentés comme « des ensembles informationnels, dont la seule différence avec la machine est leur niveau de complexité. La vie deviendrait alors une suite de 0 et de 1, programmable et prédictible »[17] ajoute V. Tréguier.

Les évolutions qui caractérisent le big data et ses algorithmes, ainsi que celles de la science des données sont en partie cachées (au sein des services de renseignement des grands États) et si rapides et potentiellement profondes que peu de prospectivistes se risquent à pronostiquer son devenir à moyen ou long termes[18], mais la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunités commerciales[19] que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir émerger des systèmes ubiquistes, orwelliens[20] et totalitaires capables de fortement contrôler, surveiller et/ou influencer les individus et groupes.

Les risques de dérives de la part de gouvernements ou d'entreprises[21] ont surtout d'abord été décrits par Orwell à la fin de la dernière guerre mondiale, puis souvent par la science fiction. Avec l'apparition de grandes banques de données dans les années 1970 (et durant toute la période de la guerre froide) de nombreux auteurs s'inquiètent des risques pris concernant la protection de la vie privée[22], dont par exemple mis en avant par le Pr. A. Miller avec le nombre croissant de données stockées relatives à la santé physique et psychique des individus[23],[24],[25].

En 2000, Froomkin dans un article paru dans la revue Stanford Law Review se demande si la vie privée n'est pas déjà morte[26], mais ce sont surtout les révélations d'E. Snowden (2013) qui ont suscité une nouvelle prise de conscience et d'importants mouvements protestation citoyenne.
Les quatre droits et « états de base de la vie privée » tels qu'énoncée par Westin en 1962 (droit à la solitude[27], l'intimité, l'anonymat dans la foule et à la réserve) sont menacés dans un nombre croissant de situations[28] de même que la protection du contenu des courriers électroniques[29] qui fait partie du droit à la vie privée[30].

Dimensions des big data[modifier | modifier le code]

Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[31]. Ces analyses sont appelées Big Analytics[32] ou «broyage de données». Elles portent sur des données quantitatives complexes avec des méthodes de calcul distribué.

En 2001, un rapport de recherche du META Group (devenu Gartner)[33] définit les enjeux inhérents à la croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle dite «des 3V» (volume, vélocité et variété[34]). Ce modèle est encore largement utilisé aujourd'hui pour décrire ce phénomène[35].

Le taux de croissance annuel moyen mondial du marché de la technologie et des services du Big Data sur la période 2011-2016 devrait être de 31,7%. Ce marché devrait ainsi atteindre 23,8 milliards de dollars en 2016 (d'après IDC mars 2013).

Le Big Data devrait également représenter 8% du PIB européen en 2020 (AFDEL février 2013).

Volume[modifier | modifier le code]

C'est une dimension relative : le Big Data comme le notait Lev Manovitch en 2011[36] définissait autrefois « les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs de bureau pour analyser ou co-analyser de vastes ensembles de données[37].

Le volume des données stockées est en pleine expansion : les données numériques créées dans le monde seraient passées de 1,2 zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s'élèveront à 40 zettaoctets en 2020[38]. À titre d'exemple, Twitter générait en janvier 2013, teraoctets de données chaque jour et Facebook 10 teraoctets[39].

Ce sont pourtant les installations technico-scientifiques (météorologie par exemple) qui produiraient le plus de données[réf. nécessaire]. De nombreux projets, de dimension pharaonique, sont ainsi en cours. Le radiotélescopeSquare Kilometre Array” par exemple, produira 50 teraoctets de données analysées par jour, à un rythme de 7 000 teraoctets de données brutes par seconde[40].

Variété[modifier | modifier le code]

Le volume des Big Data met les data centers devant un réel défi : la variété des données. Il ne s'agit pas de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voire non structurées (cependant, les données non-structurées devront, pour utilisation, être structurées[41]). Ce sont des données complexes provenant du web (Web Mining), au format texte (Text Mining) et images (Image Mining). Elles peuvent être publiques (Open Data, Web des données), géo-démographiques par îlot (adresses IP), ou relever de la propriété des consommateurs (Profils 360°)[réf. nécessaire]. Ce qui les rend difficilement utilisables avec les outils traditionnels.

La démultiplication des outils de collecte sur les individus et sur les objets permettent d’amasser toujours plus de données[42]. Et les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes.

Vélocité[modifier | modifier le code]

La vélocité représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées et mises à jour.

Des flux croissants de données doivent être analysés en quasi-temps réel (fouille de flots de données) pour répondre aux besoins des processus chrono-sensibles[43]. Par exemple, les systèmes mis en place par la bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du système quand les principaux opérateurs deviennent des "robots" capables de lancer des ordres d'achat ou de vente de l'ordre de la nanoseconde (Trading haute fréquence), sans disposer de tous les critères pertinents d'analyse pour le moyen et long terme.

Différence avec l'informatique décisionnelle[modifier | modifier le code]

Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de “V” supplémentaires selon l’inspiration des services marketing), la maturation du sujet fait apparaitre un autre critère plus fondamental de différence avec l'informatique décisionnelle et concernant les données et leur utilisation[44] :

  • Informatique décisionnelle : utilisation de statistique descriptive, sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ;
  • Big Data : utilisation de statistique inférentielle, sur des données à faible densité en information[45] dont le grand volume permet d’inférer des lois (régressions….) donnant dès lors (avec les limites de l’inférence) au big data des capacités prédictives[46].

Synthétiquement :

  • l'informatique "traditionnelle", informatique décisionnelle comprise, est basée sur un modèle du monde ;
  • le Big Data vise à ce que les mathématiques trouvent un modèle dans les données[47],[48].

Représentation[modifier | modifier le code]

Modèles[modifier | modifier le code]

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du Big Data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. Ces technologies, dites de Business Analytics & Optimization (BAO) permettent de gérer des bases massivement parallèles[49]. Des patrons d’architecture “Big Data Architecture framework (BDAF)”[50] sont proposés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le framework Hadoop. Avec ce système les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en parallèles (map). Les résultats sont ensuite rassemblés et récuperés (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées. Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft[51]. Les acteurs du marché s’appuient sur des systèmes à forte scalabilité horizontale et sur des solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles classiques[52].

Stockage[modifier | modifier le code]

Pour répondre aux problématiques Big Data l’architecture de stockage des systèmes doit être repensée et les modèles de stockage se multiplient en conséquence.

  • le cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et en libre service sur des ressources informatiques partagées et configurables[53]. Les services les plus connus sont ceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure.
  • les super calculateurs hybrides : Les HPC pour High Performance Computing, qu’on retrouve en France dans les centres nationaux de calculs universitaire tels quel’IDRIS, le CINES, mais aussi au CEA ou encore le HPC-LR[54]
  • Les systèmes de fichiers distribuées (DFS - Distributed files system): les données ne sont plus stockées sur une seule machine car la quantité à stocker est beaucoup trop importante. Les données, les fichiers sont "découpés" en morceaux d'une taille définie et chaque morceau est envoyé sur une machine bien précise utilisant du stockage local[55]. Le stockage local est préféré au stockage SAN/NAS pour des raisons de goulots d'étranglement au niveau du réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de type SAN coûte bien plus cher pour des performances bien moindres. Dans les systèmes de stockage distribué pour le Big Data, l'on introduit le principe de "Data locality"[56]. Les données sont sauvegardées là où elles peuvent être traitées.

Applications des big data[modifier | modifier le code]

Les big data trouvent des applications dans de nombreux domaines : programmes scientifiques (CERN28 Mastodons), outils d'entreprises (IBM29,Amazon Web Services, BigQuery, SAP HANA) parfois spécialisées (Teradata, Jaspersoft30, Pentaho31…) ou Start-up (aleph-networks[57],Bionatics[58], Hariba Médical[59], SafetyLine[60], KwypeSoft[61], Vigicolis, PredicSis[62], ainsi que dans le domaine de l'Open Source (Apache Hadoop, Infobright32, Talend33…) et de logiciels d'exploitation ouverts (avec par exemple le logiciel ouvert d'analyse de big data H2O (software)).

Recherche scientifique[modifier | modifier le code]

Le big data a un important potentiel scientifique. Ainsi, les expériences de physique du Large Hadron Collider du CERN utilisent environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde. Pour 600 millions de collisions par seconde, il reste après filtrage 100 collisions d'intérêt par seconde. En conséquence, 25 Po de données sont à stocker par an, et 200 Po après réplication[63],[64],[65]. Les outils d'analyse du big data pourrait affiner l'exploitation de ces données.

Quand le Sloan Digital Sky Survey (SDSS) a commencé à collecter des données astronomiques en 2000, il a amassé en quelques semaines plus de données que toutes celles précédemment collectées dans l’histoire de l’astronomie. Il continue à un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stocké plus de 140 teraoctets d’information. Le Large Synoptic Survey Telescope prévu pour 2015, devrait en amasser autant tous les cinq jours[66].

Décoder le permier génome humain a nécessité 10 ans, mais prend moins d'une semaine : les séquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois la loi de Moore (100 environ sur 10 ans)[67]. En biologie, les approches massives basées sur une logique d’exploration des données et de recherche d’induction sont légitimes et complémentaires des approches classiques basées sur l'hypothèse initiale formulée[68].

Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de données d’observations et de simulations climatiques[69].

Politique[modifier | modifier le code]

L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama, notamment pour analyser les opinions politiques de la population[70].

Depuis l'année 2012, le Département de la défense américain investit annuellement sur les projets de Big Data plus de 250 millions de dollars[71].

Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète[72].

La National Security Agency est actuellement en train de construire le Utah Data Center. Une fois terminé, ce data center pourra supporter des yottaoctets d’information collectés par la NSA sur internet.

En 2013, le big data faisait partie des 7 ambitions stratégiques de la France déterminées par la Commission innovation 2030[73].

Secteur privé[modifier | modifier le code]

Walmart traite plus d’un million de transactions client par heure, celles-ci sont importées dans des bases de données dont on estime qu’elles contiennent plus de 2,5 Po d’information[74]

Facebook traite 50 milliards de photos.

D’une manière générale l'exploration de données de Big Data permet l’élaboration de profils clients dont on ne supposait pas l’existence[75].

L'utilisation des données de Big Data rentre maintenant dans la stratégie de musée aussi prestigieux que le Guggenheim Museum. À l'aide de transmetteurs électroniques placé dans ses salles les visiteurs sont suivis tout au long de leur visite. Le musée peut ainsi déterminer de nouveaux parcours de visite en fonction des œuvres les plus appréciées ou encore décider des expositions à mettre en place[76].

Perspectives et évolutions[modifier | modifier le code]

L'un des principaux enjeux de productivité du Big Data dans son évolution va porter sur la logistique de l'information, c'est-à-dire sur comment garantir que l'information pertinente arrive au bon endroit au bon moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la combinaison entre les approches micro- et macro-économique d'un problème.

Selon une étude IDC, les données numériques créées dans le monde atteindraient 40 zettaoctets d'ici 2020[77]. À titre de comparaison, Facebook générait environ 10 téraoctets de données par jour au début 2013. Le développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomènes simultanément: la pénurie de disques durs due aux inondations en Thaïlande en 2011, l'explosion du marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du cloud-computing de plus en plus proche, grâce à des outils comme Dropbox, amène le big data au centre de la logistique de l'information.

Afin de pouvoir exploiter au maximum le Big Data, de nombreuses avancées doivent être faites, et ce en suivant trois axes :

Modélisation de données[modifier | modifier le code]

Les méthodes actuelles de modélisation de données ainsi que les systèmes de gestion de base de données ont été conçus pour des volumes de données très inférieurs. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter. Dans le futur il faudra des modélisations de données et des langages de requêtes permettant :

  • une représentation des données en accord avec les besoins de plusieurs disciplines scientifiques ;
  • de décrire des aspects spécifiques à une discipline (modèles de métadonnées) ;
  • de représenter la provenance des données ;
  • de représenter des informations contextuelles sur la donnée ;
  • de représenter et supporter l’incertitude ;
  • de représenter la qualité de la donnée[78].

De très nombreux autres thèmes de recherche sont liés à ce thème, citons notamment : la réduction de modèle pour les EDP, l'acquisition comprimée en imagerie, l'étude de méthodes numériques d'ordre élevé… Probabilités, statistiques, analyse numérique, équations aux dérivées partielles déterministes et stochastiques, approximation, calcul haute performance, algorithmique… Une grande partie de la communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce thème porteur.

Gestion de données[modifier | modifier le code]

Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer le principe qui veut qu’une requête sur un SGBD fournisse une réponse complète et correcte sans tenir compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que le SGBD puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui permettraient de guider le scientifique dans sa recherche[78].

Dans le domaine des données clients, il existe également de réels besoins d'exploitation de ces données, en raison notamment de la forte augmentation de leur volume des dernières années[79]. Le big data et les technologies associées permettent de répondre à différents enjeux tels que l'accélération des temps d’analyse des données clients, la capacité à analyser l’ensemble des données clients et non seulement un échantillon de celles-ci ou la récupération et la centralisation de nouvelles sources de données clients à analyser afin d’identifier des sources de valeur pour l’entreprise.

Outils de gestion des données[modifier | modifier le code]

Les outils utilisés à l’heure actuelle ne sont pas en adéquation avec les volumes de données engendrés dans l’exploration de big data. Il est nécessaire de concevoir des instruments permettant de mieux visualiser, analyser, et cataloguer les ensembles de données afin de permettre une optique de recherche guidée par la donnée[78]. La recherche en big data ne fait que commencer. La quantité de data évolue beaucoup plus rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prévoit qu'il n y aura pas suffisamment de scientifiques du data. En 2018, les États-Unis auraient besoin de 140 000 à 190 000 scientifiques spécialisés en big data[71].

Gestion de l'entropie[modifier | modifier le code]

Le déluge de données qui alimente le big data (et dont certaines sont illégales ou incontrôlées) est souvent métaphoriquement comparée à la fois à un flux continu de nourriture, de pétrole ou d’énergie (qui alimente les entreprises du data mining et secondairement la société de l’information[80]) qui expose au risque d’infobésité et pourrait être comparé à l’équivalent d’une « pollution »[37] du cyberespace et de la noosphère (métaphoriquement, le big data correspondrait pour partie à une sorte de grande marée noire informationnelle, ou à une eutrophisation diffuse mais croissante et continue du monde numérique pouvant conduire à une dystrophisation, voire à des dysfonctions au sein des écosystèmes numériques)[81].

Face à cette « entropie informationnelle » quelques réponses de type néguentropiques sont nées (wikipédia en fait partie en triant et restructurant de l’information déjà publiée).

D’autres réponses ont été la création de moteurs de recherche et d’outils d’analyse sémantique et de fouille de flots de données, de plus en plus puissants et rapides.

Néanmoins, l'analyse du big data tend lui-même à engendrer du big data, avec un besoin de stockage et de serveurs qui semble exponentiel.

Bilan énergétique[modifier | modifier le code]

Corolairement à la croissance de la masse et du flux de données, une énergie croissante est dépensée d'une part dans la course aux outils de datamining, au cryptage/décryptage et aux outils analytiques et d’authentification, et d'autre part dans la construction de fermes de serveurs qui doivent être refroidis ; au détriment du bilan énergétique et électrique du Web.

Idées reçues sur le big data[modifier | modifier le code]

En 2010, les jeux de données produites par l’homme sont de plus en plus complétés par d'autres données, massivement acquises de manière passive et automatique par un nombre croissant de capteurs électroniques et sous des formes de plus en plus interopérables et compréhensibles par les ordinateurs. Le volume de données stockées dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur internet, les uns voient dans le big data intelligemment utilisé une source d’information qui permettrait de lutter contre la pauvreté, la criminalité ou la pollution. Et à l'autre extrémité du spectre des avis, d'autres, souvent défenseurs de la confidentialité de la vie privée, en ont une vision plus sombre, craignant ou affirmant que le Big Data est plutôt un Big Brother se présentant dans de « nouveaux habits »[82], « dans des vêtements de l’entreprise »[83].

En 2011 à l'occasion d'un bilan sur 10 ans d'Internet pour la société, Danah boyd (de Microsoft Research) et Kate Crawford (University of New South Wales) dénoncaient de manière provocatrice six problèmes liés à des idées reçues sur le big data : « L’automatisation de la recherche change la définition du savoir (…) Les revendications d’objectivité et d’exactitude sont trompeuses (…) De plus grosses données ne sont pas toujours de meilleures données (…) Toutes les données ne sont pas équivalentes (…) Accessible ne signifie pas éthique (…) L’accès limité aux Big Data crée de nouvelles fractures numériques »[37] (dont entre pauvres et riches[37]) ;

Risques d'atteinte à la vie privée et aux droits fondamentaux[modifier | modifier le code]

Plusieurs types de risques sont cités par la littérature :

  • le risque de déshumanisation : Dans ce que Bruce Schneier dénomme « l’âge d’or de la surveillance », la plupart des individus peuvent se sentir déshumanisés et ils ne peuvent plus protéger les données personnelles ou non qui les concernent, et qui sont collectées, analysées et vendues à leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir échapper à une surveillance constante où à des pressions visant à les faire consommer, voter, etc.
  • le risque de faille de sécurité informatique ; dans un monde de plus en plus interconnecté et lié à l’Internet, la sécurité en ligne devient cruciale, pour la protection de la vie privée, mais aussi pour l'économie (ex : en cas de problème grave, des risques existent de perte de confiance, concernant la sécurité des processus d’achat en ligne par exemple ; ils pourraient avoir des conséquences économiques importantes) ;
  • le risque de « vassalisation de la recherche scientifique par des sociétés commerciales et leurs services de marketing » [37] ;
  • le risques d’apophénie (déductions indues)[37] ; Les biais d’accès et d’interprétation sont nombreux (« un corpus n’est pas plus scientifique ou objectif parce que l’on est en mesure d’aspirer toutes les données d’un site. D’autant qu’il existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans l’accès même à ces données qu’on aurait tort de considérer comme totales. Cet accès ne repose en effet que sur le bon vouloir de sociétés commerciales et sur les moyens financiers dont disposent chercheurs et universités) » [37] ;
    De plus, un biais lié au genre existe : la grande majorité des chercheurs experts en informatique sont aujourd’hui des hommes, or des historiennes féministes et les philosophes des sciences ont montré que le sexe de celui qui pose les questions détermine souvent les questions qui seront posées [84].
  • le risques de mésinterpréter certaines données liées à l'altérité, avec d'éventuelles conséquences sociopsychologiques, par exemple et de mauvaise compréhension ou interprétation de l’autre (« l’autre n’est pas une donnée » rappelle D. Pucheu [85]).
    Un autre risque est celui d'une « raréfaction des occasions d’exposition des individus à des choses qui n’auraient pas été pré-vues pour eux, et donc un assèchement de l’espace public (comme espace de délibération, de formation de projets non rabattus sur la seule concurrence des intérêts individuels), ces choses non pré-vues, étant précisément constitutives du commun, ou de l’espace public »[86].
  • un risque d'exacerbation de la fracture numérique, car les outils de data mining offrent à quelques entreprises un accès croissant et presque instantané à des milliards de données et de documents numérisées. Pour ceux qui savent utiliser ces données, et avec certaines limites, elles offrent aussi une certaine capacité à produire, trier ou distinguer des informations jugées stratégiques, permettant alors aussi de retenir ou au contraire de libérer avant d’autres certaines informations stratégiques [87]. Cet accès très privilégié et peu transparent à l'information peut favoriser des situations de conflits d'intérêt ou des délits d'initiés. Il existe un risque d'inégalités croissante face aux données et au pouvoir que l'on a sur elles : Manovich distingue ainsi 3 catégories d’acteurs, foncièrement inégaux face à la donnée : « ceux qui créent les données (que ce soit consciemment ou en laissant des traces numériques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compétence de les analyser »(2011).
    Ces derniers sont en faible nombre, mais très privilégiés (ils sont souvent employés par les entreprises et autres entités du big data et ont donc le meilleur accès à la donnée; ils contribuent à produire ou orienter les règles qui vont les encadrer et cadrer l’exploitation des Big Data. Des inégalités institutionnelles sont a priori inéluctables mais elles peuvent être minimisées et devraient au moins être étudiées, car elles orientent les données et les types de recherches et applications qui en découleront.
  • des risques d’appropriation monopolistique de certains jeux de mégadonnées collectées par quelques grandes entreprises (Google, Facebook...) ou par les outils publics ou secrets de grands États (ex : PRISM) visant à « capter le réel pour l'influencer »[17]) ; une énorme quantité de données est discrètement (et la plupart du temps légalement) collectée par des entreprises spécialisées ou des agences d’état ou de renseignement, dont sur les comportements d’achat et de centres d’intérêt sur l’Internet de tous les groupes et d’individus. Ces données sont stockées, et parfois piratées (Ainsi, en 2003, lors d'une recherche de failles de sécurité la société Acxiom, l'un des principaux courtiers en données s'est rendu compte que 1,6 milliards d'enregistrements de consommateurs avaient été piratés via 137 attaques informatiques faites de janvier à juillet 200 ; les informations volées incluaient des noms, adresses et des adresses e-mail de plusieurs millions d'américains[88],[89],[90],[91]). Ces données sont ensuite plus ou moins mises à jour, et éventuellement louées ou vendues pour le marketing et la publicité ciblée, des études scientifiques des organismes de sondage, des groupes d’influence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurs électeurs potentiels), etc. Les personnes dont les données circulent ainsi n’en sont généralement pas informées, n’ont pas donné de consentement éclairé et peuvent difficilement vérifier ces données ou surtout les retirer des bases de données qui les conservent pour une durée potentiellement illimitée. Des risques de production d’erreur et de mauvais usages existent (dans le domaine des assurances et prêts bancaires par exemple). D’après le reportage de F Lescalier intitulé « Big Data : les nouveaux devins » [92], 80  % des données personnelles mondiales seraient détenues par 4 grands acteurs qui sont (par ordre alphabétique) : Amazon, Apple, Facebook et Google.
  • un risque de dérives éthiquement insoutenables, déjà constatées dans la partie grise ou sombre[93] de l’internet, y compris dans les grands réseaux sociaux (dont Facebook et Twitter, qui collecte un grand nombre de données et informations sur leurs utilisateurs et les réseaux dans lesquels ils s’inscrivent[94],[95]) ; D’autres invitent à l’adoption de bonnes pratiques[96] et de règles éthiques plus strictes pour le data mining[97] et la gestion de ces mégadonnées[98],[99].
    Notamment depuis les révélations du lanceur d’alerte américain Edward Snowden[100], certains s’inquiètent de voir outre une surveillance de plus en plus invasive (voire pervasive[101]) de nos activités par les fournisseurs d’accès à Internet[102], puis fleurir des législations facilitant (sous prétexte de facilités économiques et/ou de sécurité nationale) l’usage d’outils de traçage (via les cartes de paiement, de fidélité, de santé, de pointage, les caméras de surveillance, certains smartgrids ou outils domotiques, certains objets connectés géolocalisant leur propriétaire, etc.). Certaines de ces législations facilitent ou légitiment explicitement les écoutes électroniques (écoute et analyse de conversations téléphoniques ; ’interception et analyse d’emails et de réseaux) et le suivi général des activités sur le Net, ce qui leur semble être un contexte pouvant préparer une surveillance orweillienne généralisée des individus. Ces auteurs dénoncent l’apparition de processus et d’un contexte de plus en plus orweillien [20] intrinsèquement difficiles à contrôler, et insistent sur l’importance de la protection de la vie privée[103], « même quand on a rien à cacher »[104],[105] ou (comme B. Schneier en 2008[106] ou Culnan & Williams en 2009[107]) rappellent que les notions de sécurité et de protection de la vie privée et d’autonomie de l’individu ne sont pas opposées.

Gouvernance et mégadonnées[modifier | modifier le code]

Elle nécessite un débat citoyen constant[108] ainsi que des modes de gouvernance et de surveillance adaptés[109] car des États, des groupes ou des entreprises ayant des accès privilégiés au Big data peuvent en extraire un grand nombre de « données personnelles diffuses », qui par croisement et analyse, permettent un profilage de plus en plus précis, intrusif et parfois illégal (faisant fi de la protection de la vie privée) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ou professionnel (PRIZM), de leurs activités personnelles, leurs habitudes de déplacement, d’achat et de consommation, ou encore de leur santé ; « La montée des Big Data amène aussi de grandes responsabilités »[37].

Notes et références[modifier | modifier le code]

  1. http://www.research.ibm.com/visual/projects/chromogram.html
  2. Watters, Audrey, Visualize Big Data with Flowing Media, ReadWriteWeb. 15 avril 2010
  3. Terme recommandé en France par la DGLFLF, Journal officiel du 22 août 2014, et au Canada par l'OQLF.
  4. http://www.telecom-paristech.fr/formation-continue/masteres-specialises/big-data.html.
  5. http://iucg.org/wiki/Dictionnary#Definitions.
  6. Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World, The. Foreign Aff., 92, 28.
  7. Les médias dans la moulinette du « big data », 6 janvier 2014, consulté 12 janvier 2014.
  8. Le rôle du Big Data dans la campagne présidentielle américaine en 2012
  9. Big Data : un ADN utilisateur séquençable pour moins de 1 000 $
  10. « La sécurité se met résolument au «Big Data» », LeMagIT, mars 2012.
  11. Michel Cartier, « Le "Big Data" », sur 21e siècle
  12. CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data, Tackling the Challenges of Big Data, janvier 2014, consulté 2014-01-12
  13. Gouvernement français (2012) - Investissements d’avenir – Fonds national pour la société numérique, Appel à projets no 3 - Big Data.
  14. Big Data Paris, conférence-exposition, 20-21 mars 2012.
  15. The World’s Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of 60 analog and digital technologies during the period from 1986 to 2007
  16. Gil Press (2013) « une très courte histoire du big data » Forbes.com, daté du 5 mai 2013,
  17. a et b Tréguier, V. (2014). « Mondes de données et imaginaires: vers un monde cybernétique » et [http:// dumas.ccsd.cnrs.fr/dumas-01086598/document résumé] ; Library and information sciences. 2014, PDF, 53 pages
  18. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazine for Students, 19(1), 44-49
  19. Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities. In Database Systems for Advanced Applications (pp. 1-15). Springer Berlin Heidelberg
  20. a et b Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (http://www.sciencedirect.com/science/article/pii/S1742684709700138 résumé])
  21. Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
  22. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984. Newsweek, Incorporated.
  23. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.
  24. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), Jan 1975, 6-14.
  25. hristie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault on Privacy". University of Pennsylvania Law Review, 970-991.
  26. Froomkin, A. M. (2000). The death of privacy ? ; Stanford Law Review, 1461-1543.
  27. Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
  28. Askland, A. (2006). [http://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID1406744_code1195389.pdf?abstractid=1406744&mirid=3 What, Me Worry? The Multi-Front Assault on Privacy. St. Louis University Public Law Review, 25(33), et résumé
  29. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. résumé]).
  30. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
  31. http://www.bigdataparis.com/presentation/mercredi/PDelort.pdf?PHPSESSID=tv7k70pcr3egpi2r6fi3qbjtj6#page=4
  32. http://www.amazon.com/Big-Data-Analytics-Intelligence-Businesses/dp/111814760X
  33. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
  34. http://www.journaldunet.com/solutions/expert/51696/les-3-v-du-big-data---volume--vitesse-et-variete.shtml
  35. http://www-01.ibm.com/software/data/bigdata/
  36. Manovich L (2011) ‘Trending: The Promises and the Challenges of Big Social Data’, Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].
  37. a, b, c, d, e, f, g et h Big Data : la nécessité d’un débat (traduction collaborative d’un essai de Danah boyd et Kate Crawford présentant “Six provocations au sujet du phénomène des Big Data”, présenté lors du Symposium sur les dynamiques de l’internet et de la société : “Une décennie avec Internet”, organisé par l’Oxford Internet Institute, le 21 septembre 2011), FING, Internet.Actu.Net
  38. « Étude IDC-EMC, « Extracting value from chaos » », sponsorisée par EMC Gartner, citée par Delphine Cuny sous le titre « "Big data" : la nouvelle révolution », Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
  39. « The big data révolution », Le journal, CNRS, no 28,‎ (lire en ligne).
  40. http://ercim-news.ercim.eu/en89/special/managing-large-data-volumes-from-scientific-facilities
  41. Big data : du concept à la mise en œuvre. Premiers bilans.
  42. http://www.technologyreview.com/news/423897/data-analysis-is-creating-new-business-opportunities/
  43. https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500016891&S_CMP=is_bdebook1_bda
  44. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
  45. http://www.andsi.fr/tag/dsi-big-data/
  46. http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com
  47. Delort, Le Big Data, Paris, Presses Universitaires de France,‎ , 128 p. (ISBN 978-2-13-065211-3, lire en ligne)
  48. « Le Big Data - PUF », sur www.puf.com/,‎
  49. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
  50. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
  51. http://www.zdnet.fr/actualites/explosion-des-volumes-de-donnees-de-nouvelles-architectures-s-imposent-39787579.htm
  52. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
  53. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
  54. https://www.hpc-lr.univ-montp2.fr/
  55. (en) Michel Sumbul, « HDFS », sur http://whatsbigdata.be/hdfs,‎ (consulté le 28 juillet 2014)
  56. (en) « HDFS », sur http://whatsbigdata.be/hdfs/,‎ (consulté le 28 juillet 2014)
  57. http://www.aleph-networks.com
  58. http://www.bionatics.com/
  59. http://healthstartup.eu/2012/05/top-big-data-opportunities-for-health-startups/.
  60. http://www.safety-line.fr/index.php/fr/.
  61. http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/10-jeunes-entreprises-innovantes-reperees-pour-leurs-projets-big-data.html
  62. http://www.PredicSis.com.
  63. (en) « LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public. », CERN-Brochure-2010-006-Eng. LHC Brochure, English version., CERN (consulté le 20 janvier 2013)
  64. (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers. », CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le 20 janvier 2013)
  65. Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,‎ , p. 282–83 (DOI 10.1038/469282a, lire en ligne).
  66. Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier (interviewed here)—but also big headaches, The Economist, publié 25 février 2010
  67. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data analytics and policies, en ligne sur le site de l'OCDE, mis à jour 21 juillet 2014, PDF, 14 p
  68. Delort Pierre (2012), Big data, Association Nationale des DSI, PDF 12p
  69. http://www.nasa.gov/centers/goddard/news/releases/2010/10-051.html.
  70. http://bosmol.com/2013/02/how-big-data-analysis-helped-president-obama-defeat-romney-in-2012-elections.html.
  71. a et b http://thegovlab.org/govlab-index-the-digital-universe/.
  72. http://www.informationweek.com/government/enterprise-applications/image-gallery-governments-10-most-powerf/224700271.
  73. http://www.innovation2030.org/fr/.
  74. (en) « Data, data everywhere », The Economist,‎ (lire en ligne)
  75. http://www.bayesia.com/fr/produits/bayesialab/ressources/etudes-cas/data-mining-clients.php>
  76. (en) « When the Art Is Watching You », sur Wall Street Journal,‎
  77. Régis Castagné (Interoute) : "Big Data et Cloud Computing seront intimement liés", silicon.fr, 7 novembre 2013.
  78. a, b et c http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
  79. Infographie - l’exploitation des données clients à l’ère du Big Data , blog MARKESS International
  80. Hilbert, M. (2013). Big data for development: From information-to knowledge societies. SSRN 2205145.
  81. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World et partie 2 et transcriptions écrites (en anglais), par la Chaine « Democracy Now », consulté 2015-05-08
  82. Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
  83. The Age of Big Data, article de STEVE LOHRFEB. Publié le 11, 2012 par le New-York Times
  84. Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women, knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298–320.
  85. Pucheu David, « L'altérité à l'épreuve de l'ubiquité informationnelle », Hermès, La Revue 1/2014 (n° 68) , p. 115-122 Lien vers Cairn Info
  86. Antoinette Rouvroy. (2014). "Des données sans personne: le fétichisme de la donnée à caractère personnel à l'épreuve de l'idéologie des Big Data" Contribution en marge de l'Étude annuelle du Conseil d'État. Le numérique et les droits et libertés fondamentaux. (résumé)
  87. Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
  88. http://www.dmnews.com/acxiom-hacker-gets-prison-sentence/article/87117/
  89. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott Levine was sentenced to eight years in prison, consulté 2015-05-08
  90. en anglais : "largest ever invasion and theft of personal data"
  91. Acxiom database hacker jailed for 8 years ; The Register
  92. [ http://www.tagtele.com/videos/voir/151950/ reportage diffusé par Canal+] « Big Data : les nouveaux devins »
  93. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After Internet Utopia?. PublicAffairs, juin 2012
  94. Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the age of Facebook. First Monday, 15(1).
  95. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook. Ethics and information technology, 13(4), 289-302
  96. [ http://www.technologyreview.com/news/424104/what-big-data-needs-a-code-of-ethical-practices/ What Big Data Needs]
  97. Ethical issues in data mining
  98. [ http://www.ethicsofbigdata.com/ Ethics of big Data.]
  99. http://www.cio.co.uk/insight/data-management/ethical-questions-around-big-data/ Ethical Questions around Big Data]
  100. Deléage Jean-Paul, « Avec Edward Snowden, l'homme sorti de l'ombre qui voulait éclairer le monde ! », Ecologie & politique 1/2014 (N°48) , p. 5-12 URL : http://www.cairn.info/revue-ecologie-et-politique-2014-1-page-5.htm. ; DOI : 10.3917/ecopo.048.0005
  101. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy. Faculty of Informatics-Papers, 711
  102. Ohm, P. (2009). The rise and fall of invasive ISP surveillance. University of Illinois Law Review, 30 aout 2008
  103. Tene, O., & Polonetsky, J. (2012). « Big data for all: Privacy and user control in the age of analytics”. Nw. J. Tech. & Intell. Prop., 11, xxvii
  104. Solove, D. J. (2011). Why privacy matters even if you have ‘nothing to hide’. Chronicle of Higher Education, 15
  105. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publications I've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.
  106. Schneier, B (2008). What our top spy doesn’t get: Security and privacy aren’t opposites. Wired. com.
  107. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé).
  108. Allard, L., Grosdemouge, P., & Pailler, F. Big Data: la nécessité d’un débat, Journal Le Monde.
  109. Ouellet, M., Mondoux, A., Ménard, M., Bonenfant, M., & Richert, F. (2014). "[ http://www.archipel.uqam.ca/6469/1/CRICIS_CAHIERS_2014-1.pdf Big Data", gouvernance et surveillance], Archipel.uqam.ca

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]

Sur les autres projets Wikimedia :