Science des données

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

En termes généraux, la science de données est l'extraction de connaissance de données[1],[2]. Elle emploie des techniques et des théories dessinées (tirées) de beaucoup de champs (domaines) dans les larges zones (domaines) de mathématiques, la statistique, la théorie de l'information et la technologie de l'information, y compris le traitement de signal, des modèles de probabilité, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes et l'apprentissage, la visualisation, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la compression de données et le calcul à haute performance. Les méthodes qui s'adaptent aux données de masse sont particulièrement intéressantes dans la science de données, bien que la discipline ne soit généralement pas considérée comme limité à ces données.

Les différentes disciplines de la sciences de données

La science des données (en anglais data science[3]) est une nouvelle discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique (cette science est principalement une « science des données numériques »[4] et de visualisation des données. Elle est en plein développement, dans le monde universitaire ainsi que dans le secteur privé et le secteur public. Moore en 1991 a défini la statistique comme la science des données[5] (définition reprise par d'autres dont par exemple James T. McClave et al. en 1997[6]) et U. Beck en 2001[7] oppose la science des données à la science de l'expérience, voyant une dissociation croissante entre ces deux types de science, que tendrait selon lui à encourager une société de la gestion du risque au sein d'une « civilisation du danger »[8].

Objectifs[modifier | modifier le code]

Le premier objectif du « data scientists » est de produire des méthodes (automatisées, tant que possible) de tri et analyse de données massives et de sources plus ou moins complexes ou déconnectées de données, afin d'en extraire des informations utiles ou potentiellement utiles.

Pour cela, le "scientifique des données" s'appuie sur la fouille de données, les statistiques, le traitement du signal, diverses méthodes de référencement, apprentissage automatique et la visualisation de données. Il s'intéresse donc à la classification, au nettoyage, à l'exploration et à l'analyse et à la protection de bases de données plus ou moins interopérables.

En réponse à la complexité croissante de la science des données, des partenariats s'établissent entre collectivités, universités, grandes écoles et secteur privé, ce travail étant pris en charge en interne par un ou sous-traité par une entreprise spécialisée.

Histoire[modifier | modifier le code]

Le terme semble avoir été inventé par William Cleveland dans un article programmatique paru en 2001 intitulé « Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics ».

Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité).

Elle a reçu beaucoup d'attention dernièrement grâce à l'intérêt grandissant pour le "Big Data". Cependant la data science ne se limite pas à l'étude de bases de données pouvant être qualifiées de "Big Data".

Par ailleurs l'essor de techniques d'apprentissage automatique (en anglais machine learning) et d'intelligence artificielle ont également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs (passant par exemple de l'analyse statistique pure de données fortement structurées à l'analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles »[10].

Formation : Cette science nouvelle a naturellement généré « l'émergence d'une nouvelle filière de formation : « data scientists » »[11].

En France[modifier | modifier le code]

Cette science s'inscrit dans les efforts d'accompagnement du numérique, en lien depuis qu'elle existe avec la mission Etalab (dont le directeur, Henri Verdier, est aussi « administrateur général des données de l’État », assisté par des data-scientists recrutés pour « accélérer la possibilité de politiques publiques « augmentées » par les données et leur analyse »Un data scientist à Washington pour enrichir l’action du gouvernement

Domaines d'utilisation[modifier | modifier le code]

Parmi les plus grands utilisateurs de la science des données figurent (par ordre alphabétique)

Conditions[modifier | modifier le code]

Les travaux liés aux sciences des données nécessitent une expertise largement pluridisciplinaire dans les domaines scientifiques, méthodologiques, des outils logiciels et des compétences en matière de droit des données, et de maitrise des aspects éthiques et sociaux, confidentialité, anonymisation, sécurité liés à certaines données (données personnelles et de santé notamment).

Notes et références[modifier | modifier le code]

  1. (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, no 12,‎ , p. 64-73 (ISSN 10.1145/2500499, lire en ligne)
  2. (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats,‎ (consulté le 25 mars 2015)
  3. Davenport et DJ Patil « Data Scientist: The Sexiest Job of the 21st Century », Harvard Business Review, 2012
  4. Gossiaux J.F (1998) L'ethnologie au bout du compte (No. 30, pp. 153-163). Ministère de la culture/Maison des sciences de l’homme.
  5. Moore, D. S. (1991), Teaching statistics as a respectable subject. In Gordon, F. and S. Gordon (eds.), Statistics for the twenty-first century, 14-25, Mathematical Association of America.
  6. McClave, James T. et co. (1997) Statistics , Prentice Hall, New Jersey
  7. Beck U (2001) La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
  8. Beck, U. (2001). La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
  9. Kégl B (2014) La science des données pour les données de la science. In 9th Journées Informatique de l'IN2P3-IRFU.(résumé)
  10. Stage Recherche-M2 : Mise en correspondance debases de données etdedonnées textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier)
  11. a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p et q Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :

Articles connexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • (en) William Cleveland, « Data Science : An Action Plan for Expanding the Technical Areas of the Field of Statistics », International Statistical Review / Revue internationale de statistique, vol. 69,‎
  • Serge Abiteboul, Sciences des données : De la logique du premier ordre à la Toile, Fayard, coll. « Collège de France »,‎ (lire en ligne)
  • (en) Rachel Schutt et Cathy O'Neil, Doing Data Science : Straight Talk from the Frontline, O'Reilly Media,‎ , 406 p. (ISBN 978-1-4493-5865-5)

Liens externes[modifier | modifier le code]