Science des données

Les différentes disciplines de la science des données.

Partie de	Science
Pratiqué par	Scientifique de données (en), architecte de données
Objet	Donnée

En termes généraux, la science des données est l’extraction de connaissance d’ensembles de données^[1]^,^[2].

La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées. Elle est souvent associée aux données massives et à l'analyse des données.

Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information.

Parmi elles : les modèles probabilistes, l’apprentissage automatique, l’apprentissage statistique, la programmation informatique, l’ingénierie de données, la reconnaissance de formes, la visualisation de données, l’analytique prophétique, la modélisation d’incertitude, le stockage de données, la géovisualisation^[3], la compression de données et le calcul à haute performance. Les méthodes qui s’adaptent aux données de masse sont particulièrement intéressantes dans la science des données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données.

La science des données (en anglais data science^[4]) est une discipline qui s'appuie sur des outils mathématiques, de statistiques, d’informatique (cette science est principalement une « science des données numériques »^[5]) et de visualisation des données. Elle est en plein développement, dans le monde universitaire ainsi que dans le secteur privé et le secteur public. Moore en 1991 a défini la statistique comme la science des données^[6] (définition reprise par d’autres, dont James T. McClave et al. en 1997^[7]) et U. Beck en 2001^[8] oppose la science des données à la science de l’expérience, voyant une dissociation croissante entre ces deux types de science, que tendrait selon lui à encourager une société de la gestion du risque au sein d’une « civilisation du danger »^[9].

Rôle du data scientist

Le premier objectif du « data scientist » est de produire des méthodes de tri et d’analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d’en extraire des informations utiles ou potentiellement utiles.

Pour cela, le « scientifique des données » exerce ses activités selon 4 étapes :

La fouille de données,
Le nettoyage/formatage des données (data wrangling)
Le traitement des données
- Traitements classiques (fonctions mathématiques)
- Traitements d'apprentissage automatique
- Visualisation de données
L'exploitation des résultats
- Tableaux de bords et outils d'aides à la décisions (pouvant être notamment intégrés sur des sites web)
- Publications de résultats de recherche (interne à l'entreprise, ou publics)

Le datascientist est donc souvent appelé à manipuler les statistiques, le traitement du signal. Il s'intéresse donc à la classification, au nettoyage, à l'exploration et à l'analyse de bases de données plus ou moins interopérables.

Objectifs

Les objectifs de la datascience sont multiples :

Au sein du monde de la recherche et des universités, cette science permet simplement de mieux produire, valoriser et mémoriser la connaissance (savoir et savoir-faire). À titre d'exemple, un projet « Paris-Saclay Center for Data Science » est porté par l'Université Paris-Saclay ^[10].
Au sein des entreprises privées ou nationales, le scientifique des données rend l'information plus facile à exploiter, à protéger et à valoriser.
Au sein des collectivités territoriales et des agences gouvernementales ou de structures intergouvernementales (GIEC par exemple), il s'agit de permettre une production et une utilisation plus efficiente des données et des statistiques, au service d'outils de retour d'expérience (REX), d'outils d'aide à la décision, d'évaluation et de production de bonnes pratiques en matière de gouvernance et de politiques publiques. Ainsi les États-Unis ont-ils en 2009 créé un poste de Chief technology officer (occupé par Dhanurjay "DJ" Patil, un mathématicien né en 1969).

En réponse à la complexité croissante de la science des données, des partenariats s'établissent entre collectivités, universités, grandes écoles et secteur privé, ce travail étant pris en charge en interne ou sous-traité par une entreprise spécialisée.

Histoire

Le terme science des données (data science en anglais) a été forgé lors du 2^e colloque franco-japonais de statistique tenu à l’Université Montpellier II (France). Les participants ont reconnu l’émergence d’une nouvelle discipline au cœur de laquelle se trouvent des données de toutes origines, tailles, types et structures. Cette activité doit s’appuyer sur des concepts et des principes reconnus de la statistique et de l’analyse des données tout en exploitant pleinement la puissance croissante des outils informatiques. En 2001, William Cleveland reprenait essentiellement les mêmes idées dans un article programmatique paru en 2001 « Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics » qui précise les contours de cette discipline émergente.

Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité).

Elle a reçu beaucoup d'attention dernièrement grâce à l’intérêt grandissant pour les "données massives". Cependant, la science des données ne se limite pas à l’étude de bases de données pouvant être qualifiées de "données massives".

Par ailleurs, l'essor de techniques d’apprentissage automatique (en anglais machine learning) et d’intelligence artificielle a également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs en passant, par exemple, de l’analyse statistique pure de données fortement structurées à l’analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles »^[11].

Formation : Cette science nouvelle a naturellement généré « l'émergence d'une nouvelle filière de formation : « data scientists » »^[12].

En France

Cette science s’inscrit dans les efforts d’accompagnement du numérique, en lien depuis qu’elle existe avec la mission Etalab, dont le directeur, Henri Verdier, est aussi « administrateur général des données de l’État », assisté par des scientifiques de données recrutés pour « accélérer la possibilité de politiques publiques « augmentées » par les données et leur analyse ».

Domaines d'utilisation

Parmi les plus grands utilisateurs de la science des données figurent (par ordre alphabétique)

Aéronautique
Automobile^[12]
Agriculture^[12]
Assurance^[12]
Banque & finance, dont "Trading financier"^[12]
Distribution^[12]
Econométrie, économie
Énergie^[12]
Géographie^[13]
industrie manufacturière ^[12]
Médias (ex : journalisme de données) & loisirs^[12]
Météorologie
Moteurs de recherche
Services (industrie des services)^[12]
Santé publique^[12] (ex : épidémiologie, toxicologie, écotoxicologie...)
TIC, télécommunications^[12]
Tourisme
Transport
Urbanisme, villes intelligentes, smartgrid
Publicité
commerce électronique
Environnement
Climat

Compétences métier

À ne pas confondre avec l’analyse métier et l’ingénierie des données, le scientifique de données va plus loin que l’analyste de données, notamment en utilisant l’apprentissage automatique.

Pour cela, il doit être rigoureux, mais curieux et créatif, capable de trouver les données les plus adéquates pour une question et avoir une pensée structurée lui permettant de décomposer et organiser les questions et les processus^[14].

Il doit savoir manipuler et nettoyer les données et les préparer dans un format adapté à l’analyse. Il doit aussi maitriser les sciences des données qui nécessitent une expertise pluridisciplinaire^[14]. Son expertise recouvre les domaines scientifiques, méthodologiques, statistiques (maitrise des statistiques descriptives ; moyennes, médianes, variance, déviation, distributions de probabilités, échantillonnage, statistiques inférentielles, etc.), des outils d'ingénierie logicielle du domaine (ex. SAS, R), de l'algorithmique de l'apprentissage automatique, de l'apprentissage profond. Pour déduire des tendances prospectives probables et de bons modèles prédictifs, il peut également s'appuyer sur des bibliothèques (ex. TensorFlow, Keras, PyTorch). Évidemment, ces découvertes s'appuient tant les données du passé et du présent. Il doit maîtriser au moins un langage de programmation (Python, R, Java, Julia, Perl ou C/C++) et un langage de requête de base de données (SQL)^[14]. Le scientifique de données doit aussi maîtriser les questions de régression et de classification, d'apprentissage supervisé ou non supervisé. Il doit aussi avoir de solides compétences en droit des données et une maitrise des aspects éthiques et sociaux, notamment concernant la confidentialité, l'anonymisation, la sécurité des données sensibles (données personnelles et de santé notamment)^[14].

La maîtrise de la plateforme Hadoop, d'outils de traitement (ex. Hive, Pig...), d'outils d'infonuagique (ex Amazon S3) et la gestion de données non structurées (ex. données issues des réseaux sociaux, de flux vidéo ou audio) est un avantage et peut être requise par certains employeurs. Des notions d'intelligence artificielle sont de plus en plus requises (réseaux de neurones artificiels, etc.)^[14]. In fine, le scientifique de données doit idéalement aussi être pédagogique, notamment par la maîtrise de la visualisation de données, et il doit être en mesure de déployer les modèles d'apprentissage automatique qu'il a mis au point (c'est-à-dire les rendre utilisables par des non-spécialistes)^[14]. En rendant les modèles utilisables par les non spécialistes, le scientifique de données crée un « produit de données » (Data product). Celui-ci peut être une application sur un portable ou une application web. Les utilisateurs de R développent généralement leurs produits de données sur Shiny.

Selon Le Big Data 88 % des scientifiques de données ont au moins une maitrise (master) et 46 % un doctorat. Parmi ces scientifiques de données, 32 % proviennent du domaine des mathématiques et des statistiques, 19 % des sciences informatiques et 16 % d'écoles d’ingénieurs^[14].

Selon le classement des 25 ou 50 « meilleurs » métiers du monde fait aux États-Unis par le site de recherche d’emploi Glassdoor, celui de Data Scientist arrivait en tête, devant les « ingénieurs DevOps » et les « Data Technicians »^[14].

Évolutions attendues du métier

Gartner inc., estime que plus de 40 % des tâches du scientifique des données seront rapidement automatisées (avant 2020), ce qui devrait favoriser une augmentation de leur productivité, mais aussi l’apparition de « citoyens scientifiques de données » (citizen data scientists en anglais) et d’approches collaborative (ex. Wikidata, Wikipédia).

Des questions éthiques et de démocratie se posent avec les vols massifs de données personnelles ou les usages manipulateurs de données. Un exemple d'usage qui pose des questions éthiques et qui peut influencer la démocratie est celui du scandale de Facebook et Cambridge Analytica/AggregateIQ. Un usage douteux, voire illégal, de données massives d'utilisateurs de réseaux sociaux a été utilisé au profit de quelques candidats (ex Donald Trump en contexte d’élections aux États-Unis) ou d’idéologies (ex. en faveur du parti du Brexit lors du référendum sur l’appartenance du Royaume-Uni à l’Union européenne). Des conséquences peuvent s’en suivre, notamment dans le contexte du Brexit où le Royaume-Uni a finalement quitté l’Union européenne.

Outils

Le datascientist travaille de manière générale dans un environnement adapté au traitement des données, le "DataScience Studio" ou DSS^{[Information douteuse]} ^{[réf. nécessaire]}. Cet environnement est en général une suite logicielle implémentant le pipeline de traitement des données et notamment les opérations de machine learning.

Salaires

Selon Glassdoor, le salaire annuel d’un scientifique de données est en moyenne de 116 840 dollars et fin janvier^[Quand ?] Glassdoor estimait à 1 736 le nombre d’offres d’emploi. Le salaire annuel moyen d’un scientifique de données américain serait de 110 000 dollars, tandis qu’en France il serait entre 45 000 et 50 000 euros^{[réf. nécessaire]}. Malgré l’apparition de nombreuses formations, les employeurs peinent encore à trouver des profils assez qualifiés.

Selon les plateformes de Freelance, le TJM (tarif journalier moyen) pour les "data Scientist" en freelancing se situe à 570 euros en moyenne pour les profils séniors et peut aller jusqu'à 1100 euros pour des projets d'envergures et complexes.

Notes et références

↑ (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, n^o 12,‎ décembre 2013, p. 64-73 (DOI 10.1145/2500499, lire en ligne).
↑ (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats, 12 décembre 2014 (consulté le 25 mars 2015).
↑ « Roque Leal », sur roqueleal.me (consulté le 19 juin 2020).
↑ Davenport et DJ Patil « Data Scientist: The Sexiest Job of the 21st Century », Harvard Business Review, 2012
↑ Gossiaux J.F (1998) L'ethnologie au bout du compte (No. 30, p. 153-163). Ministère de la culture/Maison des sciences de l’homme.
↑ Moore, D. S. (1991), Teaching statistics as a respectable subject. In Gordon, F. and S. Gordon (eds.), Statistics for the twenty-first century, 14-25, Mathematical Association of America.
↑ McClave, James T. et co. (1997) Statistics , Prentice Hall, New Jersey
↑ Beck U (2001) La politique dans la société du risque (Vol. 17, No. 1, p. 376-392). La Découverte.
↑ Beck, U. (2001). La politique dans la société du risque (Vol. 17, No. 1, p. 376-392). La Découverte.
↑ Kégl B (2014) La science des données pour les données de la science. In 9th Journées Informatique de l'IN2P3-IRFU.(résumé)
↑ Stage Recherche-M2 : Mise en correspondance debases de données etdedonnées textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier)
↑ ^{a b c d e f g h i j k et l} Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)
↑ « Data Science Blog », sur France Data Science Blog, 2020 (consulté le 19 juin 2020).
↑ ^{a b c d e f g et h} +Bastien L, « Voici toutes les compétences nécessaires pour devenir Data Scientist », sur LeBigData.fr, 25 février 2021 (consulté le 9 mars 2021).

Voir aussi

Sur les autres projets Wikimedia :

Science des données, sur Wikimedia Commons

Bibliographie

(en) William Cleveland, « Data Science : An Action Plan for Expanding the Technical Areas of the Field of Statistics », International Statistical Review / Revue internationale de statistique, vol. 69,‎ 2001, p. 21-26
Serge Abiteboul, Sciences des données : De la logique du premier ordre à la Toile, Fayard, coll. « Collège de France », 2012 (lire en ligne)
(en) Rachel Schutt et Cathy O'Neil, Doing Data Science : Straight Talk from the Frontline, O'Reilly Media, octobre 2013, 406 p. (ISBN 978-1-4493-5865-5)

Articles connexes

Liens externes

[1] (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, n^o 12,‎ décembre 2013, p. 64-73 (DOI 10.1145/2500499, lire en ligne).

[2] (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats, 12 décembre 2014 (consulté le 25 mars 2015).

[3] « Roque Leal », sur roqueleal.me (consulté le 19 juin 2020).

[4] Davenport et DJ Patil « Data Scientist: The Sexiest Job of the 21st Century », Harvard Business Review, 2012

[5] Gossiaux J.F (1998) L'ethnologie au bout du compte (No. 30, p. 153-163). Ministère de la culture/Maison des sciences de l’homme.

[6] Moore, D. S. (1991), Teaching statistics as a respectable subject. In Gordon, F. and S. Gordon (eds.), Statistics for the twenty-first century, 14-25, Mathematical Association of America.

[7] McClave, James T. et co. (1997) Statistics , Prentice Hall, New Jersey

[8] Beck U (2001) La politique dans la société du risque (Vol. 17, No. 1, p. 376-392). La Découverte.

[9] Beck, U. (2001). La politique dans la société du risque (Vol. 17, No. 1, p. 376-392). La Découverte.

[10] Kégl B (2014) La science des données pour les données de la science. In 9th Journées Informatique de l'IN2P3-IRFU.(résumé)

[11] Stage Recherche-M2 : Mise en correspondance debases de données etdedonnées textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier)

[Inria2014-12] {a b c d e f g h i j k et l} Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)

[13] « Data Science Blog », sur France Data Science Blog, 2020 (consulté le 19 juin 2020).

[Metier25février2021-14] {a b c d e f g et h} +Bastien L, « Voici toutes les compétences nécessaires pour devenir Data Scientist », sur LeBigData.fr, 25 février 2021 (consulté le 9 mars 2021).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

v · m Big data
Méthodes	Algorithme de fouille de flots de données Analyse des données Parallélisme
Services	Centre de données Cloud computing Opinion mining Opt in Opt out
Exploration de données	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Glossaire de l'exploration de données
Outils	Base de données relationnelle Hadoop Logiciels de fouille de données Robot d'indexation Système de gestion de base de données NoSQL NewSQL Technologies matérielles dédiées
Organismes	Union internationale des télécommunications
Histoire d'Internet Révolution numérique Science des données Données ouvertes

v · m Science des données
Concepts	MapReduce Apprentissage profond Extreme learning machine Apprentissage automatique Apprentissage supervisé Apprentissage non supervisé Réseau de neurones artificiels Représentation graphique de données Exploration de données Textemining Segmentation Intelligence artificielle Big data Data Lineage
Architecture	Hadoop Cloudera Hortonworks Apache Hive NoSQL NewSQL HBase Cassandra Apache Spark
Outils	Presto Apache Impala Pig Tableau Software Elasticsearch MongoDB Apache Mahout Scikit-learn TensorFlow Theano (logiciel) SPSS JMP Dataiku Apache MXNet ONNX Apache SINGA Keras
Programmation	R Ggplot2 SAS Python Julia SQL Scala
Statistique	ACP AFC ACM Méthode des moindres carrés Analyse des données Homoscédasticité Knn Cartes de Kohonen Statistique multivariée Théorème de Bayes Analyse de la variance Test du χ² Distance de Cook
Articles liés	Watson Teradata Glossaire de l'exploration de données Extract-transform-load Traitement analytique en ligne

v · m Informatique théorique
Codage	Codage de l'information Compression de données Chiffrement Cryptanalyse Cryptographie Théorie de l'information
Modèles de calcul	Calculabilité Décidabilité et indécidabilité Ensemble récursif Problème de l'arrêt Ensemble récursivement énumérable Machine de Turing Thèse de Church Automate cellulaire Réseau de neurones artificiels Réduction polynomiale Problème NP-complet Principe de Church-Turing-Deutsch
Algorithmique	Algorithmique Algorithme glouton Algorithme probabiliste Algorithme génétique Complexité algorithmique Analyse d'algorithme Diviser pour régner Heuristique Programmation dynamique Géométrie algorithmique Algorithmes de tri Algorithmique du texte Exploration de données Science des données Apprentissage profond Test de primalité Structure de données Arbre enraciné Concurrence Parallélisme
Syntaxe	Réécriture Compilation Expression régulière Grammaire formelle Langage rationnel Ensemble rationnel Théorie des langages Théorie des automates Automate fini Automate sur les mots infinis Automate d'arbres Automate à pile Hiérarchie de Chomsky Linguistique informatique
Sémantique	Interprétation abstraite Méthodes formelles Vérification de modèles Sémantique des langages de programmation Sémantique dénotationnelle Sémantique axiomatique Sémantique opérationnelle
Logique mathématique	Assistant de preuve Calcul des prédicats Correspondance de Curry-Howard Fonction récursive Lambda-calcul Théorèmes d'incomplétude de Gödel Théorie des types
Mathématiques discrètes	Combinatoire Algorithme du simplexe Optimisation combinatoire Théorie des graphes Algorithmes de la théorie des graphes Recherche opérationnelle Théorie de la décision Analyse numérique