Réduction de la dimensionnalité
La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension. Pour que l'opération soit utile il faut que les données en sortie représentent bien les données d'entrée.
Définition et buts
[modifier | modifier le code]La réduction de dimensionnalité consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension[1],[2].
La raison pour laquelle une telle opération est utile est que les données de plus petites dimension peuvent être traitées plus rapidement[1]. Cette opération est cruciale en apprentissage automatique par exemple, pour lutter contre le fléau de la dimension.
Approches
[modifier | modifier le code]Il existe plusieurs approches pour faire cette opération, et plusieurs objectifs possibles à atteindre. Les méthodes classiques sont la sélection de caractéristiques qui consiste à sélectionner un ensemble de variables qui vont être conservées, et l'extraction de caractéristiques qui consiste à créer de nouvelles variables plus pertinentes[1]. Des méthodes plus récentes, qui se basent sur un processus de diffusion, permettent de réduire la dimension des données tout en préservant leurs structures locales et globales[3].
Analyse en composantes principales
[modifier | modifier le code]L'analyse en composantes principales (ACP) est une méthode de réduction de la dimensionalité transformant des variables corrélées entre elles en nouvelles variables décorrelées entre elles. Les différentes composantes principales sont choisies successivement en maximisant la projection du nuage de points sur la composante, tout en étant orthogonales aux composantes précédentes. On calcule un taux de variance expliquée (en anglais, "explained variance ratio") pour chaque composante principale. On représente en général les résultats de la variance expliquée à l'aide d'un diagramme en barres, ou en projetant les variables sur un cercle de corrélation.
Algorithme t-SNE
[modifier | modifier le code]L'algorithme t-SNE (anglais pour t-distributed stochastic neighbor embedding) est une méthode de réduction de la dimensionalité modélisant les similarités entre les paires de points dans chaque dimension par des lois de probabilité. Cette méthode est basée sur SNE, une méthode antérieure de réduction de la dimensionalité. Le "t" de la méthode tire son nom de la loi de Student utilisée pour modéliser les similarités entre les points en petite dimension[4]. t-SNE a obtenu de bons résultats sur des espaces de grande dimension comme MNIST.
UMAP
[modifier | modifier le code]UMAP (anglais pour Uniform Manifold Approximation and Projection)[5] est une autre méthode de réduction de la dimensionalité similaire à t-SNE, mais qui base sa théorie sur la géométrie riemannienne (l'étude des variétés riemanniennes).
Notes et références
[modifier | modifier le code]- Christian Gagné, « Réduction de la dimensionnalité », sur Université de Laval
- Hassan Chouaib, Sélection de caractéristiques : méthodes et applications (thèse de doctorat), (lire en ligne).
- (en) Kevin R. Moon, David van Dijk, Zheng Wang, Scott Gigante et al., « Visualizing structure and transitions in high-dimensional biological data », Nature Biotechnology, vol. 37, no 12, , p. 1482–1492 (ISSN 1546-1696, PMID 31796933, PMCID PMC7073148, DOI 10.1038/s41587-019-0336-3, lire en ligne, consulté le )
- (en) Laurens van der Maaten, « Visualising data using t-SNE », Journal of Machine Learning Research, vol. 9, , p. 2579-2605 (lire en ligne [PDF])
- (en) Leland McInnes, « UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction », arXiv, (lire en ligne [PDF])