Régression (statistiques)

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 1 février 2020 à 09:55 et modifiée en dernier par 79.92.1.143 (discuter). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

La régression est un ensemble de méthodes statistiques très utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres.

Pendant longtemps, la régression d'une variable aléatoire sur le vecteur de variables aléatoires désignait la moyenne conditionnelle de sachant . Aujourd'hui, le terme de régression désigne tout élément de la distribution conditionnelle de sachant , considérée comme une fonction de . On peut par exemple s'intéresser à la moyenne conditionnelle, à la médiane conditionnelle, au mode conditionnel, à la variance conditionnelle[1]...

Le terme « régression » a été introduit par Francis Galton à la suite d'une étude sur la taille des descendants de personnes de grande taille, qui diminue de générations en générations vers une taille moyenne (donc leur taille régresse)[2],[3].

En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification. Certaines méthodes, comme la régression logistique, sont à la fois des méthodes de régression au sens où il s'agit de prédire la probabilité d'appartenir à chacune des classes et des méthodes de classification[4].

Principaux modèles de régression

Le modèle de régression le plus connu est le modèle de régression linéaire.

Lorsque le modèle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.

Si on s'intéresse au quantile conditionnel de la distribution de la variable aléatoire sachant le vecteur de variables aléatoires , on utilise un modèle de régression quantile[5],[6].

Si la variable expliquée est une variable aléatoire binomiale, il est courant d'utiliser une régression logistique ou un modèle probit.

Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modèle de régression non paramétrique.

Voir aussi

Références

  1. Manski 1991
  2. (en) Robert G. Mogull, Second-Semester Applied Statistics, Kendall/Hunt Publishing Company, (ISBN 0-7575-1181-3), p. 59
  3. Galton 1989
  4. James et al. 2013, p. 28
  5. (en) Roger Koenker et G. Bassett, « Regression quantiles », Econometrica,‎ , p. 33-50
  6. (en) Roger Koenker, Quantile Regression, Cambridge University Press,

Bibliographie