Méthode médiane-médiane

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Droite d'ajustement d'un nuage de points selon la méthode médiane-médiane

La méthode médiane-médiane, également appelée droite robuste de Tukey (resistant line), est une méthode de régression linéaire à deux dimensions[1]. Le terme « robuste » provient du fait que la méthode utilise le calcul de médianes, qui, contrairement au carré de la distance utilisé dans la méthode des moindres carrés, est peu perturbé par la présence de points aberrants.

Historique[modifier | modifier le code]

La première méthode de régression par les médianes est proposée par Wald en 1940[2]. La méthode consiste à

  1. Séparer l'échantillon en deux parties égale selon la médiane de x ; une à gauche et une à droite.
  2. Calculer le centre de gravité (isobarycentre) de chacune des parties, (xG, yG) et (xD, yD).
  3. La droite retenue passe par ces deux points.

En 1942, Nair et Shrivastava[3] proposent une méthode similaire mais en divisant l'échantillon en trois parties selon les terciles. Les barycentres sur la partie de gauche et celle de droite servent à déterminer la pente de la droite de régression, et le barycentre de la partie centrale sert à ajuster l'ordonnée à l'origine.

En 1951, Brown and Mood[4] reprennent la méthode de Wald, mais remplacent le barycentre par le calcul des médianes en x et en y. En 1971, Tukey[5] s'inspire de ces méthodes pour proposer sa « droite robuste ».

Exposé de la méthode[modifier | modifier le code]

Considérons un nuage de points (xi, yi)1 ≤ in, supposées corrélées linéairement :

y = β0 + β1x + ε

Nous séparons ce nuage en trois parties égales selon les terciles des x. Pour chacune des trois régions, notées de gauche à droite I, II et III, nous calculons la médiane des x et des y, ce qui donne trois points notées , et .

Les points extrêmes MI et MIII servent à calculer la pente de la droite. On a donc

Puis, on considère la droite (MIMIII), et la droite parallèle à celle-ci mais passant par le point MII. La droite de régression que l'on retient passe entre ces deux droites, au tiers de la distance du côté de la droite (MIMIII). L'ordonnée à l'origine est donc :

Avantages et inconvénients[modifier | modifier le code]

La méthode médiane-médiane est simple à mettre en œuvre : elle nécessite peu de calcul, essentiellement à séparer l'échantillon en six parties égales. Par exemple, si l'échantillon comporte 100 points classés par ordre croissant des x, alors il suffit de repérer les points n°17, 50 et 83 ; ou plus précisément, de relever la valeur du point n° 50, et les moyennes des points (16 ; 17) et (83 ; 84) (puisque 100/6 = 16,66…). Elle est simple à comprendre, et donc peut être appliquée par des personnes ne possédant pas de notions de statistiques ; cela permet par exemple d'introduire la notion de régression linéaire assez tôt dans les études.

Comme déjà énoncé, cette méthode est peu perturbée par des points aberrants.

Par contre, elle ne s'applique qu'aux problèmes à deux variables, et ne permet pas de déterminer l'incertitude sur les valeurs β0 et β1 obtenues. En particulier, elle ne permet pas de faire les tests de non nullité.

Notes et références[modifier | modifier le code]

  1. (en) Elizabeth J. Walters, Christopher H. Morrell et Richard E. Auer, « An Investigation of the Median-Median Method of Linear Regression », Journal of Statistics Education, vol. 14, no 2,‎ (lire en ligne)
  2. Abraham Wald, « The Fitting of Straight Lines if Both Variables Are Subject to Error », Annals of Mathematical Statistics, no 11,‎ , p. 282-300.
  3. K. R. Nair et M. P. Shrivastava, « On a Simple Method of Curve Fitting », Sankhaya, no 6,‎ , p. 121-132
  4. G. W. Brown et A. M. Mood, « On Median Tests for Linear Hypotheses », Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press,‎ , p. 159-166
  5. J. W. Tukey, Exploratory Data Analysis, Reading, Addison-Wesley,

Article connexe[modifier | modifier le code]