Échantillon (statistiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Échantillon.

En statistique, un échantillon est un ensemble d'individus représentatifs d'une population. L'objectif est d'obtenir une meilleure connaissance de la population par l'étude du seul échantillon. Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population.

L'acte de sélection s'appelle l'échantillonnage. Pour garantir une bonne représentation, il s'agit en général d'un échantillon aléatoire, totalement ou partiellement. La statistique s'est donc intéressée aux principes d'échantillonnage, dans le but de garantir ou au moins d'estimer la fiabilité de conclusions tirées de l'étude d'échantillons, mais étendues aux populations entières. Quelques unes des préoccupations de la théorie de l'échantillonnage sont :

  • la capacité à capter la diversité du phénomène étudié ;
  • l'absence de biais ou erreur systématique ;
  • le lien entre la taille de l'échantillon et la confiance que l'on peut accorder à la généralisation des résultats.

Méthode[modifier | modifier le code]

La stratégie d'échantillonnage constitue une étape essentielle de la conception des expériences scientifiques, avec ou sans traitement expérimental particulier, c'est-à-dire incluant les mesures sur un objet (metrologie) ainsi que, par exemple, les suivis environnementaux et la biométrie.

Les statisticiens supposent la population d'une taille donnée et lui associent une loi de probabilité, c'est le rôle de l'inférence statistique ou statistique mathématique. Dans ces conditions, l'échantillon est interprété comme un ensemble de variables aléatoires dont on possède une réalisation supposée issue de tirages indépendants. L'analyse des propriétés de l'échantillon permet d'estimer certaines caractéristiques de la population, de déterminer la validité de ces estimations ou de certaines hypothèses.

Dans les sondages d'opinion la théorie statistique obligerait à tenir à jour la liste des membres de la population, tirer au sort les heureux élus et interroger ceux-ci à l'exclusion de tous les autres. C'est évidemment impossible et les instituts tentent de bâtir ce qu'ils nomment un échantillon représentatif. Celui-ci doit obéir à un certain nombre de règles afin de s'assurer de sa représentativité qui exige l'indépendance des réponses. Le problème concerne la validité d'un tel choix. Il semblerait que, mieux elle est assurée, plus on se rapproche d'un sondage aléatoire avec ses limites parfaitement déterminées par la théorie (une enquête effectuée sur 1000 personnes a 95 chances sur 100 de donner le résultat correct à ±3 % près, d'après le calcul de l'intervalle de fluctuation). Selon la plupart des instituts leurs résultats seraient meilleurs, ce qui demanderait quelques justifications.


La taille d'échantillon se calcule avec la formule suivante:

n = t² * p * (1-p) / m²
  • n: Taille d'échantillon minimale pour l'obtention de résultats significatifs pour un événement et un niveau de risque fixé
  • t: Niveau de confiance (la valeur type du niveau de confiance de 95 % sera 1,96)
  • p: Probabilité de réalisation de l'événement
  • m: Marge d'erreur (généralement fixée à 5 %)

Ainsi, pour un événement ayant une probabilité de réalisation de 40 %, en prenant un niveau de confiance de 95 % et une marge d'erreur de 5 %, la taille d'échantillon devra être de

n = 1,96² * 0,4 * 0,6 / 0,05² = 368,79

soit 369 individus.

Articles connexes[modifier | modifier le code]