Fréquence (statistiques)

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir fréquence (homonymie).

En statistique, on appelle fréquence absolue l'effectif des observations d'une classe et fréquence relative ou simplement fréquence, le quotient de cet effectif par celui de la population.

\text{fréquence}=\frac{\text{taille de la classe}}{\text{taille de la population}}

L'expression fréquence = valeur n'est jamais ambigüe. Si valeur est un nombre entier positif, il s'agit de la fréquence absolue, c'est-à-dire l'effectif de la classe. Si valeur est un nombre compris entre 0 et 1 ou un pourcentage, il s'agit de la fréquence relative.

L'intérêt du calcul d'une fréquence est de permettre des comparaisons entre des séries d'observations portant sur des populations inégalement nombreuses. L'expression en pourcentage facilite les comparaisons[1].

Pour les populations très nombreuses, la probabilité qu'une observation prise au hasard appartienne à une classe est égale à la fréquence de cette classe.

Propriétés[modifier | modifier le code]

La liste des fréquences s'appelle distribution des fréquences[2].

La somme de l'effectif de toutes les classes étant l'effectif de la population, la somme de leurs fréquences relatives est toujours égale à 1 (100%).

Il possible de retrouver les effectifs d'une série statistique à partir de ses fréquences et de l'effectif de la population totale, aux arrondis près.

Précautions[modifier | modifier le code]

Pour la détermination des fréquences, les observations doivent d'abord être divisées en classes. Pour que le résultat soit pertinent, il est nécessaire de choisir le critère de classement de telle sorte que l'effectif des classes soit suffisant. Si, en effet, l'effectif d'une classe est trop faible, une action marginale sur le critère de classement pourrait affecter le résultat.

Exemple  :

Soit une population de 100 personnes ayant entre 18 et 26 ans, dont on veut établir la répartition des âges. Si on répartit la population par classe d'âge à 0,1 an près, certains dixièmes d'année auront un effectif de 0 ou 1, et certaines de ces valeurs pourraient changer selon l'origine de l'échelle des temps. On aurait alors deux résultats différents, bien qu'il n'y ait qu'une seule population. Il faut donc des classes d'âge adaptées.

Si on décide, par exemple, que la classe d'âge la moins nombreuse doit réunir au moins dix individus, on sera sans doute amené à des classes de deux ans.

Pour répondre à ce problème, on constitue souvent des classes définies de telle façon que leur fréquence soit déterminée à l'avance. Une telle classe, dont le critère s'adapte à la fréquence à obtenir, s'appelle un quantile. Quand la fréquence est un quart, c'est un quartile ; si c'est un dixième, un décile ; de même pour un centième, un centile. Avec cette méthode, le résultat de l'analyse statistique est le critère de classement[3].

Dans le résumé statistique d'une série d'observations, l'utilisation des fréquences et des pourcentages peut masquer un résultat non significatif. Pour être significative, une fréquence doit être égale à plusieurs fois l'inverse de l'effectif de la population.

Fréquences cumulées[modifier | modifier le code]

Lorsqu'on constitue les classes à partir de variables quantitatives, on peut calculer des fréquences cumulées, qui sont celles de l'effectif de la classe constituée par la population dont l'indice est inférieur ou supérieur à une valeur.

La fréquence cumulée est égale à la somme des fréquences de toutes les classes qui la précèdent dans l'ordre de classement.

La présentation par fréquences cumulées a l'avantage de réduire le nombre de classes dont l'effectif n'est pas significatif.

Fréquences de valeurs numériques discrètes[modifier | modifier le code]

Lorsque la distribution de fréquences résume les observations pour des valeurs numériques discrètes, on peut en tirer la moyenne de ces valeurs.

Pour une série statistique dont les valeurs sont données par : \scriptstyle x_1,x_2,\dots,x_n et les fréquences par : \scriptstyle f_1,f_2,\dots,f_n,

la moyenne est donnée par : \bar{x}=f_1 x_1+f_2 x_2+\dots +f_n x_n=\sum_{i=1}^n f_i x_i.

Exemple — longueur moyenne des mots à partir de la distribution des longueurs
La distribution des fréquences du nombre de lettres par mot de la langue française, établie sur une population des 228 mots de 10 pages du petit Robert, édition 1973, est donnée par le tableau :
Nombres de lettres 4 5 6 7 8 9 10 11 12 13 14 15 16
Fréquences \scriptstyle\frac{7}{228} \scriptstyle\frac{12}{228} \scriptstyle\frac{31}{228} \scriptstyle\frac{37}{228} \scriptstyle\frac{29}{228} \scriptstyle\frac{35}{228} \scriptstyle\frac{29}{228} \scriptstyle\frac{17}{228} \scriptstyle\frac{15}{228} \scriptstyle\frac{9}{228} \scriptstyle\frac{0}{228} \scriptstyle\frac{6}{228} \scriptstyle\frac{1}{228}
pourcentage 3 % 5 % 14 % 16 % 13 % 15 % 13 % 7 % 7 % 4 % n.s. 3 % n.s.
La moyenne du la longueur des mots est \scriptstyle \bar{x}=\frac{7}{228} \times 4+\frac{12}{228} \times 5+\dots +\frac{1}{228} \times 16=8,60. Il y a ainsi 8,6 lettres en moyenne par mot (Dodge 2005, p. 48).

L'utilisation des pourcentages, arrondis à une précision qui tienne compte de l'effectif de la population, facilite les comparaisons.

Fréquences statistiques et probabilités[modifier | modifier le code]

Pour les populations très nombreuses, la probabilité qu'une observation prise au hasard appartienne à une classe est égale à la fréquence de cette classe. La fréquence, obtenue par synthèse des observations, et la probabilité, basée sur le calcul des issues possibles d'une expérience, sont des notions différentes, mais qui reposent l'une et l'autre sur un calcul des proportions[4].

Malgré ce lien formel, la distinction entre les deux est capitale, en particulier lorsqu'on cherche à déterminer la probabilité d'un évènement à partir de sa fréquence dans un échantillon. La probabilité est la chance ou risque de voir se réaliser un évènement ; tandis que la fréquence est le compte des évènements effectivement réalisés.

Compléments[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. Reuchlin 1991, p. 47.
  2. Dodge 2005, p. 23 ; Reuchlin 1991, p. 47
  3. Reuchlin 1991, p. 70-71.
  4. Henri Rouanet, Idées force, Université Paris 5, 2004.