Loi de Pareto (probabilités)

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Distribution de Pareto)
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour les articles homonymes, voir Loi de Pareto.
Pareto
Image illustrative de l'article Loi de Pareto (probabilités)
Densité de probabilité (ou fonction de masse)
Fonctions de masse pour plusieurs k  avec xm = 1. L'axe horizontal symbolise le paramètre x . Lorsque k→∞ la distribution s'approche de δ(x − xm) où δ est la fonction Delta de Dirac.

Image illustrative de l'article Loi de Pareto (probabilités)
Fonction de répartition
Fonctions de répartition pour plusieurs k  avec xm = 1. L'axe horizontal symbolise le paramètre x'

Paramètres x_{\mathrm{m}}>0 location (réel)
k>0 forme (réel)
Support x \in [x_{\mathrm{m}} ; +\infty)\!
Densité de probabilité (fonction de masse) \frac{k\,x_{\mathrm{m}}^k}{x^{k+1}}\!
Fonction de répartition 1-\left(\frac{x_{\mathrm{m}}}{x}\right)^{k}\!
Espérance \frac{k\,x_{\mathrm{m}}}{k-1}\! pour k>1
Médiane x_{\mathrm{m}} \sqrt[k]{2}
Mode x_{\mathrm{m}}
Variance \frac{x_{\mathrm{m}}^2k}{(k-1)^2(k-2)}\! pour k>2
Asymétrie \frac{2(1+k)}{k-3}\,\sqrt{\frac{k-2}{k}}\! pour k>3
Kurtosis normalisé \frac{6(k^3+k^2-6k-2)}{k(k-3)(k-4)}\! pour k>4
Entropie \ln\left(\frac{k}{x_{\mathrm{m}}}\right) - \frac{1}{k} - 1\!
Fonction génératrice des moments non définie pour les réels strictement positifs
Fonction caractéristique k(-ix_{\mathrm{m}}t)^k\Gamma(-k,-ix_{\mathrm{m}}t)

La distribution de Pareto est un type particulier de loi de puissance qui a des applications en sciences physiques et sociales. Elle permet notamment de donner une base théorique au « principe des 80-20 », aussi appelé principe de Pareto.

Définition[modifier | modifier le code]

Soit la variable aléatoire X qui suit une loi de Pareto de paramètres (x_{\mathrm{m}},k), avec k un réel positif, alors la distribution est caractérisée par :

\mathbb{P}(X>x)=\left(\frac{x}{x_{\mathrm{m}}}\right)^{-k} avec x \ge x_{\mathrm{m}}

Distributions de probabilité[modifier | modifier le code]

Les distributions de Pareto sont des distributions continues. La loi de Zipf, parfois nommée distribution Zeta[précision nécessaire], peut être considérée comme l'équivalent discret de la loi de Pareto.

Il suit, de la définition donnée précédemment, que la densité de probabilité de X vérifie : f(x;k,x_{\mathrm{m}}) = k\,\frac{x_{\mathrm{m}}^k}{x^{k+1}} pour x \ge x_{\mathrm{m}}.

Le paramètre k est souvent nommé indice de Pareto.

Moments[modifier | modifier le code]

L'espérance d'une variable aléatoire suivant une loi de Pareto est

 \mathbb E(X)=\frac{kx_{\mathrm{m}}}{k-1} \,

(si k ≤ 1, l'espérance est infinie).

Sa variance est

\mathrm{Var}(X)=\left(\frac{x_{\mathrm{m}}}{k-1}\right)^2 \frac{k}{k-2}

(De nouveau : si k \le 2, la variance est infinie).

Les moments d'ordre supérieur sont donnés par :

\mu_n'=\frac{kx_\mathrm{m}^n}{k-n} \,

mais ils ne sont définis que pour k>n.

Cela signifie que la fonction génératrice (la série de Taylor en x où les \mu_n'/n! sont pris pour coefficients) n'est pas définie. Cette propriété est vraie en général pour les variables aléatoires présentant une « queue longue ».

La fonction caractéristique est donnée par :

\varphi(t;k,x_{\mathrm{m}})=k(-ix_{\mathrm{m}} t)^k\Gamma(-k,-ix_{\mathrm{m}} t)

Γ(a,x) est la fonction gamma incomplète.

La distribution de Pareto est reliée à la distribution exponentielle par :

f(x;k,x_\mathrm{m})=\mathcal{E}\left(\ln \left(\frac{x}{x_\mathrm{m}}\right);k\right)\,

La fonction delta de Dirac est un cas limite de la distribution de Pareto :

\lim_{k\rightarrow \infty} f(x;k,x_\mathrm{m})=\delta(x-x_\mathrm{m}).

Propriétés[modifier | modifier le code]

La distribution de Pareto est à queue longue, ce qui signifie que :

\lim_{x\rightarrow \infty} \mathbb P(X>x+y|X>x)=1 pour y>0[réf. nécessaire].

Par exemple, si X est le temps de vie d'un composant, plus il a vécu (X>x) plus il a de chances de vivre longtemps : le système rajeunit.

On peut pallier l'inconvénient « longue queue » dans d'autres applications des distributions de Pareto telles que la distribution par taille des entreprises exprimée en nombre d'employés ou en chiffre d'affaires ou d'autres entités mesurables par taille dont la limite théorique est infinie en utilisant une échelle log-log après transformations appropriées des données analysées. Le phénomène longue queue est causé par une variable pouvant atteindre des valeurs très grandes, valeurs pour lesquelles le nombre d'observations devient très petit ; en revanche le nombre d'observations pour les petites valeurs de la taille analysée sont souvent très élevées. Dans ce cas, on a le phénomène symétrique de la longue queue : le long pic initial. Dans le cas de distributions de Pareto, le passage en coordonnées log-log transforme en ligne droite la courbe dont la forme originale est une hyperbole très étirée en abscisse (longue queue ou heavytailed) et ordonnée (hautes valeurs à la base)...

Applications[modifier | modifier le code]

Cette loi est un outil fondamental en gestion de la qualité. Elle est aussi utilisée en réassurance. La théorie des files d'attente s'est intéressée à cette distribution, lorsque des recherches des années 1990 ont montré que cette loi régissait aussi nombre de grandeurs observées dans le trafic Internet (et plus généralement sur tous les réseaux de données à grande vitesse). Ce phénomène a de sévères répercussions sur les performances des systèmes (routeurs en particulier).

Cette loi permet aussi d'analyser les phénomènes de concentration des entreprises industrielles et commerciales en fonction de leur taille exprimée en nombres d'employés. Une des représentations graphiques habituelles est obtenue en utilisant une double échelle logarithmique (log-log), représentation qu'avait lui-même utilisée Wilfredo Pareto. Dans ce cas la courbe se transforme en une ligne droite au-delà d'une certaine taille (tout comme pour la distribution des revenus des ménages qu'avait étudiée Pareto).

Autres domaines d'application : la distribution des ordinateurs en fonction de diverses mesures de leur taille (taille de la mémoire centrale, taille de la mémoire du disque dur), distribution des centraux téléphoniques privés en fonction du nombre de postes connectés.

Sources[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Notes et références[modifier | modifier le code]