→N'hésitez pas à publier sur le brouillon un texte inachevé et à le modifier autant que vous le souhaitez.
→ Pour enregistrer vos modifications au brouillon, il est nécessaire de cliquer sur le bouton bleu : « Publier les modifications ». Il n'y a pas d'enregistrement automatique.
Si votre but est de publier un nouvel article, votre brouillon doit respecter les points suivants :
Utilisez un ton neutre, qui ne soit ni orienté ni publicitaire (aide).
Veillez également à structurer votre article, de manière à ce qu'il soit conforme aux autres pages de l'encyclopédie (structurer – mettre en page).
→ Si ces points sont respectés, pour transformer votre brouillon en article, utilisez le bouton « publier le brouillon » en haut à droite. Votre brouillon sera alors transféré dans l'espace encyclopédique.
d'un ou de types de lois de distribution candidates imposées par l'expérimentateur, la charge lui étant laissée de s'assurer du réalisme desdites lois pour représenter le phénomène qu'il observe,
ces méthodes ont pour but de déterminer :
si la grandeur observée provient d'une distribution unique ou d'un mélange de distributions,
de quantifier le caractère significatif de l'hypothèse de mélange par rapport à l'absence de mélange,
de déterminer les paramètres des lois impliquées ainsi que les proportions du mélange.
Cette section décrit l'estimation des deux bornes de la distribution uniforme continue , au vu d'un échantillon de n individus.
Soient et les estimateurs respectifs des bornes inférieure et supérieure de la distribution mère, construits sur la base de l'échantillon contenant les modalités de la variable aléatoire issues de la distribution .
La méthode du maximum de vraisemblance aboutit à la sélection des minimum et maximum empiriques :
Démonstration
Soit la vraisemblance d'un n-échantillon tiré suivant une loi uniforme dont les deux paramètres doivent être estimés :
Maximiser la vraisemblance revient à minimiser sous les contraintes
Le couple d'estimateurs qui réalise cette maximisation est :
Ce couple d'estimateurs est biaisé : la probabilité qu'un n-échantillon capture le minimum ou le maximum permis par la distribution mère étant quasi-nulle, la moyenne d'un grand nombre d'observations sur de tels n-échantillons ne converge pas sur les bornes de ladite distribution mère :
La démonstration est produite plus bas.
Loi de distribution régissant ces estimateurs biaisés
Pour que soit compris entre et et que soit compris entre et , il faut :
que le minimum des soit compris entre et :
et que le maximum des soit compris entre et :
et que les autres soient compris entre et :
Comme n'importe quelle paire choisie parmi les peut constituer le couple (min, max) de l'échantillon, il y a arrangements possibles, d'où la probabilité énoncée.
La notion d'arrangement (plutôt que de combinaisons) découle du fait qu'être min ou max de l'échantillon ne constitue pas le même évènement, ce qui introduit une notion d'ordre.
Lois marginales régissant les minimum et maximum empiriques
le couple d'estimateurs avec biais formé par le minimum et le maximum empiriques déterminés sur un n-échantillon.
Les estimateurs considérés sont ceux avec biais car :
leurs lois de distribution sont simples à manipuler ;
le document référencé [2] montre que construire des intervalles de pari à partir des estimateurs sans biais n'aboutit pas in fine à des intervalles plus réduits pour un niveau de confiance donné, et en explique la raison.
On cherche à connaître comment se répartissent les n-échantillons possibles formés à partir de la distribution mère , en plaçant dans le plan :
sur l'axe des abscisses, la borne inférieure de la distribution mère et les minima empiriques des échantillons ;
sur l'axe des ordonnées, la borne supérieure de la distribution mère et les maxima empiriques des échantillons.
On note :
La distribution mère et la construction des estimateurs imposent la hiérarchie suivante : . Les échantillons issus de cette loi mère sont tous situés à l'intérieur du triangle rectangle formé par la droite , la droite et la première bissectrice (cf. figure ci-contre).
Un bon échantillon (i.e. un échantillon représentatif de sa population mère) se caractérise par :
un minimum empirique proche de
et un maximum empirique proche de
Le risque de pari associé à un échantillon est défini par la probabilité de trouver un échantillon plus mauvais que lui, i.e. présentant :
La surface de pari est celle qui capture la proportion des échantillons formés à partir d'une population mère donnée et connue.
Le problème dépend de la forme que l'on aura choisi de donner à cette surface, qui peut être un carré, un triangle, un quart de cercle, ... On choisit ici un triangle rectangle, de sommet et dont l'hypoténuse est parallèle à la première bissectrice (cf. figure ci-contre). La raison est que la densité de probabilité associée au couple est constante le long d'un lieu . Ceci permet de découper l'espace suivant une ligne iso-densité, minimisant ainsi la surface de pari pour capturer un effectif donné.
Les variables réduites classiques pour les distributions uniformes sont introduites afin de simplifier les calculs qui suivent :
Les relations de conversion du domaine réel en domaine réduit sont données par le tableau ci-dessous :
Échantillon {m ; M} à population {a ; b} donnée
Représentation adimensionnée
Population {a ; b} à échantillon {m ; M} donné
Exprimée dans le plan des coordonnées réduites, la surface pari au niveau de confiance est constituée par l'intérieur du triangle rectangle de sommets :
La marge réduite est reliée au risque de pari par l'équation suivante :
Démonstration
La densité de probabilité associée au couple et exprimée en fonction des variables réduites s'écrit :
La surface de pari triangulaire recherchée doit capturer la proportion des échantillons générés à partir de la poplulation mère. En s'aidant de la figure ci-dessus plaçant le domaine de pari dans le plan des coordonnées réduites, il vient :
Soit, tous calculs effectués :
D'où la relation énoncée liant à .
L'équation liant la marge réduite au risque de pari peut être résolue par la méthode du point fixe : la suite définie ci-dessous converge rapidement vers la solution, même avec une initialisation forfaitaire :
Le lieu des solutions est tracé ci-contre, en fonction de l'effectif de l'échantillon et du risque de pari .
Replacée dans le plan des coordonnées correspondant au problème réel de l'expérimentateur, la surface pari au niveau de confiance est constituée par l'intérieur du triangle rectangle de sommets :
Le point de vue est inversé par rapport à la section précédente :
le n-échantillon est connu, et le couple des minimum et maximum empiriques obtenus est ;
on veut connaître quelles populations mères auraient pu générer cet échantillon, au niveau de confiance choisi par l'expérimentateur.
Il s'agit donc de recenser les populations mères qui contiennent l'échantillon en question dans leurs surfaces de pari respectives au niveau de confiance .
L'intégrale calculée lors de la démonstration qui établit la surface de pari en coordonnées réduites reste inchangée, quelles que soient les raisons qui font varier ces coordonnées réduites :
les variations du couple à population mère fixée,
ou bien les variations des bornes de la population mère à échantillon fixé
La surface de confiance est obtenue par déréduction de la surface établie en coordonnées pour le niveau de confiance , en cherchant à échantillon fixé. Cette surface de confiance est constituée par l'intérieur du triangle rectangle de sommets :