Méthode ziggourat

La méthode ziggourat est un algorithme pour engendrer des nombres aléatoires de loi non uniforme. Il s'agit d'une méthode de rejet et peut être choisie pour simuler une variable aléatoire ayant une densité strictement monotone. Cette méthode peut aussi être appliquée à des lois symétriques unimodales telles que la loi normale en choisissant un point sur l'une des moitiés et en choisissant le côté aléatoirement. Cette méthode a été développée par George Marsaglia et Wai Wan Tsang^[1].

Comme la plupart des algorithmes de ce type, il suppose que l'on dispose d'un générateur de nombres aléatoires de loi uniforme, en général un générateur pseudo-aléatoire. Dans la plupart des cas, comme la loi normale ou la loi exponentielle, l'algorithme consiste à engendrer un nombre flottant, un index aléatoire de table, faire une recherche dans une table, une multiplication et une comparaison. Cet algorithme est considérablement plus rapide que les autres méthodes pour simuler des variables aléatoires de loi normale, comme la méthode de Box-Muller qui requièrent de calculer une racine carrée ou un logarithme. D'un autre côté, cette méthode est plus complexe à mettre en œuvre et nécessite des tables précalculées, de sorte qu'il vaut mieux l'utiliser lorsque l'on a besoin de nombres aléatoires en grande quantité.

Le nom de cette méthode provient du fait qu'elle couvre la densité de la loi avec des segments rectangulaires empilés par ordre de taille décroissant, ce qui ressemble donc à une ziggourat.

Théorie[modifier | modifier le code]

La méthode ziggourat est une méthode de rejet. La position d'un point est engendrée aléatoirement à l'intérieur d'une courbe délimitant une surface légèrement plus grande que celle délimitée par la densité de la loi considérée. On teste alors si ce point se trouve dans cette dernière surface. Si c'est le cas, on retourne l'abscisse du point. Sinon, on rejette ce point et on en tire un nouveau.

Pour construire la surface qui recouvre la densité, on choisit une surface composée de n régions de tailles égales, dont n-1 sont des rectangles empilés au-dessus d'une région non rectangulaire qui couvre la queue de la densité de la loi.

Si $f$ est la densité de la loi à simuler, la base de la ziggourat se compose donc d'un rectangle allant dont le coin inférieur gauche a pour coordonnées (0 ; 0) et le coin supérieur a pour coordonnées $(x 0, f (x 0))$ , et de l'ensemble des points situés sous la courbe $(x, f (x))$ pour $x \geq x 0$ . Cette couche délimite une région d'aire $A$ . On place au-dessus une région rectangulaire dont le coin inférieur gauche est $(0 , f (x 0))$ et le coin supérieur droit $(x 1, f (x 1))$ , où $x 1$ est pour que l'aire de ce rectangle soit égale à $A$ . On construit de même un rectangle de coordonnées définies par $(0 , f (x 1))$ et $(x 2, f (x 2))$ d'aire $A$ . On construit ainsi une suite de points $x 0, x 1,..., x n$ pour un nombre n de couches donné à l'avance (typiquement, n-256). Les coordonnées des points $x 0, x 1,..., x n$ dépendent de n.

En ignorant pour l'instant le problème de la première couche qui n'est pas rectangulaire, l'algorithme est le suivant :

On choisit aléatoirement de façon une couche i avec une probabilité 1/n.
Si i = 0, on utilise alors un algorithme spécifique (voir plus bas)
On se donne une réalisation $U 0$ d'une variable aléatoire uniforme sur [0 ; 1[
On pose $x' = U 0 x i -1$
Si $x'\leq x_{i}$ , alors on retourne x'
Sinon on se donne une réalisation $U 1$ d'une variable aléatoire uniforme sur [0 ; 1[
On calcule $y'=y_{i-1}+U_{1}(y_{i}-y_{i-1})$ avec $y_{j}=f(x_{j})$
Si $f(x')>y'$ , on retourne x'
Sinon, on recommence l'algorithme depuis le début.

Pour une loi dont la densité est symétrique, il suffit juste de tester si $|x'|\leq x_{i}$ en utilisant pour $U 0$ une variable aléatoire uniforme sur ]-1 ; 1[.

Algorithmes pour la queue de la densité[modifier | modifier le code]

Lorsque la densité à un support non compact (comme c'est le cas pour la loi normale, la loi exponentielle...), il est alors nécessaire d'utiliser un algorithme spécifique lorsque la première tranche est sélectionnée. Cet algorithme dépend de la loi.

La première couche peut se diviser en une région centrale rectangulaire, et une région avec une queue infinie. On peut utiliser le même algorithme en ajoutant un point fictif $x_{-1}=A/y_{0}$ et en tirant un point $x=U_{0}x_{-1}$ où $U 0$ une réalisation d'une variable aléatoire uniforme sur [0 ; 1 [. Si $x\leq x_{0}$ , on retourne $x$ . Sinon, on a besoin de tirer une réalisation de cette variable aléatoire sachant qu'elle est plus grande que la valeur $x 0$ . Pour la loi exponentielle de paramètre $λ$ , cela se fait très facilement par $x=x_{0}-\ln(U)$ où U est la réalisation d'une variable aléatoire uniforme sur [0 ; 1 [.

Une autre possibilité consiste à appeler l'algorithme ziggourat de façon récursive sur la queue de la densité.

Pour la loi normale, G. Marsaglia^[2] propose la méthode suivante :

On calcule $x = -ln(U 1)/ x 0$ où $U 1$ est la réalisation d'une variable aléatoire uniforme sur [0 ; 1 [.
On calcule $y = -ln(U 2)$ où $U 2$ est la réalisation d'une variable aléatoire uniforme sur [0 ; 1 [.
Si $2 y > x 2$ alors on retourne $x + x 0$ ,
Sinon, on revient au premier pas.

Comme pour une taille de table typique (n = 128), $x 0 \approx 3,5$ , le test du pas n^o 3 est presque toujours vérifié. Puisque $-ln(U i)$ renvoie une réalisation d'une variable aléatoire exponentielle, si l'on dispose d'une méthode ziggourat pour l'exponentielle, on peut l'utiliser à cette fin.

Optimisations[modifier | modifier le code]

L'algorithme peut tourner de façon efficace en utilisant des tables précalculées pour les $x i$ et les $y i$ , mais il existe des astuces pour le rendre encore plus rapide. La principale idée est que rien ne requiert que l'on utilise pour $f$ une fonction d'aire 1. On peut donc utiliser cet algorithme sur des densités non normalisées, ce qui accélère le calcul de $f (x)$ (par exemple, pour la loi normale, on peut utiliser $f (x) = exp(- x 2 /2)$ au lieu de $f (x) = exp(- x 2 /2)/ \sqrt 2π$ ).

Comment engendrer les tables ?[modifier | modifier le code]

Il est possible de stocker dans l'algorithme la table entière des points $x i$ et $f(x_{i})$ , ou bien juste les valeurs n, $A$ et $x 0$ et de calculer les autres valeurs juste durant la phase d'initialisation des calculs.

Comment trouver $x 0$ et $A$ ?[modifier | modifier le code]

Étant donné un nombre de niveau n, on a besoin de trouver la valeur de $x 0$ et de $A$ telles que $x_{0}\times f(x_{0})+\int _{x_{0}}^{+\infty }f(t)\mathrm {d} t=A$ et $x_{n-1}\times (f(0)-f(x_{n-1}))=A$ . Pour la loi exponentielle de paramètre $λ$ , on a l'aire $\int _{x_{0}}^{+\infty }f(t)\mathrm {d} t=-\lambda ^{-1}\exp(-\lambda x_{0})$ . La fonction de répartition de la loi normale est très souvent incluse dans de nombreuses bibliothèques numériques. Pour d'autres lois, il peut être nécessaire d'utiliser des procédures d'intégration numérique. L'idée est alors d'utiliser un algorithme de recherche de zéro en partant d'une estimation initiale de $x 0$ afin de résoudre

$x_{0}\times f(x_{0})+\int _{x_{0}}^{+\infty }f(t)\mathrm {d} t=x_{n-1}\times (f(0)-f(x_{n-1}))$

en calculant les $x_{i}$ successivement jusqu'à $x_{n-1}$ de sorte que l'aire de chaque tranche soit égale à $x_{0}\times f(x_{0})+\int _{x_{0}}^{+\infty }(t)\mathrm {d} t=A$ pour une estimation donnée de $x 0$ .

Notes et références[modifier | modifier le code]

↑ (en) George Marsaglia et Wai Wan Tsang, « The Ziggurat Method for Generating Random Variables », Journal of Statistical Software, vol. 5, n^o 8,‎ 2 octobre 2000 (lire en ligne [PDF])
↑ (en) George Marsaglia, « Generating a Variable from the Tail of the Normal Distribution », ASQC and the American Statistical Association,‎ septembre 1963 (lire en ligne [PDF])

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Méthode de Box-Muller

Bibliographie[modifier | modifier le code]

(en) George Marsaglia et Wai Wan Tsang, « The Ziggurat Method for Generating Random Variables », dans Journal of Statistical Software, volume 5, n^o 8, 2000. DOI 10.18637/jss.v005.i08
(en) Jurgen A. Doornik, « An Improved Ziggurat Method to Generate Normal Random Samples », Nuffield College, Oxford.
(en) David B. Thomas, Philip G.W. Leong, Wayne Luk et John D. Villasenor, « Gaussian Random Number Generators », dans ACM Computing Surveys, volume 39, 2007. DOI 10.1145/1287620.1287622

Portail des probabilités et de la statistique

[1] (en) George Marsaglia et Wai Wan Tsang, « The Ziggurat Method for Generating Random Variables », Journal of Statistical Software, vol. 5, n^o 8,‎ 2 octobre 2000 (lire en ligne [PDF])

[2] (en) George Marsaglia, « Generating a Variable from the Tail of the Normal Distribution », ASQC and the American Statistical Association,‎ septembre 1963 (lire en ligne [PDF])

[1]

[2]