« Algorithme de Flajolet et Martin » : différence entre les versions

Contenu supprimé Contenu ajouté

Intégrés

Version du 5 février 2016 à 00:36

L'algorithme de Flajolet–Martin est un algorithme permettant d'approximer le nombre d'éléments distincts dans un flot, en une seule passe et avec une complexité logarithmique en mémoire, proportionnelle au nombre maximum d'élements distincts. Cet algorithme a été inventé en 1984 par Philippe Flajolet and G. Nigel Martin^[1], puis amélioré par Marianne Durand et Philippe Flajolet.^[2]^[3]

En 2010,^[4] Daniel M. Kane, Jelani Nelson et David P. Woodruff ont proposé un algorithme avec une complexité spatiale presque optimale et un coût de modification en O(1).

L'algorithme

L'algorithme nécessite une fonction de hashage $hash(x)$ , associant à une entrée $x$ un entier dans $[0;2^{L}-1]$ , dont les images sont uniformément réparties. L'ensemble des entiers de 0 à $2^{L}-1$ correspond en fait à l'ensemble des chaînes binaires de longueur $L$ .

Étant donné un entier positif

y

, on note

bit(y,k)

le

k

-ème bit dans la représentation binaire de

y

, de sorte que:

$y=\sum _{k\geq 0}{\text{bit}}(y,k)2^{k}$

On définit ensuite un fonction $\rho (y)$ qui associe à y la position du bit de poids faible dans sa représentation binaire :

$\rho (y)=\min _{k\geq 0}{\text{bit}}(y,k)\neq 0$

avec $\rho (0)=L$ . Par exemple, $\rho (13)=\rho (1101)=0$ car le bit de poids faible est 1, alors que $\rho (8)=\rho (0100)=2$ avec le bit de poids faible en troisième position. Étant donné que les images de la fonction de hashage sont uniformément réparties, la probabilité d'observer une valeur terminant par $2^{k}$ (un suivi de $k$ zéros) est $2^{-(k+1)}$ et correspond à obtenir $k$ piles suivi d'un face en lancant une pièce de monnaie équilibrée.

L'algorithme de Flajolet–Martin estime la cardinalité d'un multiensemble $M$ de la manière suivante :

Initialiser un vecteur BITMAP contenant $L$ zéros.
Pour chaque élement $x$ $x$ dans $M$ $M$ , effectuer :
1. index = $\rho ({\text{hash}}(x))$ .
2. $BITMAP[index]=1$ .
On note $R$ le plus petit indice $i$ tel que $BITMAP[i]=0$ .
La cardinalité de $M$ est approchée par $2^{R}/\phi$ avec $\phi \approx 0.77351$ .

Avec $n$ le nombre d'éléments distincts de $M$ , alors $BITMAP[0]$ est accédé environ $n/2$ fois, $BITMAP[1]$ accédé $n/4$ fois, etc.. Ainsi, si $i\gg \log _{2}n$ , $BITMAP[i]$ vaut certainement 0, de même que si $i\ll \log _{2}n$ , $BITMAP[i]$ vaut certainement 1. Si $i\approx \log _{2}n$ alors $BITMAP[i]$ vaut soit 1 soit 0.

Les calculs pour obtenir le facteur de correction $\phi \approx 0.77351$ sont détaillés dans l'article de Flajolet et Martin.

Voir aussi

Références

↑ Philippe Flajolet et G. Nigel Martin, « Probabilistic counting algorithms for data base applications », Journal of Computer and System Sciences, vol. 31, n^o 2,‎ 1985, p. 182–209 (DOI 10.1016/0022-0000(85)90041-8, lire en ligne)
↑ (en) Marianne Durand et Philippe Flajolet, Algorithms - ESA 2003, vol. 2832, coll. « Lecture Notes in Computer Science », 2003, 605 p. (ISBN 978-3-540-20064-2, DOI 10.1007/978-3-540-39658-1_55), « Loglog Counting of Large Cardinalities »
↑ Philippe Flajolet, Éric Fusy, Olivier Gandouet et Frédéric Meunier, « Hyperloglog: The analysis of a near-optimal cardinality estimation algorithm », Discrete Mathematics and Theoretical Computer Science,‎ 2007, p. 127–146 (lire en ligne)
↑ (en) D. M. Kane, J. Nelson et D. P. Woodruff, Proceedings of the twenty-ninth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems of data - PODS '10, 2010 (ISBN 978-1-4503-0033-9, DOI 10.1145/1807085.1807094), « An optimal algorithm for the distinct elements problem », p. 41

Liens externes

(en) Anand Rajaraman et Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press, 27 octobre 2011, 119– (ISBN 9781139505345, lire en ligne)Mining of Massive Datasets. Cambridge University Press. pp. 119–. ISBN 9781139505345. Retrieved 9 November 2014.

[1] Philippe Flajolet et G. Nigel Martin, « Probabilistic counting algorithms for data base applications », Journal of Computer and System Sciences, vol. 31, n^o 2,‎ 1985, p. 182–209 (DOI 10.1016/0022-0000(85)90041-8, lire en ligne)

[2] (en) Marianne Durand et Philippe Flajolet, Algorithms - ESA 2003, vol. 2832, coll. « Lecture Notes in Computer Science », 2003, 605 p. (ISBN 978-3-540-20064-2, DOI 10.1007/978-3-540-39658-1_55), « Loglog Counting of Large Cardinalities »

[3] Philippe Flajolet, Éric Fusy, Olivier Gandouet et Frédéric Meunier, « Hyperloglog: The analysis of a near-optimal cardinality estimation algorithm », Discrete Mathematics and Theoretical Computer Science,‎ 2007, p. 127–146 (lire en ligne)

[4] (en) D. M. Kane, J. Nelson et D. P. Woodruff, Proceedings of the twenty-ninth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems of data - PODS '10, 2010 (ISBN 978-1-4503-0033-9, DOI 10.1145/1807085.1807094), « An optimal algorithm for the distinct elements problem », p. 41

[1]

[2]

[3]

[4]