Indice de Sørensen-Dice

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

L'indice de Sørensen-Dice, connu aussi sous les noms d'indice de Sørensen, coefficient de Dice et d'autres noms encore (donnés plus bas dans la section Noms) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen (en)[1] et Lee Raymond Dice (en)[2] dans des articles publiés en 1948 et 1945 respectivement.

Noms et variantes[modifier | modifier le code]

L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski[3].

L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms :

Formule[modifier | modifier le code]

Pour des ensembles finis quelconques X et Y, l'indice s'exprime par :

.

Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y :

.

Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités[5]. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit[6] :

nt est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, nx est le nombre de digrammes dans x et ny le nombre de digrammes dans y. Par exemple, pour calculer la similarité entre :

night et nacht,

on calcule les digrammes de chaque mot :

ni,ig,gh,ht
na,ac,ch,ht

Chaque ensemble a quatre éléments, et leur intersection se réduit au seul élément ht. Avec la formule donnée ci-dessus, on obtient

.

Différence avec l'indice de Jaccard[modifier | modifier le code]

Le coefficient n'est pas très différent, dans sa forme, de l'indice de Jaccard qui est

.

Toutefois, il ne vérifie pas l'inégalité triangulaire, et il ne peut être vu que comme une version « semi-métrique » de l'indice de Jaccard[3]. Contrairement à l’indice de Jaccard, la fonction

n'est pas une distance puis qu'elle ne vérifie pas l'inégalité triangulaire. Le contre-exemple le plus simple est donné par les trois ensembles {a}, {b}, et {a,b}. La distance entre {a} et {b} est égale à 1, alors que la distance de ces deux ensembles au troisième, {a,b}, est 1/3. Pour satisfaire l'inégalité triangulaire, la distance entre {a} et {b}, qui est égale à 1, devrait être inférieure à la somme des deux autres distances, qui n’est que 2/3.

Applications[modifier | modifier le code]

Le coefficient de Sørensen-Dice est utilisé pour les données rencontrées dans la communauté écologique[7]. La raison de cet usage est plutôt empirique que théorique, même s'il peut être justifié théoriquement comme intersection de deux ensembles flous[8]. En comparaison avec la distance euclidienne, la distance de Sørensen est fine dans les ensembles hétérogènes de données, et donne moins de poids aux cas déviants[9]. Le coefficient de Dice et ses variantes trouvent un usage en lexicographie infographique, où il intervient dans la mesure du score d'association lexicale de deux mots[10],[11].

Articles liés[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. Thorvald Sørensen, « A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons », Biologiske Skrifter/Kongelige Danske Videnskabernes Selskab, vol. 5, no 4,‎ , p. 1–34
  2. Lee R. Dice, « Measures of the Amount of Ecologic Association Between Species », Ecology, vol. 26, no 3,‎ , p. 297–302 (DOI 10.2307/1932409, JSTOR 1932409)
  3. a b c d e et f Eugene D. Gallagher, « COMPAH Documentation », University of Massachusetts, Boston, (consulté le 2 décembre 2015).
  4. J. Roger Bray et J. T. Curtis, « An Ordination of the Upland Forest Communities of Southern Wisconsin », Ecological Monographs, vol. 27, no 4,‎ , p. 326–349 (DOI 10.2307/1942268)
  5. Cornelis Joost van Rijsbergen, Information Retrieval, London, Butterworths, (ISBN 3-642-12274-4)
  6. Grzegorz Kondrak, Daniel Marcu et Kevin Knight, « Cognates Can Improve Statistical Translation Models », Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,‎ , p. 46–48 (lire en ligne)
  7. Par exemple : J. Looman et J. B. Campbell, « Adaptation of Sorensen's K (1948) for estimating unit affinities in prairie vegetation », Ecology, vol. 41, no 3,‎ , p. 409–416 (JSTOR 1933315).
  8. David W. Roberts, « Ordination on the basis of fuzzy set theory », Vegetatio, Kluwer Academic Publishers, vol. 66, no 3,‎ , p. 123-131 (ISSN 0042-3106, DOI 10.1007/BF00039905).
  9. Bruce McCune et James Grace, Analysis of Ecological Communities, Gleneden Beach, OR, Mjm Software Design, (ISBN 0-9721290-0-6).
  10. Rychlý, P. (2008) A lexicographer-friendly association score. Proceedings of the Second Workshop on Recent Advances in Slavonic Natural Language Processing RASLAN 2008: 6–9
  11. Matthieu Constant, « Similarité entre les mots », Master Informatique, Université Paris-Est Marne-la-Vallée, (consulté le 1er décembre 2015)

Lien externe[modifier | modifier le code]

Sur les autres projets Wikimedia :

  • Dice/Sorensen. Implémentation de l'indice de Dice/Sorenson dans le cadre du projet StringMetric, une bibliothèque de mesures de similarité et d'algorithmes phonétiques, en langage Scala.