Utilisateur:Bouftoubleu/Brouillon
Structure des solutions[1][modifier | modifier le code]
Les points du jeu de données sont séparés en 3 types :
- Les points centraux (core points)
- Les points frontières (border points)
- Les points aberrants (noise points)
Les points centraux[modifier | modifier le code]
Un point du jeu de données est dit central si :
- Son voisinage est dense
Ces points forment des composantes connexes indépendantes de l'ordre d'exploration du jeu données.
Les points frontières[modifier | modifier le code]
Un point du jeu de données est dit frontière si :
- Ce n'est pas un point central
- Il appartient au voisinage d'un point central
Ces points viennent s'agréger autour des composantes connexes pour former des groupes. Ces groupes sont couramment appelées par leur nom anglais : Clusters.
Contrairement aux composantes connexes, la formation des clusters est dépendantes de l'ordre d'exploration du jeu de données.
Les points aberrants[modifier | modifier le code]
Un point du jeu de données est dit aberrant si :
- Ce n'est pas un point central
- Ce n'est pas un point frontière
Ces points sont donc tous les autres point du jeu de données.
Attention, le nom donné à ces points peut être trompeur car leur désignation dépend des paramètres choisis.
Concepts mathématiques sous-jacent[modifier | modifier le code]
Voisinage d'un point[modifier | modifier le code]
La notion de voisinage est le concept élémentaire à la base de la méthode DBSCAN. Il permet de définir mathématiquement les voisinages denses qui sont utilisé pour la localisation des points centraux et l'expansion des clusters.
Distance entre points[modifier | modifier le code]
En mathématiques, on appelle distance sur un ensemble E toute application d définie sur le produit E2 = E×E et à valeurs dans l'ensemble ℝ+ des réels positifs,
vérifiant les propriétés suivantes
Nom | Propriété |
---|---|
symétrie | |
séparation | |
inégalité triangulaire |
Le choix de la distance entre points est un paramètre implicite à la méthode DBSCAN.
Dans le cas de DBSCAN, c'est communément la distance euclidienne qui est utilisée.
Boule ouverte de rayon de epsilon[modifier | modifier le code]
Dans l'espace usuel comme dans n'importe quel espace métrique :
La boule ouverte est l'ensemble des points de l'espace dont la distance au point est strictement inférieure à :
Les caractéristiques des boules dépendent de deux éléments :
- La forme des boules est liée à la distance (paramètre implicite à DBSCAN).
- L'espace couvert dépend du rayon choisie (paramètre explicite à DBSCAN).
Epsilon-voisinage[modifier | modifier le code]
L'-voisinage d'un point , est l'ensemble des points du jeu de données situés dans la boule ouverte centrée en et de rayon :
Les points du jeu de données sélectionnés reposent sur les boules ouvertes et sont donc dépendants des paramètres suivants :
- La distance entre les points et
- Le rayon de recherche autour du point
Epsilon-voisinage dense[modifier | modifier le code]
Un -voisinage est dit dense si son cardinal est supérieur ou égal à .
Cette définition est la première qui dépend des 3 paramètres de DBSCAN :
- Le nombre minimum de points pour qu'un voisinage soit désigné dense.
- Le rayon du voisinage autour du point considéré.
- La distance entre points.
Relations basées sur la densité[modifier | modifier le code]
Les relations binaires qui suivent sont utilisés pour effectuer des démonstrations sur la méthode DBSCAN, et plus généralement en apprentissage non supervisé basé sur la densité.
Directement accessible par densité[modifier | modifier le code]
Un point du jeu de données est directement accessible par densité depuis un autre point si :
- est dense
Accessible par densité[modifier | modifier le code]
Un point du jeu de données est accessible par densité depuis un autre point si il existe une séquence ordonnée de points tel que :
- est directement accessible par densité depuis
Densément connecté[modifier | modifier le code]
Un point du jeu de données est densément connecté à un autre point si :
- est accessible par densité depuis
- est accessible par densité depuis
Classe et cluster[modifier | modifier le code]
Relation d'équivalence[modifier | modifier le code]
Classe d'équivalence[modifier | modifier le code]
Cluster[modifier | modifier le code]
Avantages et inconvénients[modifier | modifier le code]
Avantages[modifier | modifier le code]
Inconvénients[modifier | modifier le code]
- (en) Michael Hahsler, Matthew Piekenbrock et Derek Doran, « dbscan : Fast Density-Based Clustering with R », Journal of Statistical Software, vol. 91, no 1, (ISSN 1548-7660, DOI 10.18637/jss.v091.i01, lire en ligne, consulté le )