Caltech 101

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Caltech 101 est une base d'images numérisées créée en septembre 2003, compilée par plusieurs chercheurs à l'Institut des Technologies de California, comme Fei-Fei Li, Marco Andeetto, Marc 'Aurelio Ranzato et Pietro Perona. Elle a pour objectif de facilier les recherches et le développement de la technologie de vision cognitive, c'est-à-dire permettre à la machine de « comprendre » ce qu'elle « voit ».

Elle est applicable aux techniques de reconnaissance, classification et de catégorisation. Caltech 101 contient un total de 9146 images, classées en 101 types d'objets (par exemple visages, pianos, montres...) et une catégorie d'image arrière-plan. Tout ceci est fourni avec des descriptions de chaque image, avec un script Matlab pour la visualisation.

Contexte[modifier | modifier le code]

L'élaboration de cette base d'images part d'un constat assez simple. La majorité des machines cognitives et les algorithmes d'apprentissage nécessitent une connaissance d'un nombre assez élevé d'exemples, cela dit, une liste longue et variée de données. Par exemple, la méthode de Viola et Jones a nécessité l'apprentissage de quelque 4916 visages auparavant. Le problème c'est que l'acquisition d'un tel large volume d'images, qui sont également appropriées est souvent difficile. D'autre part, le redimensionnement d'un grand nombre d'images et trouver celles intéressantes est souvent une tâche pénible. La base d'images de Caltech 101 a pour but de résoudre ces problèmes en prenant en charge la fourniture d'une base d'images prête, disponible et facilement accessible.

Avantages[modifier | modifier le code]

Une présentation et une taille d’images uniformes.
En effet, toutes les images dans chaque catégorie sont uniformes en taille et en termes de position relative aux objets d’intérêt. Ce qui veut dire que les utilisateurs de Caltech 101 n’ont pas besoin de perdre du temps dans le découpage et le redimensionnement des images avant qu'elles soient utilisées.

Un niveau faible de clusters.
Les algorithmes qui s’intéressent à la reconnaissance fonctionnent dans la majorité du temps par la sauvegarde des caractéristiques uniques à l’objet à reconnaître. Toutefois, l’arrière-plan des images prises sont très hétérogènes. Ceci cause un éventuel fonctionnement incorrect à cause du mauvais ordonnancement.

Une description détaillée des images.

Inconvénients[modifier | modifier le code]

En revanche, Caltech 101 présente des limites et faiblesses.

La base de d’images contient un nombre limité de catégories qui ne représentent qu’une petite fraction des objets dont ils peuvent être le sujet de reconnaissance.

Plusieurs catégories ne contiennent que peu d’images. Ce qui veut dire l’apprentissage exclusivement par ces images est insuffisant pour rendre l’algorithme capable de reconnaître ce type d’objet.

Les images sont très uniformes dans leur présentation, alignées à gauche ou à droite, et non complexes. Ainsi, elles ne sont pas toujours représentatives des cas pratiques. En réalité, les objets à reconnaître sont plus désordonnés et comportent des fluctuations dans les positions relatives, ainsi que leurs orientations.