Allocation de Dirichlet latente

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Latent Dirichlet allocation.svg

L’allocation de Dirichlet latente (de l'anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d'expliquer des ensembles d'observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données.

Thèmes en LDA[modifier | modifier le code]

Par exemple, si les observations (β) sont les mots collectés dans un document textuel (M), la LDA suppose que chaque document (M) est un mélange (θ) d'un petit nombre de sujets ou thèmes (α topics), et que la création de chaque mot (w) est attribuable (probabilités) à l'un des thèmes (t) du document. La LDA est un exemple de « modèle de sujet » . Elle a d'abord été présentée comme un modèle graphique pour l'analyse de sujets, par David Blei, Andrew Ng et Michael Jordan en 2002. Les applications de la LDA sont nombreuses, notamment en fouille de données et en traitement automatique des langues.

Fonctionnement[modifier | modifier le code]

On fixe un nombre K de thèmes et on cherche à apprendre les thèmes représentés dans chaque document et les mots associés à ces thèmes.

Initialisation[modifier | modifier le code]

On attribue un thème à chaque mot de chaque document, selon une distribution de Dirichlet sur un ensemble de K thèmes.
, avec et est une distribution de Dirichlet avec un paramètre symetrique creux ()

Ceci génère un premier "topic-model": des thèmes présents dans les documents et les mots définissant les thème. Ce topic-model est très peu vraisemblable car généré aléatoirement.

Apprentissage[modifier | modifier le code]

On cherche à améliorer le topic-model généré aléatoirement en initialisation. Pour cela, dans chaque document, on prend chaque mot et on met à jour le thème auquel il est lié. Ce nouveau thème est celui qui aurait la plus forte probabilité de le générer dans ce document. On fait donc l'hypothèse que tous les thèmes sont corrects, sauf pour le mot en question.

Plus précisément : pour chaque mot (w) de chaque document (d), on calcule deux choses pour chaque thème (t) :

  1. p(thème t | document d): la probabilité que le document d soit assigné au thème t
  2. p(mot w | thème t): la probabilité que le thème t dans le corpus soit assigné au mot w

On choisit alors le nouveau thème t avec la probabilité p(thème t | document d) * p(mot w | thème t). Ceci correspond à la probabilité que le thème t génère le mot w dans le document d.

En répétant les étapes précédentes un grand nombre de fois, les assignations se stabilisent. On obtient le mélange de thème présent dans chaque document en comptant chaque représentation d'un thème (assigné aux mots du document). On obtient les mots associés à chaque thème en comptant les mots qui y sont associés dans le corpus.

Bibliographie[modifier | modifier le code]

  • (en) D. Blei, A. Ng, and M. Jordan (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, lire en ligne
  • (en) Thomas L. Griffiths and Mark Steyvers and David M. Blei and Joshua Tenenbaum (2005). Integrating topics and syntax. Proceedings of NIPS*17, Vancouver, CA.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]