Allocation de Dirichlet latente

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Latent Dirichlet allocation.svg

L’allocation de Dirichlet latente (de l'anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d'expliquer des ensembles d'observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données.

Thèmes en LDA[modifier | modifier le code]

Par exemple, si les observations (β) sont les mots collectés dans un document textuel (M), LDA suppose que chaque document (M) est un mélange (θ) d'un petit nombre de sujets ou thèmes (α topics), et que la création de chaque mot (w) est attribuable (probabilités) à l'un des sujets (z) du document. LDA est un exemple de « modèle de sujet » et fut présenté initialement comme un modèle graphique pour l'analyse de sujets, par David Blei, Andrew Ng et Michael Jordan en 2002. Les applications de LDA sont nombreuses, notamment en fouille de données et en traitement automatique du langage naturel.

Bibliographie[modifier | modifier le code]

  • (en) D. Blei, A. Ng, and M. Jordan (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, lire en ligne
  • (en) Thomas L. Griffiths and Mark Steyvers and David M. Blei and Joshua Tenenbaum (2005). Integrating topics and syntax. Proceedings of NIPS*17, Vancouver, CA.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]