Utilisateur:Biblio2017factmat/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

Définition[modifier | modifier le code]

La méthode de Factorisation Matricielle Non Négative (NMF) est une technique classique d’algèbre linéaire qui permet de représenter un ensemble de données en utilisant un petit nombre d’objets significatifs. Elle est employée dans différents domaines comme la physique, les statistiques, l’informatique …

Le principe de la factorisation NMF est le suivant :

Soit X une matrice (n x p) dont les valeurs sont non négatives et ne comportant aucune ligne ou colonne nulle. Pour factoriser X, il faut chercher deux matrices U(nxr) et V(rxp) contenant des valeurs positives ou nulles, tel que leur produit approche X :

                                                        X≈UV

Pour une bonne approximation de cette équation, il faut trouver un rang ‘r’ très petit devant le min(n,p).

                                                     r<<min(n,p)

Le but est de réduire les dimensions et donc avoir une représentation parcimonieuse. C’est-à-dire utiliser le minimum d’informations pour illustrer la problématique de départ.


Applications de la Factorisation Matricielle Non Négative[modifier | modifier le code]

La Factorisation Matricielle Non-Négative est connue pour la diversité de ses applications. Cette partie est consacrée à l'exposition de quelques exemples de son utilisation.[1]

Filtrage Collaboratif[modifier | modifier le code]

Le filtrage collaboratif (en anglais : collaborative filtering) est une méthode qui consiste à créer un système de proposition basé sur les évaluations et avis d’un groupe pour aider un individu.

Ce système a été dés son apparition utilisé par Amazon avec la fonctionnalité: "Les gens qui ont acheté le produit A ont aussi acheté B". En effet, c'est un algorithme qui se base sur les achats des personnes pour construire la matrice de relation entre les articles vendus[2]. Ensuite, cet algorithme retrouve les personnes susceptibles d’être intéressées par un article compte-tenu de leur dernier achat ou évaluation. Puis, une proposition est envoyée à l'utilisateur.[3]

Ce modèle de filtrage collaboratif est basé sur une factorisation matricielle à faible rang. La matrice factorisée ici est la matrice d'évaluation. Elle est le résultat du produit de la matrice "profil de l'utilisateur" et la matrice "profil du produit".

                                         M(évaluation)     =    M(Utilisateur)    x    M(Produit)

D’une part la matrice M(Utilisateur) comporte des données codifiées sur l’utilisateur comme par exemple: sa tranche d’âge, son sexe, son lieu de résidence, ses préférences …

D’autre part, la matrice M(Produit) regroupe: la catégorie du produit, sa marque …

Le processus de recommandation/prédiction


Bio-informatique[modifier | modifier le code]

Dans plusieurs domaines comme la biologie, les scientifiques rencontrent des difficultés par rapport à la gestion de la quantité importante de données dont ils disposent. Cela complique le processus d’analyse et ralentit la recherche. En biologie par exemple, pour un simple protéome, il est possible de trouver une dizaine de milliers de paires de protéines associés. Cela est valable également pour la relation entre le génome et les gènes.[4]

Cela implique qu’il faut être capable à la fois de classifier toutes ces données suivant certaines métriques relatives à ce domaine, mais en même temps les organiser pour qu’elles soient facilement interprétables.

Cette problématique est solvable grâce à la méthode de factorisation matricielle non négative.

En effet, la décomposition d'une matrice non négative V en deux matrices non négatives, W et H, peut s’effectuer par un algorithme de mise à jour multiplicative.

Dans le contexte d'une matrice d'expression génique (pxn) consistant en des observations sur p gènes provenant de n échantillons, chaque colonne de W définit un métagène et chaque colonne de H représente le motif d'expression métagène de l'échantillon correspondant.[5]

Décomposition de la matrice de base en bio-informatique


Classification de documents texte[modifier | modifier le code]

La NMF est un outil très utile dans l'exploration de données texte. Au cours des dernières années, plusieurs études ont abordé des techniques NMF et des applications réussies dans différentes bases de données, dans les valeurs des données étant non négatives.

Plus généralement, les techniques de factorisation de matrice dans l'exploration de données relèvent de la catégorie des méthodes d'espace vectoriel. Très souvent des bases de données d’intérêt conduisent à une représentation matricielle tridimensionnelle très élevée.

Les factorisations de bas niveau permettent non seulement à l'utilisateur de travailler avec des modèles réduits de dimensions, mais elles facilitent aussi souvent une classification statistique plus efficace, et le regroupement et l'organisation des données.[6]

Méthode :

-Transformer n documents textuels en n vecteurs de documents d1, d2,... dn

-Créer une matrice de termes par documents A (m × n) = [d1 | d2 |. . . | dn]

-Pour récupérer l’information, il faut créer un vecteur de requête q, qui est un pseudo-document

-OBJECTIF: trouver un document d proche de q[7]

La proximité de la requête aux documents est représentée par les angles entre leurs vecteurs. En introduisant des mesures de similarité adaptées, on peut quantifier la proximité sémantique entre différents documents. Les mesures de similarité sont choisies en fonction de l'application. Une mesure très utilisée dans cette application est la similarité cosinus, qui consiste à quantifier la similarité entre deux documents en calculant le cosinus entre leurs vecteurs.[8]

Approximation du vecteur requête aux vecteurs docuements

La proximité d'une requête à un document sera ainsi donnée par :

                                                Cos alpha = d1.q/ ||d1||.||q|| 

En particulier : Une valeur nulle indique que la requête est strictement orthogonale au document. Physiquement, cela traduit l'absence de mots en commun entre {q} et {d1}

Nous traduisant ce qui précède sous matrices comme suivant :

                                                        VWH

V : est la matrice de document à terme-fréquence, (Vij) c'est-à-dire le nombre de fois où le mot i se trouve dans le document j, chaque document est représenté comme une collection d'un vecteur de dimension n.

W : est la matrice des caractéristiques de base;

H : est une matrice codée : il s'agit d'une correspondance biunivoque avec un échantillon de V.

Le but étant de réduire la dimension des vecteurs de documents, et réduire la sparsité des vecteurs par la réduction de nombre de mots insignifiants. Puis faire le regroupement des documents texte. Pour cela il faut faire deux étapes:[9]

Etape 1: La première étape consiste à extraire des fonctions des données textuelles en utilisant la base-probabilité du modèle des vecteurs de base obtenus par l'algorithme NMF.

Etape 2: La deuxième étape consiste à normaliser la matrice de codage H pour trouver la probabilité la plus pertinente d’appartenance d’un document à un groupe ou à une catégorie donnée.


Dé-bruitage[modifier | modifier le code]

La factorisation matricielle non négative NMF est une technique très utilisée pour dé-bruiter la parole en combinaison avec le discours statistique et le bruit.

Cette méthode consiste à trouver un choix localement optimal de W et H pour résoudre l’équation V ≈ WH. (V, W et H étant des matrices positives).

Cela permet de décomposer un signal dans une combinaison convexe de blocs de construction non négatifs.[10]

        V : représente le spectrogramme du signal à décomposer (il associe à chaque instant t d'un signal, son spectre de fréquence)
	W : représente les blocs de construction (ils sont un ensemble de formes spectrales spécifiques)
	H : revient au temps d’activation des blocs de construction


Ω : Nombre de blocs de fréquences

T: Temps par modèle

K: Nombre de bases

Cette méthode peut être utilisée pour séparer les mélanges monocanal de sons en associant différents ensembles de blocs de construction avec différentes sources sonores.

             Où W constituent un modèle de chaque source 
             Et H revient à l’activation des blocs de construction au fil du temps

Cette décomposition peut facilement modeler des bruits non stationnaires.

La NMF fonctionne bien pour séparer les sons lorsque les blocs de construction de différentes sources sont suffisamment distincts.

Par exemple:

Si une Source, comme une flûte, ne génère que des sons harmoniques et une autre source, comme une caisse claire « snare drum », ne génère que des sons non harmoniques, les éléments constitutifs d'une source seront peu utiles pour décrire l'autre. Il y aura moins de séparations entre les ensembles de blocs de construction et donc la séparation se fera plus facilement.


Reconnaissance d'image[modifier | modifier le code]

La technique de la factorisation matricielle des matrices non négatives a un grand intérêt dans le domaine de la reconnaissance d'image et de formes.

La technologie de reconnaissance d'image permet d'identifier une image, et de déclencher une action qui lui est associée.

Par exemple, scanner un logo peut renvoyer vers le site web d'une entreprise, ou encore scanner un portrait peut permettre d'identifier le contact et d'accéder à ses informations.[11]

La NMF permet la décomposition de l’image. On parle alors de procédé d'échantillonnage: l'image est divisée en plusieurs zones rectangulaires (notée R(x,y) ), et une valeur unique est associée à chacune de ces zones. Cette valeur s'écrit I(x,y).

Echantillonnage d'une image

La NMF permet de réduire la dimension de la matrice initiale qui représente l'image, cette méthode est appliquée dans des algorithmes qui permettent l'analyse des images.

Le but de cette méthode est de représenter les données dans un espace de dimension inférieure à celle du départ.

La FMN a été introduite initialement pour la reconnaissance faciale, puisqu'elle permet d’identifier les différents parties du visage (yeux, bouches, nez). Ensuite, la NMF est utilisée également pour la détection de faux billets.[12]

Transcription musicale[modifier | modifier le code]

La séparation de sources cherche à extraire des enregistrements des signaux correspondant aux instruments présents. La transcription polyphonique vise à les décrire par un ensemble de paramètres : noms des instruments, hauteurs et volumes des notes jouées, etc. Les méthodes existantes, fondées sur l’analyse spatiale et spectro-temporelle des enregistrements, fournissent des résultats satisfaisants sur des cas simples.[13]

La séparation de sources en audio sert à remixer, ou supprimer les paroles d'une musique.

Notes musicales

La NMF permet une décomposition automatique, en spectre des notes jouées et leurs activations dans le temps. Ensuite ces notes de musique sont représenter sous forme de spectrogramme obtenu à partir de la transformée de fourrier. On obtient donc une matrice à coefficients positifs et le spectre d'un accord musical n'est pas très différent de la somme des spectres des notes isolées qui le composent.[14]

Spectrogramme de fréquence
Temps d'activation


L'intérêt de la NMF se présente dans sa capacité d'identifier les notes de music (sol, fa, la). Même dans le cas d'une polyphonie compliquée la NMF est capable d'identifier les notes car elle réduit le rang de la polyphonie avant de commencer l'identification.

Les difficultés posées par cette approche résident notamment dans la variabilité des motifs spectraux obtenus, pour une même note lorsqu'elle est jouée à différentes nuances ou par différents instruments.


Répartition des sources[modifier | modifier le code]

La répartition des sources est un sujet très stimulant pour lequel la séparation des sources non négative est bien adaptée.

La répartition des sources consiste à trouver les sources de matière de particule présentes dans l'air ambiante et leurs émissions, avec leurs concentrations. Une source est entièrement caractérisée par un profil qui se compose de m espèces chimiques. Souvent, les échantillons de données sont représentés par n et ils sont rassemblés dans un échantillonneur chimique et peuvent être écrits comme les mélanges de profils de p, avec les différentes concentrations. Mathématiquement, si nous avons respectivement les matrices X, G(nxp) et F(pxm) avec [15]:

X : La matrice de données

G : Matrice de contribution qui rassemble les émissions de toutes les sources au fil du temps

F : Matrice de profil (un profil est une signature source qui regroupe toutes les dimensions d'espèce chimiques)

La matrice de données peut être rapprochée par un modèle de mélange linéaire aussi appelé le Modèle de Récepteur dans la répartition des sources:

X ≈ G * F


Consommation alimentaire[modifier | modifier le code]

L'évaluation de risque alimentaire est devenue un grand problème pour beaucoup d'organismes internationaux et nationaux qui sont responsables de la santé publique. Ils traitent plusieurs disciplines, comme l'épidémiologie, la nutrition, la toxicologie et des mathématiques bien sûr appliquées pour développer des méthodes rigoureuses pour l'évaluation de risque quantitative. D'où, une croissance scientifique. Parmi les sujets qui peuvent être abordés par la modélisation mathématique, le problème réside dans la compréhension de choix alimentaires et des comportements de consommation. Quelques aspects de cette question peuvent être évalués par les moyens des enquêtes de consommation alimentaires sur un échantillon de population.

En raison de la diversité d'approvisionnement en nourriture, la période de temps où la même nourriture est consommée deux fois peut être très longue, pour les enquêtes de consommation qui sont basées sur des rapports diététiques, même quand les rapports sont additionnés plus de 7 jours, il semble évident qu'il n'y a aucune reproduction fréquente du même repas pour le même individu. Donc la combinaison observée pour un individu ne peut pas aisément être interprétée comme un régime complet. Les groupes sont plus représentatifs de quelques composants de régime moyens pour un groupe de consommateurs grâce à la NMF.[16]

La NMF est utilisée pour pouvoir interpréter les aliments et analyser les variables latentes qui sont : les choix alimentaires, les quantités de l’aliment consommées, car elle fournit une représentation des données par des variables latentes positives, appelées systèmes de consommation, par l’approche de la NMF.

En application, des résultats numériques à partir d’une enquête française de consommation, sont donnés et sont facilement interprétables par les nutritionnistes.

La méthode du modèle statistique NMF, ici construit alors une représentation des données par des variables latentes positives, appelées systèmes de consommation, qui sont en nombre très petit. L’approche de la NMF favorise la sparsité, ce qui rend les variables latentes facilement interprétables au moyen d’un petit nombre d’aliments. Afin d’identifier des groupes de consommateurs ayant des comportements similaires. Les systèmes de consommation peuvent être vus comme des combinaisons déterministes d’aliments dans un contexte socio-économique d’une enquête de consommation et d’une base utilisée par les consommateurs pour agencer leur propre régime.

Une méthode de clustering, basée sur la méthode des k-means dans le sous-espace des systèmes de consommation, permet de construire des groupes de consommateurs facilement interprétables par les nutritionnistes.

Le but d'une analyse de risque alimentaire est de déterminer si une substance donnée peut poser un problème de santé publique, de caractériser les individus les plus à risques et les moyens de réduction du risque les plus efficaces afin de mettre éventuellement en oeuvre certaines mesures de sécurité sanitaire.


Conclusion[modifier | modifier le code]

Dans cet article, nous avons exposé des exemples concrets de l’application de la méthode de factorisation matricielle non négative. En effet, la NMF apporte des résultats précis dans différents domaines. Elle permet une décomposition matricielle efficace pour résoudre les problèmes de données de grandes dimensions, puisqu'elle est capable d'identifier, classifier et interpréter des grandeurs physiques. Nous espérons finalement que cet écrit puisse contribuer à l’avancement d’autres travaux de recherche.

Notes et références[modifier | modifier le code]

  1. Slim ESSID & Alexey OZEROV, « TUTORIAL ON NONNEGATIVE MATRIX FACTORISATION WITH APPLICATIONS TO AUDIOVISUAL CONTENT ANALYSIS »July2017
  2. Michael D. Ekstrand, John T. Riedl and Joseph A. Konstan, “Collaborative Filtering Recommender Systems”, Foundations and Trends® in Human–Computer Interaction Vol. 4, No. 2 (2010) 81–173 
  3. Dheeraj kumar Bokde, Sheetal Girase, Debajyoti Mukhopadhyay, ”Role of Matrix Factorization Model in Collaborative Filtering Algorithm: A Survey”, International Journal of Advance Foundation and Research in Computer (IJAFRC) Volume 1, Issue 6, May 2014.
  4. Derek Greene, Gerard Cagney, Nevan Krogan, and Pádraig Cunningham, “Ensemble non-negative matrix factorization methods for clustering protein–protein interactions”, Published online 2008 Jun 12. 
  5. Edgardo Mejía-Roa, Daniel Tabas-Madrid, Javier Setoain, Carlos García, Francisco Tirado, and Alberto Pascual-Montano, “NMF-mGPU: non-negative matrix factorization on multi-GPU systems”, Published online 2015 Feb 13.
  6. Paul Pauca, Farial Shahnaz, Michael W. Berry,Robert J. Plemmons “Text Mining using Non-Négative Matrix Factorizations”, , January 2,2004
  7. Amy Langville, Carl Meyer, “ Text Mining using the Nonnegative Matrix Factorization”, SIAM-SEAS–Charleston , 3/25/2005.
  8. « Modèle véctoriel »
  9. P.C. Barman, Nadeem Iqbal, and Soo-Young Lee, ”Non-negative Matrix Factorization Based Text Mining: Feature Extraction and Classification”,2006
  10. Kevin W. Wilson, Bhiksha Raj, Paris Smar agdis, Ajay Divakaran, ”Peech denoising using nonnegative matrix factorization with priors”, 2008.
  11. Isabelle Bloch ­ ENST, Tupin ENST, Antoine Manzanera ENSTA, «TERI: Traitement et reconnaissance d'images»
  12.  Jean-François Pessiot, Vinh Truong, Nicolas Usunier, Massih-Reza Amini et Patrick Gallinari,"Factorisation en matrices non négatives pour le filtrage collaboratif".
  13. Julien Delporte, Factorisation matricielle, application `a la recommandation personnalisée de préférences, 12 Juin 2014
  14. Nancy Bertin, « Les factorisations en matrices non-négatives. Approches contraintes et probabilistes, application `a la transcription automatique de musique polyphonique», Avril 2010
  15. Chreikyy, Gilles Delmaire, Matthieu Puigt, Gilles Roussel, and Antoine Abche,“INFORMED SPLIT GRADIENT NON-NEGATIVE MATRIX FACTORIZATION USINGHUBER COST FUNCTION FOR SOURCE APPORTIONMENTRobert”
  16. Mélanie Zetlaoui, Max Feinberg, Philippe Verger, Stéphane Clémençon, «Extraction de systèmes de consommation alimentaire utilisant la Nonnegative Matrix Factorization (NMF) pour l'évaluation des choix alimentaires »July 2007