Chimiométrie

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

La chimiométrie est l'application des outils mathématiques, en particulier statistiques, pour obtenir le maximum d'informations à partir des données chimiques.

Cela comprend notamment :

  • les méthodes multivariées d'analyse de données
  • Les méthodes taxonomiques et de classification
  • les méthodes de traitement du signal
  • la validation des méthodes de mesures
  • la méthode des plans d'expérience qui a pour objectif d'organiser mathématiquement les conditions expérimentales pour choisir les plus informatives, ce qui permet de minimiser le nombre d'expériences tout en maximisant l'information obtenue
  • les méthodes d'optimisation
  • les outils statistiques de la qualité

Le but de la chimiométrie est d'améliorer par l'emploi de ces méthodes, le contrôle et l'optimisation des procédés ainsi que la qualité des produits fabriqués.

Sommaire

Signaux étudiés[modifier | modifier le code]

Principaux signaux étudiés[modifier | modifier le code]

L'une des grandes applications de la chimiométrie est dans la spectroscopie infrarouge : proche et moyen infra-rouge (PIR/MIR) sous différentes approches (multi/hyperspectral, spatial ou non). Mais d'autres signaux peuvent être étudiés également : spectroscopie RMN, spectroscopie de masse, spectroscopie Raman.

Spécificités des signaux[modifier | modifier le code]

Donnée mono-variée vs. Donnée Multivariée[modifier | modifier le code]

Auto-corrélation des variables et redondance de l'information[modifier | modifier le code]

Distance entre spectres (malédiction de la multi-dimensionnalité)[modifier | modifier le code]

Représentation commune des spectres[modifier | modifier le code]

Méthodologie générale et bonnes pratiques[modifier | modifier le code]

Schéma général d'étude[modifier | modifier le code]

Apprentissage et robustesse[modifier | modifier le code]

En apprentissage automatique, on cherche à construire un modèle mathématique sur la base des données. Pour ce faire, les données sont classiquement séparées en 3 : le jeu d'apprentissage, le jeu de validation et le jeu de test.

On a deux phases dans la construction du modèle finale :

1) une phase d'optimisation des (hyper-)paramètres du modèle (le nombre de plus proches voisins pour le kNN, le nombre de variables latentes dans une PLS) qui utilise un jeu d'apprentissage et le jeu de validation

2) une phase d'évaluation du modèle qui utilise le jeu de test

La meilleure pratique est de réaliser une double cross-validation : une cross-validation pour la phase 1, qui permettra de déterminer les hyperparamètres du modèle; puis une cross-validation pour la phase 2 qui permettra d'évaluer au mieux l'erreur associée.

Pendant la construction du modèle, on doit attacher une grande importance à ne pas biaiser artificiellement les critères de performances d'un modèle. Par exemple, les réplicats doivent être mis dans des jeux séparés, et le jeu test doit être le plus indépendant possible et représentatif de son utilisation.

Critères de performance et d'évaluation des modèles[modifier | modifier le code]

Les critères employés pour l'évaluation de la performance : RMSEP, le R2 (et/ou le RPD qui est relié au R2).

Les critères employés pour l'évaluation de la qualité : coefficient de Durbin-Watson, le T2 d'Hoteling, le coefficient Q.

Techniques et méthodes employées[modifier | modifier le code]

Traitement du signal[modifier | modifier le code]

Différents effets à corriger : effets additifs, multiplicatifs et les bruits de mesure[modifier | modifier le code]

Exploration de données (EDA) : méthodes non supervisées[modifier | modifier le code]

Méthodes de réduction de dimension[modifier | modifier le code]

ACP[modifier | modifier le code]

Spécificité de l'ACP dans le cadre de la SPIR est de représenter les loadings de chaque composantes principales sous forme de spectre.

Autres méthodes[modifier | modifier le code]

PARAFAC

Clustering[modifier | modifier le code]

k-means et CAH[modifier | modifier le code]

Prédiction d'une variable quantitative à partir de spectres[modifier | modifier le code]

Linéaires[modifier | modifier le code]

ACP et PLS

Non-linéaires[modifier | modifier le code]

PLS locale (LWPLS, local PLS), ANN, CNN, SVM

Méthodes multiblocs[modifier | modifier le code]

Prédiction d'une variable qualitative à partir de spectres (reconnaissance, classification, discrimination)[modifier | modifier le code]

Linéaires[modifier | modifier le code]

PLS-DA

Non-linéaires[modifier | modifier le code]

kNN, CAH, RF, SVM

Décomposition et résolution spectrale (inversion du modèle de Beer Lambert)[modifier | modifier le code]

MCR-ALS et ICA[modifier | modifier le code]

Méthodes issues de la télédétection[modifier | modifier le code]

SIMPLEX

Sélection de variables[modifier | modifier le code]

Wrappers, Filters, Embedded[modifier | modifier le code]

Méthodes particulièrement adaptées aux spectres[modifier | modifier le code]

CovSel, VIP, UVE

Détection de points atypiques dans le multi-varié[modifier | modifier le code]

Utilisation du T2 et Q

Outils employés[modifier | modifier le code]

Langages couramment utilisés et les librairies[modifier | modifier le code]

Matlab, Scilab, Octave: FACT toolbox

Python : pychem, scikit, numpy, scipy, skimage, Scikit-spectra

R : caret, mixOmics, ChemoSpec, RSpectra, prospectR

Autres[modifier | modifier le code]

Outils libres : ChemFlow

Logiciels propriétaires :

Quelques exemples d'applications[modifier | modifier le code]

Teneur en protéines du blé[modifier | modifier le code]

Exemple pharmaceutique (MCR?)[modifier | modifier le code]

Caractérisation des déchets organiques (FlashBMP)[modifier | modifier le code]

Classification sur images hyperspectrales[modifier | modifier le code]

Utilisation avec multibloc[modifier | modifier le code]

Réseau Chimiométrie[modifier | modifier le code]

Recherche (liste laboratoires)[modifier | modifier le code]

Entreprises (liste entreprise/conseil)[modifier | modifier le code]

Evenements (liste conf/seminaire/challenge/etc.)[modifier | modifier le code]

Pour aller plus loin[modifier | modifier le code]

Se former[modifier | modifier le code]

Lecture[modifier | modifier le code]

Liens (sites, vidéos)[modifier | modifier le code]

Références[modifier | modifier le code]

  1. Chemoocs est un projet collaboratif qui regroupe de nombreux chimiométriciens francophones issus d’universités (Lille, Brest, Aix-Marseille, Montpellier, Genève), d’écoles et d’instituts de recherche (Inra, Irstea, Oniris, AgroParistech), d’entreprises (Ondalys, Data_Frame) et d’une association (Héliospir). Porté par l’Inra, il est financé par Fondation Agropolis (Montpellier).