Chimiométrie

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

La chimiométrie est l'application des outils mathématiques, en particulier statistiques, pour obtenir le maximum d'informations à partir des données chimiques.

Cela comprend notamment :

  • les méthodes multivariées d'analyse de données
  • Les méthodes taxonomiques et de classification
  • les méthodes de traitement du signal
  • la validation des méthodes de mesures
  • la méthode des plans d'expérience qui a pour objectif d'organiser mathématiquement les conditions expérimentales pour choisir les plus informatives, ce qui permet de minimiser le nombre d'expériences tout en maximisant l'information obtenue
  • les méthodes d'optimisation
  • les outils statistiques de la qualité

Le but de la chimiométrie est d'améliorer par l'emploi de ces méthodes, le contrôle et l'optimisation des procédés ainsi que la qualité des produits fabriqués.

Sommaire

Signaux étudiés[modifier | modifier le code]

Principaux signaux étudiés[modifier | modifier le code]

L'une des grandes applications de la chimiométrie est dans la spectroscopie infrarouge : proche et moyen infra-rouge (PIR/MIR) sous différentes approches (multi/hyperspectral, spatial ou non). Mais d'autres signaux peuvent être étudiés également : spectroscopie RMN, spectroscopie de masse, spectroscopie Raman.

Spécificités des signaux[modifier | modifier le code]

Méthodologie générale et bonnes pratiques[modifier | modifier le code]

Apprentissage et robustesse[modifier | modifier le code]

En apprentissage automatique, on cherche à construire un modèle mathématique sur la base des données. Pour ce faire, les données sont classiquement séparées en 3 : le jeu d'apprentissage, le jeu de validation et le jeu de test.

On a deux phases dans la construction du modèle finale :

1) une phase d'optimisation des (hyper-)paramètres du modèle (le nombre de plus proches voisins pour le kNN, le nombre de variables latentes dans une PLS) qui utilise un jeu d'apprentissage et le jeu de validation

2) une phase d'évaluation du modèle qui utilise le jeu de test

La meilleure pratique est de réaliser une double cross-validation : une cross-validation pour la phase 1, qui permettra de déterminer les hyperparamètres du modèle; puis une cross-validation pour la phase 2 qui permettra d'évaluer au mieux l'erreur associée.

Pendant la construction du modèle, on doit attacher une grande importance à ne pas biaiser artificiellement les critères de performances d'un modèle. Par exemple, les réplicats doivent être mis dans des jeux séparés, et le jeu test doit être le plus indépendant possible et représentatif de son utilisation.

Critères de performance et d'évaluation des modèles[modifier | modifier le code]

Les critères employés pour l'évaluation de la performance : RMSEP, le R2 (et/ou le RPD qui est relié au R2).

Les critères employés pour l'évaluation de la qualité : coefficient de Durbin-Watson, le T2 d'Hoteling, le coefficient Q.

Techniques et méthodes employées[modifier | modifier le code]

Pré-traitement du signal[modifier | modifier le code]

Exploration de données (EDA) : méthodes non supervisées[modifier | modifier le code]

Méthodes de réduction de dimension[modifier | modifier le code]

ACP[modifier | modifier le code]

Spécificité de l'ACP dans le cadre de la SPIR est de représenter les loadings de chaque composantes principales sous forme de spectre.

Autres méthodes[modifier | modifier le code]

CANDECOMP/PARAFAC

Clustering[modifier | modifier le code]

Prédiction d'une variable quantitative à partir de spectres[modifier | modifier le code]

Linéaires[modifier | modifier le code]

ACP et PLS

Non-linéaires[modifier | modifier le code]

PLS locale (LWPLS, local PLS), ANN, CNN, SVM

Prédiction d'une variable qualitative à partir de spectres (reconnaissance, classification, discrimination)[modifier | modifier le code]

Linéaires[modifier | modifier le code]

PLS-DA

Non-linéaires[modifier | modifier le code]

kNN, CAH, RF, SVM

Décomposition et résolution spectrale (inversion du modèle de Beer Lambert)[modifier | modifier le code]

Multivariate Curve Resolution - Asymmetric Least Squares (MCR-ALS)[modifier | modifier le code]

SIMPLEX

Méthode traitement signal[modifier | modifier le code]

ICA

Méthodes issues de la télédétection[modifier | modifier le code]

SIMPLEX

Sélection de variables[modifier | modifier le code]

Méthodes particulièrement adaptées aux spectres[modifier | modifier le code]

CovSel, VIP, UVE

Détection de points atypiques dans le multi-varié[modifier | modifier le code]

Utilisation du T2 et Q

Outils employés[modifier | modifier le code]

Langages couramment utilisés et les librairies[modifier | modifier le code]

Matlab

Octave [1], clone de Matlab gratuit : SAISIR

Scilab : FACT[2] toolbox

Python : pandas, matplotlib, pychem, scikit, numpy, scipy, skimage, scikit-learn, scikit-spectra, tensorflow, tensorly

R :

  • Packages hors CRAN : rnirs (lien chargement)
  • Packages CRAN [3]: pls, caret, mixOmics, ChemoSpec, RSpectra, prospectR

Logiciels[modifier | modifier le code]

Logiciels libres[modifier | modifier le code]

ChemFlow

Logiciel en tant que SaaS (Software As a Service), gratuit, libre, accessible à travers un navigateur web et des fonctions de packages interfacés [4].

Packages utilisés :

  • R : pls (MSC) cluster (kmeans, CAH), rpart, ggplot2, ALS (MCR-ALS)….
  • Scilab : FACT (ACP, Régression, Discrimination, Calibration transfert, prétraitements, Sélection de variables, ICA, ACOM)
  • Octave : simplisma

Les + :

  • Créer, éditer et exécuter des workflows sous forme graphique
  • Partager ces worflows, des historiques de traitement entre utilisateurs de ChemFlow
  • Traçabilité des opérations et reproductibilité scientifique

Logiciels commerciaux - lignes de commandes[modifier | modifier le code]

Logiciels commerciaux - spectroscopie NIR[modifier | modifier le code]

  • Bruker OPUS[7]
  • Buchi NIRCal[8]
  • Foss WinISI[9]
  • ThermoFisher GRAMS[10]
  • SL SensoLogic[11]

Logiciels commerciaux - chimiométrie[modifier | modifier le code]

  • CAMO The Unscrambler / Process Pulse II[12]
  • SIMCA / MODDE / SIMCA Online[13]
  • PLS Toolbox / SOLO / MIA Toolbox[14]
  • SAS JMP[15]
  • Infometrix Pirouette[16]
  • Salford systems Salford Predictive Modeler[17]
  • ProSensus Multivariate[18]
  • StatEase design Expert[19]
  • NemrodW[20]

Logiciels commerciaux - statistiques et chimiométrie[modifier | modifier le code]

Quelques exemples d'applications[modifier | modifier le code]

SPIR appliquée aux céréales[modifier | modifier le code]

Différentes prédictions sont faites sur la teneur en protéines, teneur en acides aminés.

SPIR appliquée aux sols[modifier | modifier le code]

SPIR appliquée aux déchets organiques[modifier | modifier le code]

Le FlashBMP a été développé pour prédire le potentiel biochimique de méthane (BMP) sur divers déchets destinés à la méthanisation (boues urbaines, déchets agro-alimentaire, déchets cantine).

Réseau Chimiométrie[modifier | modifier le code]

Recherche (liste laboratoires)[modifier | modifier le code]

Entreprises (liste entreprise/conseil)[modifier | modifier le code]

Evenements (liste conf/seminaire/challenge/etc.)[modifier | modifier le code]

Pour aller plus loin[modifier | modifier le code]

Se former[modifier | modifier le code]

Références[modifier | modifier le code]

  1. « GNU Octave », sur www.gnu.org (consulté le 13 août 2019)
  2. « Scilab Module : Free Access Chemometric Toolbox », sur atoms.scilab.org (consulté le 13 août 2019)
  3. « The Comprehensive R Archive Network », sur cran.r-project.org (consulté le 13 août 2019)
  4. Virginie Rossard, Eric Latrille, Fabien Gogé et Jean-Claude Boulet, « ChemFlow, chemometrics using Galaxy », F1000Research, vol. 5,‎ (DOI 10.7490/f1000research.1112573.1, lire en ligne, consulté le 13 août 2019)
  5. « Version d'évaluation gratuite de la solution MATLAB », sur fr.mathworks.com (consulté le 13 août 2019)
  6. (en) « Analytics, Artificial Intelligence and Data Management », sur www.sas.com (consulté le 13 août 2019)
  7. « Logiciel de spectroscopie - OPUS », sur Bruker.com (consulté le 13 août 2019)
  8. « NIRCal | buchi.com », sur www.buchi.com (consulté le 13 août 2019)
  9. « FOSS ISI Software Support. », sur www.winisi.com (consulté le 13 août 2019)
  10. (en) « GRAMS Spectroscopy Software - US », sur www.thermofisher.com (consulté le 13 août 2019)
  11. « SensoLogic GmbH – SL Products », sur www.sensologic.com (consulté le 13 août 2019)
  12. « Produits: Unscrambler X Process Pulse », sur www.camo.com (consulté le 13 août 2019)
  13. « SIMCA | Umetrics », sur umetrics.com (consulté le 13 août 2019)
  14. (en-US) « MIA_Toolbox », sur Eigenvector (consulté le 13 août 2019)
  15. « Logiciel statistique », sur www.jmp.com (consulté le 13 août 2019)
  16. (en) « Pirouette® », (consulté le 13 août 2019)
  17. « Salford Systems – Data Mining and Predictive Analytics Software », sur www.salford-systems.com (consulté le 13 août 2019)
  18. (en-CA) « ProSensus - Multivariate Analysis Consulting for Manufacturing », sur ProSensus - Multivariate Analysis Consulting for Manufacturing (consulté le 13 août 2019)
  19. « Design-Expert® Software Version 12 », sur shop.statease.com (consulté le 13 août 2019)
  20. « Logiciel », sur www.nemrodw.com (consulté le 13 août 2019)
  21. « Outils de statistiques, d'amélioration de processus et d'analyse de données | Minitab », sur www.minitab.com (consulté le 13 août 2019)
  22. « STATGRAPHICS : une gamme de logiciels pour les analyses statistiques et graphiques », sur www.statgraphics.fr (consulté le 13 août 2019)
  23. « Logiciel simple de Data Mining accessible à tous - Coheris SPAD » (consulté le 13 août 2019)
  24. « IBM SPSS, logiciel d'analyse statistique et prévisionnelle », sur www.ibm.com (consulté le 13 août 2019)
  25. « Accueil », sur Association Hélio-SPIR, Réseau Scientifique de Spectroscopie Proche InfraRouge (consulté le 13 août 2019)
  26. Chemoocs est un projet collaboratif qui regroupe de nombreux chimiométriciens francophones issus d’universités (Lille, Brest, Aix-Marseille, Montpellier, Genève), d’écoles et d’instituts de recherche (Inra, Irstea, Oniris, AgroParistech), d’entreprises (Ondalys, Data_Frame) et d’une association (Héliospir). Porté par l’Inra, il est financé par Fondation Agropolis (Montpellier).
  27. « FUN - Se former en liberté », sur www.fun-mooc.fr (consulté le 13 août 2019)
  28. « European Master in Chemistry and Spectroscopy », sur Master ASC (consulté le 13 août 2019)
  29. « Master Professionnel Chimie Analytique - Chimiométrie - Qualité », sur www.univ-brest.fr (consulté le 13 août 2019)