Relation quantitative structure à activité

Un article de Wikipédia, l'encyclopédie libre.

Une relation quantitative structure à activité (en anglais : Quantitative structure-activity relationship ou QSAR, parfois désignée sous le nom de relation quantitative structure à propriété - en anglais : quantitative structure-property relationship ou QSPR) est le procédé par lequel une structure chimique est corrélée avec un effet bien déterminé comme l'activité biologique ou la réactivité chimique.

Ainsi, l'activité biologique peut être exprimée de manière quantitative, comme pour la concentration de substance nécessaire pour obtenir une certaine réponse biologique. De plus lorsque les propriétés ou structures physio-chimiques sont exprimées par des chiffres, on peut proposer une relation mathématique, ou relation quantitative structure à activité, entre les deux. L'expression mathématique obtenue peut alors être utilisée comme moyen prédictif de la réponse biologique pour des structures similaires.

La QSAR la plus commune est de la forme : activité = f(propriétés physico-chimiques et/ou structurales).

Exemple de protocole pour une QSAR.

RSA et paradoxe RSA[modifier | modifier le code]

Le postulat de base pour les hypothèses sur des objets chimiques est que des objets similaires ont des activités similaires. Ce principe est appelé relation structure-activité (RSA, ou SAR pour structure-activity relationship en anglais). Le problème sous-jacent est donc la définition d'une petite différence sur un niveau moléculaire, chaque type d'activité, comme la réaction chimique, la biotransformation, la solubilité, l'activité de cible et d'autres encore, peuvent dépendre d'une autre différence. Un exemple concret est donné par l'article de revue sur le bioisostérisme[1].

En général, l'intérêt est plus de trouver de fortes tendances. Les hypothèses avancées reposent habituellement sur un nombre fini de données chimiques. Ainsi, le principe d'induction devrait être respecté afin d'éviter les hypothèses surapprises et les interprétations erronées et inutiles sur les données chimiques/structurales.

Le paradoxe SAR est le fait que toutes les molécules similaires ne montrent pas des activités similaires.

Applications[modifier | modifier le code]

En chimie[modifier | modifier le code]

Une des premières applications de la QSAR concernait la prédiction des points d'ébullition[2].

Il est bien connu par exemple que pour une famille de composés chimiques, particulièrement en chimie organique, il existe une corrélation forte entre la structure et les propriétés observées. On peut citer comme exemple simple la relation entre le nombre de carbones dans les alcanes et leur point d'ébullition. Il existe une tendance nette à l'augmentation de la température d'ébullition avec le nombre d'atomes de carbone, ce qui sert de moyen prédictif pour les points d'ébullition des alcanes les plus lourds.

Les méthodes de Hammett, de Taft et prédiction de pKa sont des applications particulièrement intéressantes.

En biologie[modifier | modifier le code]

L'activité biologique des molécules est mesurée habituellement au moyen d'essais afin d'établir le niveau d'inhibition d'une transduction de signal ou d'une voie métabolique particulière. Les produits chimiques peuvent être biologiquement actifs par leur toxicité. La recherche de médicament implique parfois l'utilisation de la QSAR afin d'identifier les structures chimiques pouvant présenter de bons effets inhibiteurs sur des cibles spécifiques et possèdent une faible toxicité (activité non spécifique). Fait partie des intérêts spécifiques la prédiction du coefficient de partition log P, qui une mesure importante pour l'identification de la « similarité médicamenteuse » selon la règle des cinq de Lipinski.

Alors que de nombreuses analyses QSAR traitent des interactions d'une famille de molécules avec une enzyme ou un site récepteur, la QSAR peut aussi être utilisée pour étudier les interactions entre les domaines structuraux des protéines. Les interactions entre protéines peuvent être quantitativement analysés pour des variations structurales résultant d'une mutagenèse[3]. La réduction du risque de paradoxe RAS fait partie de l'apprentissage automatique, et particulièrement la prise en compte du fait que seul un nombre fini de données est disponible (voir aussi estimateur de minimum de variance non biaisé). En général, tous les problèmes QSAR peuvent être partagés entre une partie codage[4] et une partie apprentissage[5].

Analyse de données[modifier | modifier le code]

Un nombre relativement important de caractéristiques ou de descripteurs moléculaires est calculé pour le codage, qui peut cependant manquer de pertinence sur l'interprétation structurale. Il existe donc un problème de choix de variable, qui peut se résoudre par des méthodes d'apprentissage, appliquées comme étape de post-traitement ou de pré-traitement. Parmi ces méthodes, les machines à vecteurs de support, les arbres de décisions, ou les réseaux de neurones peuvent être utilisées pour induire un modèle d'apprentissage prédictif.

QSAR tridimensionnelle[modifier | modifier le code]

L'expression de QSAR tridimensionnelle (3D-QSAR) réfère à l'application de calculs de champs de forces nécessitant des structures tridimensionnelles, comme la cristallographie protéique ou la supramolécularité. Elle utilise des potentiels calculés, comme des potentiels de Lennard-Jones, plutôt que des constantes expérimentales et englobe l'objet moléculaire dans son ensemble plutôt qu'un substituant unique. Elle traite des champs stériques (forme de l'objet) et électrostatiques en fonction énergie appliquée[6].

L'espace de données ainsi créé est ensuite habituellement réduit par une extraction de caractéristique (voir aussi réduction dimensionnelle). La méthode d'apprentissage suivant peut aussi être n'importe laquelle des méthodes d'apprentissage automatique déjà citées, comme les machines à vecteurs de support[7].

Dans la littérature, il semble ressortir que les chimistes préfèrent les méthodes de moindres carrés partielles (PLS), qui permet d'appliquer une extraction de caractéristique et une induction en un pas.

Analyse moléculaire[modifier | modifier le code]

Les approches d'extractions moléculaires, cas particulier des approches d'explorations de données structurées, appliquent une prédiction par matrice de similarité ou un schéma de fragmentation automatique en sous-structures moléculaires. De plus, il existe aussi des approches utilisant des recherches du plus grand sous-graphe commun ou de noyaux de graphes[8],[9].

Contribution atomique[modifier | modifier le code]

Cette méthode considère que chaque atome contribue de manière définie aux propriétés de la molécule. L'agencement des atomes n'est pas supposé avoir une influence prédominante, si bien que les isomères possèdent la même valeur prédictive. Comme exemple, on peut citer la méthode de Girolami pour estimer la masse volumique des solides et des liquides, la méthode de Kopp et celle de Hurst et Harrison pour la capacité calorifique des solides et liquides.

Contribution de groupe[modifier | modifier le code]

Cette méthode de prédiction a été très largement utilisée pour les propriétés chimiques et physiques des molécules. L'idée de base est de décomposer une molécule en un certain nombre de groupes fonctionnels qui possèdent une contribution constante à la propriété étudiée. Il a été montré que le logP d'un composé peut être déterminé par la somme de ceux de ses fragments. Les valeurs logP fragmentaires ont été déterminées statistiquement. Cette méthode donne des résultats mixtes et est généralement considérée comme n'ayant pas de précision de +/- 0,1 unité[10].

Domaine d'application[modifier | modifier le code]

L'utilisation de modèles (Q)SAR pour la gestion du risque chimique s'accroissant régulièrement et étant aussi utilisé pour des visées réglementaires (en Union européenne : enregistrement, évaluation et autorisation des produits chimiques), il est crucial d'être capable d'affirmer la pertinence des prédictions. L'espace des descripteurs chimiques engendré par un ensemble spécifique de produits chimiques est appelé domaine d'applicabilité, qui permet d'indiquer lorsqu'un composé peut être pertinemment « prédit ».

Références[modifier | modifier le code]

  1. G. A. Patani et E. J. LaVoie, Bioisosterism: A Rational Approach in Drug Design, Chem. Rev., 1996, 96, 3147-3176, DOI 10.1021/cr950066q
  2. Danail Bonchev et D.H. Rouvray, Chemical Graph Theory: Introduction and Fundamentals, Gordon and Breach Science Publishers, 1990 (ISBN 0-85626-454-7).
  3. E. K. Freyhult, K. Andersson et M. G. Gustafsson, Structural modeling extends QSAR analysis of antibody-lysozyme interactions to 3D-QSAR, J. Biophys., 2003, 84, p. 2264-2272, PMID 12668435
  4. Roberto Todeschini et Viviana Consonni, Handbook of Molecular Descriptors, Wiley-VCH, 2000 (ISBN 3527299130)
  5. (en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification, Wiley-interscience, (ISBN 0-471-05669-3) [détail des éditions]
  6. A. Leach, Molecular Modelling: Principles and Applications, Prentice Hall, 2001 (ISBN 0-582-38210-6)
  7. Schölkopf, B., K. Tsuda et J. P. Vert, Kernel Methods in Computational Biology, MIT Press, Cambridge, MA, 2004.
  8. Gusfield, D., Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology, Cambridge University Press, 1997 (ISBN 0-521-58519-8)
  9. C. Helma (éd.), Predictive Toxicology, CRC, 2005 (ISBN 0-8247-2397-X)
  10. S. A. Wildman et G. M. Crippen, Prediction of Physicochemical Parameters by Atomic Contributions, J. Chem. Inf. Comput. Sci., 1999, 39, 868-873, DOI 10.1021/ci990307l

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Liens externes[modifier | modifier le code]