« Modélisation des réseaux biologiques » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
1stCaptainZ (discuter | contributions)
Jacqueries (discuter | contributions)
→‎Nouvelles perspectives : Ajout de la partie et des références
Balises : Modification d'une page utilisateur tierce Éditeur visuel
Ligne 89 : Ligne 89 :


== Nouvelles perspectives ==
== Nouvelles perspectives ==
L’intégration de données biologiques additionnelles dont la quantité augmente de façon spectaculaire dans la conception des réseaux d’interactions annonce une avancée considérable dans le domaine de la biologie des systèmes. Parmi les nombreuses façon d’améliorer les réseaux biologiques on peut noter l’apport de l’information structurale des protéines, du contexte fonctionnel et évolutif, des conditions environnementales, de l’information temporelle ainsi que de la localisation spatiale.
'''''PARTIE ILYAS'''''

Cependant, des barrières computationnelles et théoriques importantes brident l’intégration, la modélisation et l’exploitation de ces données<ref>{{Article |langue=en |prénom1=Allison P. |nom1=Heath |prénom2=Lydia E. |nom2=Kavraki |titre=Computational challenges in systems biology |périodique=Computer Science Review |volume=3 |numéro=1 |date=2009-02 |doi=10.1016/j.cosrev.2009.01.002 |lire en ligne=https://linkinghub.elsevier.com/retrieve/pii/S1574013709000021 |consulté le=2021-02-10 |pages=1–17 }}</ref>.

Des progrès algorithmiques importants ont eu lieu ces dernières années pour permettre de modéliser des réseaux complexes qui intègrent des données dynamiques (comme par exemple les données spatiales et temporelles)<ref>{{Article |prénom1=Alexander |nom1=Groß |prénom2=Barbara |nom2=Kracher |prénom3=Johann M. |nom3=Kraus |prénom4=Silke D. |nom4=Kühlwein |titre=Representing dynamic biological networks with multi-scale probabilistic models |périodique=Communications Biology |volume=2 |numéro=1 |date=2019-01-17 |issn=2399-3642 |doi=10.1038/s42003-018-0268-3 |lire en ligne=http://dx.doi.org/10.1038/s42003-018-0268-3 |consulté le=2021-02-10 }}</ref>.

Au niveau du hardware, l’utilisation des GPU ([[Processeur graphique]]) qui permettent de paralléliser les calculs à bas prix est de plus en plus répandue<ref>{{Article |prénom1=L. |nom1=Dematte |prénom2=D. |nom2=Prandi |titre=GPU computing for systems biology |périodique=Briefings in Bioinformatics |volume=11 |numéro=3 |date=2010-03-07 |issn=1467-5463 |issn2=1477-4054 |doi=10.1093/bib/bbq006 |lire en ligne=http://dx.doi.org/10.1093/bib/bbq006 |consulté le=2021-02-10 |pages=323–333 }}</ref>. Cependant, le calcul sur GPU requiert un type d’algorithme adapté car il diffère des traditionnels calculs sur CPU, demandant un travail d’adaptation parfois conséquent.

Pour pouvoir développer des réseaux ou de nombreuses informations sont croisées, l’annotation des données doit être uniforme pour maintenir la cohérence du réseau et éviter les redondances. De nombreuses méthodes d’annotation automatiques ont été développées dans ce but<ref>{{Article |langue=en |prénom1=Anastasia |nom1=Baryshnikova |titre=Systematic Functional Annotation and Visualization of Biological Networks |périodique=bioRxiv |date=2016-02-11 |doi=10.1101/030551 |lire en ligne=https://www.biorxiv.org/content/10.1101/030551v2 |consulté le=2021-02-10 |pages=030551 }}</ref><ref>{{Article |prénom1=Brian J |nom1=Haas |prénom2=Steven L |nom2=Salzberg |prénom3=Wei |nom3=Zhu |prénom4=Mihaela |nom4=Pertea |titre=Automated eukaryotic gene structure annotation using EVidenceModeler and the Program to Assemble Spliced Alignments |périodique=Genome Biology |volume=9 |numéro=1 |date=2008 |issn=1465-6906 |doi=10.1186/gb-2008-9-1-r7 |lire en ligne=http://dx.doi.org/10.1186/gb-2008-9-1-r7 |consulté le=2021-02-10 |pages=R7 }}</ref>, malgré cela elles sont toujours largement inférieures aux annotations humaines et mènent souvent à des erreurs<ref>{{Article |langue=en |prénom1=Alexandra M. |nom1=Schnoes |prénom2=Shoshana D. |nom2=Brown |prénom3=Igor |nom3=Dodevski |prénom4=Patricia C. |nom4=Babbitt |titre=Annotation Error in Public Databases: Misannotation of Molecular Function in Enzyme Superfamilies |périodique=PLOS Computational Biology |volume=5 |numéro=12 |date=11 déc. 2009 |issn=1553-7358 |pmid=20011109 |pmcid=PMC2781113 |doi=10.1371/journal.pcbi.1000605 |lire en ligne=https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000605 |consulté le=2021-02-10 |pages=e1000605 }}</ref>. Dans certaines bases de données qui contiennent des informations plus complexes comme les AOP ([https://aopwiki.org/ Adverse Outcome Pathway] ou chemin aux issues défavorables), deux annotations d’un même phénomène peuvent différer, ce qui rend la modélisation encore plus difficile.
*
*



Version du 10 février 2021 à 19:08

La construction des réseaux biologiques ou modélisation des réseaux biologiques est une étape importante de la représentation des réseaux biologiques.

J'AI PAS D'IDEES HELP !

Proposition

La modélisation des réseaux biologiques est un outil d'analyse essentiel dans la visualisation et la compréhension des interactions existant dans le monde du vivant, que ce soit pour suivre des systèmes de régulation de gènes ou le fonctionnement de cycles métaboliques complet (respiration, photosynthèse...).

Cependant, la construction de réseaux à partir de données expérimentales n'est parfois pas suffisante pour recouvrir un large spectre d'interactions. Une nouvelle méthode intervient alors : la reconstruction de réseaux. Le développement d'algorithmes a ainsi permis la combinaison de réseaux de petite taille pour reconstruire des réseaux couvrant un plus grand éventail d'interaction (ex : réseaux intégrant de plus nombreuses données multi-omiques).

Ressources

Littérature

PubMed est une librairie en ligne développée par le NCBI (National Center for Biotechnology Information), qui contient une collection massive de journaux médicaux.

Bases de données

Il existe plusieurs bases de données permettant d'obtenir différents types de ressources. En voici quelques unes :

  • Kyoto Encyclopedia of Genes and Genomes (ou KEGG) est une base de données bio-informatique contenant des informations de gènes, protéines, réactions et voies métaboliques.
  • BioCyc est une collection de 18,030 bases de données de voies métaboliques et génomes (à compter de Février 2021), dont chacune est consacrée à un organisme. EcoCyc et MetaCyc font parties de cette collection.
  • EcoCyc est une base de données très détaillée du génome et de la reconstruction métabolique d'Escherichia coli, incluant par descriptions des voies de signalisations et réseaux de régulations d'E. coli. Cette base de données peut servir de modèle pour les (re)constructions.
  • MetaCyc est une encyclopédie de voies métaboliques définies expérimentalement mais aussi d'enzymes. Elle contient 2,859 voies métaboliques de 3,185 organismes différents.
  • ENZYME est une base de données de nomenclature d'enzymes faisant partie du serveur protéomique Expasy de l'Institut suisse de bioinformatique. Après la recherche d'une enzyme particulière dans la base de données, cette dernière renvoie la réaction catalysée par l'enzyme. ENZYME possède des liens directs avec les bases de données de gènes, enzymes ou littératures comme KEGG, BRENDA et PubMed.
  • BRENDA est une base de données exhaustive d'enzymes qui permet de chercher l'enzyme par son nom, par sa nomenclature EC ou par son organisme.
  • BiGG Models est une base de connaissances de constructions de réseaux métaboliques à l'échelle du génome, structurés biochimiquement, génétiquement et génomiquement.
  • metaTIGER est une collection de profils métaboliques et informations phylogénomiques sur la taxonomie d'un large éventail d'eucaryotes. Elle apporte de nouvelles possibilités pour visionner et comparer les profils métaboliques.
  • Reactome est une base de données de 2,477 voies métaboliques, 13,534 réactions, 10,929 protéines, 1,854 petites molécules, 414 drogues et 32,493 références de littératures (à compter de Février 2020).
Tableau comparatif de la portée des bases de données.
Base de données Champs d'application
Enzymes Gènes Réactions Voies métaboliques Métabolites
KEGG X X X X X
BioCyc X X X X X
EcoCyc X X X
MetaCyc X X X X
ENZYME X X X
BRENDA X X X
BiGG X X X
metaTIGER X X X
Reactome X X X

Outils de visualisation

La représentation de réseau nécessite des outils de visualisation, voici une liste non exhaustive de ces derniers :

  • Cytoscape [1] est un logiciel d'analyse et de visualisation de réseaux biologiques. Il supporte de nombreux formats de données et permet de générer des réseaux dont l'apparence est entièrement personnalisable. En plus de l'apparence, Cytoscape permet de calculer des propriétés basiques des graphes (degré des noeuds, etc.). De nombreux modules d'extension sont également disponibles et permettent de réaliser des analyses plus poussées.
  • VANTED [2] comme Cytoscape est un autre logiciel d'analyse et de visualisation des réseaux. Il supporte également de nombreux formats de données et l'apparence des réseaux est aussi personnalisable.
  • Pathview [3] est un package R/Bioconductor pour l'intégration et la visualisation des voies biologiques.
  • PathVisio [4] permet la représentation de WikiPathways[5].
  • GeneMANIA [6] permet la visualisation des interactions physiques et génétiques. Il est également utilisable en tant qu'extension de Cytoscape.

Représentation des données

Depuis les années 90, le nombre de ressources disponibles sur les bases de données ne cesse d’augmenter. Pour répondre à cette forte augmentation, des méthodes de représentation et d’analyse ont dû être mises en place. Parmi ces dernières, on trouve la représentation des données sous forme de réseau. Comme dans la théorie des graphes classique, un réseau est composé de nœuds pouvant être reliés entre eux par des arêtes - (i) nœuds composés  de protéines, gènes, enzymes, facteurs de transcriptions, etc. donc de composés biologiques de manière plus générale, (ii) et les arêtes qui représentent les interactions physiques, génétiques et/ou fonctionnelles entre ces composés : cela peut être par exemple une interaction protéine-protéine.

L’un des premiers avantages de la représentation en réseau est la visualisation à l’aide des outils précédemment cités. De plus, la représentation des données en réseau permet l'application de la théorie des graphes et donc des algorithmes d’analyse propres à ce champ aux données biologiques. L’application de telles méthodes a permis par exemple l’analyse de la topologie des réseaux biologiques qui semble mieux décrite par le modèle scale-free (ou invariant d’échelle en français). En effet, la probabilité qu’un nœud quelconque d’un réseau biologique participe dans k réactions suit une loi de puissance, caractéristique propre aux réseaux scale-free, dont font partie le réseau web ou les réseaux sociaux. Concrètement, cela se traduit par beaucoup de nœuds peu connectés, qui ne participent que dans peu de réactions, et quelques nœuds très connectés appelé hub, qui sont impliqués dans beaucoup de réactions. L’étude de ces hub peut donc représenter un grand intérêt.

Raffinement du réseau

La représentation des données biologiques est loin d'être parfaite. Cette imperfection s'explique par la grande variabilité et la diversité des êtres vivants. De plus, les bases de données d'interactions, de réactions des gènes, des voies métaboliques et autres sont incomplètes. En effet, il n'est pas rare que certaines protéines, gènes ou réactions intermédiaires n'aient pas été identifiées. Comme la construction de réseau repose sur la mise en relation des interactions inter ou intra Omics et phenotypique type (?) pour étudier l'impact d'une modification sur le système, les informations partielles, imprécises ou manquantes provoquent une imprécision des modèles construits.

Ainsi les modèles sont incomplets. Au cours des années, des gènes, des protéines, des métabolites et des fonctions associées à ses derniers sont découverts. Ces découvertes doivent être ajoutées au réseau au fur et à mesure, cela nécessite de reconstruire le réseau avec la nouvelle information et de nouveau estimer les conclusions réalisées sur le réseau précédent.

Le raffinage de réseau implique dans un premier temps que les observations faites sur un réseau ne peuvent être considérées comme une preuve d'un effet car l'interprétation peut être modifiée par de nouvelles informations ajoutées au réseau. Ainsi un réseau reste un outil qui n'apporte pas une réponse exacte et ne constitue pas une preuve plus importante qu'une étude sur en paillasse ou sur une cohorte.

Exemples d'applications

La reconstruction et l'analyse de réseaux offrent de nombreuses possibilités pour comprendre différents modèles du vivant et les nombreuses interactions existant dans l'organisme.

Facteurs de transcription et gènes

Saccharomyces cerevisiae est l'un des organismes modèles les plus étudiés en biologie. De nombreux réseaux ont été construits pour comprendre différents aspects de son fonctionnement, notamment les interactions entre facteurs de transcription et gènes à travers le cycle cellulaire, la sporulation ou la réponse au stress. Ainsi, la construction du réseau biologique a permis d'observer la participation de certains facteurs de transcription (95 sur les 142 étudiés) dans de multiples processus cellulaires. Les régulations de ces mécanismes apparaît donc comme résultant d'une somme d'interactions et non de certains facteurs pris individuellement. De plus, il est alors possible d'identifier les facteurs ayant une importance capitale sur le réseau comme ceux retrouvés dans les interactions de ces nombreux processus.[7]

Synthèse de composants essentiels

Une étude de construction de réseaux chez Arabidopsis thaliana, un organisme modèle de la biologie végétale, a permis d'analyser les réactions métaboliques pour en tirer différentes conclusions. Ainsi, la dite étude a pu cibler les réactions minimales nécessaires (227 sur les 1406 réactions identifiées initialement) pour synthétiser les principaux composants de la biomasse (cellulose, lignine, hemicellulose...) chez cette plante. L'action de la rubisco dans des contextes non-photosynthétiques a également été retrouvée, dans des conditions où la demande en ATP est faible : la rubisco est alors vue comme agissant hors du cycle de Calvin. Enfin, l'intégration de différents réseaux a permis de souligner le coût énergétique des réactions via la pondération des arètes des différentes réactions métaboliques.[8]

Impact d'un perturbateur endocrinien

De nombreux réseaux permettent de mettre en évidence l'action des certaines molécules exogènes sur l'organisme humain, et leur rôle potentiel de perturbateur endocrinien. C'est le cas notamment du bisphénol A (BPA), dont l'impact à fortes dose est connu pour perturber différentes voies métaboliques, notamment celles de la reproduction et du développement. Une étude basée notamment sur la reconstruction de réseau a étudié l'impact de ce composant, mais cette fois-ci à faible dose, en comparant son action à celle de l'œstradiol. La reconstruction de réseau a ainsi permis de mettre en évidence des voies métaboliques sur lesquelles les deux molécules avaient un impact commun : des analyses plus pousées de ces-dits réseau ont révélé un impact du BPA sur les voies de production et dégradation de ApoC-III et ApoC-I, ainsi que dans les voies métaboliques de la leucine et de l'isoleucine. Ainsi, il a été montré que le BPA même à faible dose partageait un impact similaire à celui de l'œstradiol sur différentes voies métaboliques, étroitement liées à la reproduction notamment.[9]

Régulation du système immunitaire

Un dernier exemple a permis d'étudier les mécanismes du système immunitaire chez les mammifères. Ainsi, la reconstruction de réseaux a permis de mettre en évidence différents sous-réseaux, concernant notamment la réponse immunitaire innée associée aux PAMP, ainsi que la réponse antivirale, qui ont toutes les deux été induites dans l'étude par la LPS, un composant d'E-coli. Il a été montré que le premier sous-système étudié possède des mécanismes dits de "feed-forward", et donc que son activation répondait en majorité à la présence de signaux (ici d'infection) continus. Le sous-système de la réaction antivirale quant à lui présente des boucles de "feed-forward" mais également des boucles de rétroaction, notamment pour contrôler la production de INFB1.[10]

Nouvelles perspectives

L’intégration de données biologiques additionnelles dont la quantité augmente de façon spectaculaire dans la conception des réseaux d’interactions annonce une avancée considérable dans le domaine de la biologie des systèmes. Parmi les nombreuses façon d’améliorer les réseaux biologiques on peut noter l’apport de l’information structurale des protéines, du contexte fonctionnel et évolutif, des conditions environnementales, de l’information temporelle ainsi que de la localisation spatiale.

Cependant, des barrières computationnelles et théoriques importantes brident l’intégration, la modélisation et l’exploitation de ces données[11].

Des progrès algorithmiques importants ont eu lieu ces dernières années pour permettre de modéliser des réseaux complexes qui intègrent des données dynamiques (comme par exemple les données spatiales et temporelles)[12].

Au niveau du hardware, l’utilisation des GPU (Processeur graphique) qui permettent de paralléliser les calculs à bas prix est de plus en plus répandue[13]. Cependant, le calcul sur GPU requiert un type d’algorithme adapté car il diffère des traditionnels calculs sur CPU, demandant un travail d’adaptation parfois conséquent.

Pour pouvoir développer des réseaux ou de nombreuses informations sont croisées, l’annotation des données doit être uniforme pour maintenir la cohérence du réseau et éviter les redondances. De nombreuses méthodes d’annotation automatiques ont été développées dans ce but[14][15], malgré cela elles sont toujours largement inférieures aux annotations humaines et mènent souvent à des erreurs[16]. Dans certaines bases de données qui contiennent des informations plus complexes comme les AOP (Adverse Outcome Pathway ou chemin aux issues défavorables), deux annotations d’un même phénomène peuvent différer, ce qui rend la modélisation encore plus difficile.

Liens externes

Références

  1. (en) P. Shannon, « Cytoscape: A Software Environment for Integrated Models of Biomolecular Interaction Networks », Genome Research, vol. 13, no 11,‎ , p. 2498–2504 (ISSN 1088-9051, PMID 14597658, PMCID PMC403769, DOI 10.1101/gr.1239303, lire en ligne, consulté le )
  2. Hendrik Rohn, Astrid Junker, Anja Hartmann et Eva Grafahrend-Belau, « VANTED v2: a framework for systems biology applications », BMC Systems Biology, vol. 6, no 1,‎ , p. 139 (ISSN 1752-0509, PMID 23140568, PMCID PMC3610154, DOI 10.1186/1752-0509-6-139, lire en ligne, consulté le )
  3. Weijun Luo et Cory Brouwer, « Pathview: an R/Bioconductor package for pathway-based data integration and visualization », Bioinformatics, vol. 29, no 14,‎ , p. 1830–1831 (ISSN 1460-2059 et 1367-4803, PMID 23740750, PMCID PMC3702256, DOI 10.1093/bioinformatics/btt285, lire en ligne, consulté le )
  4. (en) Martina Kutmon, Martijn P. van Iersel, Anwesha Bohler et Thomas Kelder, « PathVisio 3: An Extendable Pathway Analysis Toolbox », PLOS Computational Biology, vol. 11, no 2,‎ , e1004085 (ISSN 1553-7358, PMID 25706687, PMCID PMC4338111, DOI 10.1371/journal.pcbi.1004085, lire en ligne, consulté le )
  5. (en) Marvin Martens, Ammar Ammar, Anders Riutta et Andra Waagmeester, « WikiPathways: connecting communities », Nucleic Acids Research, vol. 49, no D1,‎ , D613–D621 (ISSN 0305-1048 et 1362-4962, PMID 33211851, PMCID PMC7779061, DOI 10.1093/nar/gkaa1024, lire en ligne, consulté le )
  6. Max Franz, Harold Rodriguez, Christian Lopes et Khalid Zuberi, « GeneMANIA update 2018 », Nucleic Acids Research, vol. 46, no W1,‎ , W60–W64 (ISSN 0305-1048 et 1362-4962, PMID 29912392, PMCID PMC6030815, DOI 10.1093/nar/gky311, lire en ligne, consulté le )
  7. (en) Nicholas M. Luscombe, M. Madan Babu, Haiyuan Yu et Michael Snyder, « Genomic analysis of regulatory network dynamics reveals large topological changes », Nature, vol. 431, no 7006,‎ , p. 308–312 (ISSN 1476-4687, DOI 10.1038/nature02782, lire en ligne, consulté le )
  8. (en) Mark G. Poolman, Laurent Miguet, Lee J. Sweetlove et David A. Fell, « A Genome-Scale Metabolic Model of Arabidopsis and Some of Its Properties », Plant Physiology, vol. 151, no 3,‎ , p. 1570–1581 (ISSN 0032-0889 et 1532-2548, PMID 19755544, DOI 10.1104/pp.109.141267, lire en ligne, consulté le )
  9. Nicolas J. Cabaton, Nathalie Poupin, Cécile Canlet et Marie Tremblay-Franco, « An Untargeted Metabolomics Approach to Investigate the Metabolic Modulations of HepG2 Cells Exposed to Low Doses of Bisphenol A and 17β-Estradiol », Frontiers in Endocrinology, vol. 9,‎ (ISSN 1664-2392, PMID 30319551, PMCID 6167423, DOI 10.3389/fendo.2018.00571, lire en ligne, consulté le )
  10. Ido Amit, Manuel Garber, Nicolas Chevrier et Ana Paula Leite, « Unbiased reconstruction of a mammalian transcriptional network mediating the differential response to pathogens », Science (New York, N.Y.), vol. 326, no 5950,‎ , p. 257–263 (ISSN 0036-8075, PMID 19729616, PMCID 2879337, DOI 10.1126/science.1179050, lire en ligne, consulté le )
  11. (en) Allison P. Heath et Lydia E. Kavraki, « Computational challenges in systems biology », Computer Science Review, vol. 3, no 1,‎ , p. 1–17 (DOI 10.1016/j.cosrev.2009.01.002, lire en ligne, consulté le )
  12. Alexander Groß, Barbara Kracher, Johann M. Kraus et Silke D. Kühlwein, « Representing dynamic biological networks with multi-scale probabilistic models », Communications Biology, vol. 2, no 1,‎ (ISSN 2399-3642, DOI 10.1038/s42003-018-0268-3, lire en ligne, consulté le )
  13. L. Dematte et D. Prandi, « GPU computing for systems biology », Briefings in Bioinformatics, vol. 11, no 3,‎ , p. 323–333 (ISSN 1467-5463 et 1477-4054, DOI 10.1093/bib/bbq006, lire en ligne, consulté le )
  14. (en) Anastasia Baryshnikova, « Systematic Functional Annotation and Visualization of Biological Networks », bioRxiv,‎ , p. 030551 (DOI 10.1101/030551, lire en ligne, consulté le )
  15. Brian J Haas, Steven L Salzberg, Wei Zhu et Mihaela Pertea, « Automated eukaryotic gene structure annotation using EVidenceModeler and the Program to Assemble Spliced Alignments », Genome Biology, vol. 9, no 1,‎ , R7 (ISSN 1465-6906, DOI 10.1186/gb-2008-9-1-r7, lire en ligne, consulté le )
  16. (en) Alexandra M. Schnoes, Shoshana D. Brown, Igor Dodevski et Patricia C. Babbitt, « Annotation Error in Public Databases: Misannotation of Molecular Function in Enzyme Superfamilies », PLOS Computational Biology, vol. 5, no 12,‎ , e1000605 (ISSN 1553-7358, PMID 20011109, PMCID PMC2781113, DOI 10.1371/journal.pcbi.1000605, lire en ligne, consulté le )