Génome

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
De l'ADN à la vie.

Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé dans son acide désoxyribonucléique (à l'exception de certains virus dont le génome est porté par des molécules d'acide ribonucléique (ARN). Il contient en particulier toutes les séquences codantes (transcrites en ARN messagers, et traduites en protéines) et ARN non codantes (non transcrites, ou transcrites en ARN, mais non traduites).

Le génome est souvent comparé à une encyclopédie dont les différents volumes seraient les chromosomes. Les gènes seraient les phrases contenues dans ces volumes et ces phrases seraient écrites dans un langage génétique représenté par quatre bases (adénine, guanine, cytosine et thymine) abrégées en AGCT.

La science qui étudie le génome est la génomique.

Il ne faut pas confondre le génome et le caryotype, qui caractérise les chromosomes.

Génomes dans le monde vivant[modifier | modifier le code]

Les 46 chromosomes qui forment le caryotype du génome humain

Chez les virus, le génome est contenu soit dans une (ou plusieurs) molécule(s) d'ADN ou d'ARN, à simple ou double brin.

Chez les procaryotes (bactéries et archées), le génome est généralement contenu dans une molécule d'ADN circulaire. Peut aussi exister un génome extrachromosomique, contenu dans des plasmides et des épisomes. Certaines bactéries, comme les actinomycètes, ont cependant des génomes linéaires.

Chez les eucaryotes, on distingue :

  • le génome nucléaire, contenu dans le noyau qui caractérise les eucaryotes. C'est de ce génome dont on parle en général quand on parle du génome d'un eucaryote (animal, plante, champignon, etc.) ;
  • les génomes non-nucléaires, contenus dans des organites :

Chez quelques eucaryotes (par exemple la levure) sont aussi présents des plasmides (de taille réduite).

Chez l'homme en particulier (organisme eucaryote), le génome nucléaire est réparti sur 46 chromosomes, soit 22 paires d'autosomes et deux gonosomes (XX chez la femme, XY chez l'homme).

Taille du génome[modifier | modifier le code]

Article détaillé : Taille du génome.

La taille du génome se mesure en nombre de nucléotides, ou bases. La plupart du temps, on parle de pb (pour paire de bases, puisque la majorité des génomes est constituée de doubles brins d'ADN ou bien d'ARN). On emploie souvent les multiples kb (pour kilobase) ou Mb (mégabase), qui valent respectivement 1 000 et 1 000 000 bases. La taille du génome peut aussi être exprimée en pg (picogrammes), ce qui correspond à la masse d'ADN (haploïde) par cellule. 1 pg représente environ 1 000 Mpb.

La taille du génome peut varier de quelques kilobases chez les virus à plusieurs centaines de milliers de Mb chez certains eucaryotes. La quantité d'ADN, contrairement à ce qui a été longtemps supposé, n'est pas proportionnelle à la complexité apparente d'un organisme. Les urodèles, les dipneustes, certaines fougères ou encore certains conifères comme les pins [1] ont des génomes plus de 10 fois plus grands que le génome humain. Ce constat est fréquemment appelé paradoxe de la valeur C.

À ce jour, l'organisme vivant ayant le plus grand génome connu est la plante herbacée Paris japonica ; celui-ci est long d'environ 150 milliards de paires de bases, soit près de 50 fois la taille du génome humain[2].

Certaines amibes, comme Amoeba dubia pourraient avoir un génome encore plus grand, jusqu'à 200 fois plus grand que celui d' Homo sapiens. Cette détermination est toutefois contestée et pourrait être faussée par le fait que ces organismes unicellulaires phagocytent un grand nombre d'autres microorganismes dont elles ingèrent les chromosomes, ce qui vient contaminer la détermination de leur contenu exact en ADN[2].

Contenu des génomes[modifier | modifier le code]

Les génomes sont constitués de régions codantes, qui correspondent aux gènes, et des régions non-codantes. Les régions non-codantes sont constituées des segments intergéniques et des introns à l'intérieur des gènes. Le séquençage de l'ADN permet d'établir l'enchaînement des nucléotides des brins d'ADN, afin de cartographier le génome.

Gènes[modifier | modifier le code]

Le nombre des gènes dans le génome des organismes vivants varie beaucoup moins que la taille du génome. Chez la plupart des organismes vivants il est compris entre 1 000 et 40 000. Il n'est pas non plus corrélé à la complexité apparente des organismes. La paramécie, organisme cilié unicellulaire, possède ainsi un génome contenant plus de gènes que celui de l'homme[3]. Le tableau suivant donne la taille totale du génome (y compris les régions hétérochromatiques qui ne sont en général pas séquencées) et le nombre de gènes présents chez un certain nombre d'organismes dont le génome a été entièrement séquencé.

Organisme Nombre de gènes Taille du génome
Haemophilus influenzae (bactérie) 1 800[4] 1,8 Mpb
Escherichia coli (bactérie) 4 300[5] 4,6 Mpb
levure de bière 6 000[6] 12,1 Mpb
Drosophile (insecte) ~14 500[7] 150,0 Mpb
Nématode ~21 000 110,0 Mpb
Arabette (plante à fleur) ~25 500 110,0 Mpb
Souris ~22 000 2700,0 Mpb
Homme ~22 000[8] 3400,0 Mpb
Paramécie ~40 000[3] 72,0 Mpb

Régions non-codantes[modifier | modifier le code]

Comme le nombre de gènes varie dans des proportions beaucoup plus limitées que la taille du génome, lorsque la taille du génome augmente (voir section précédente), la proportion du génome qui correspond aux régions codantes diminue. On observe une augmentation de la longueur des introns ainsi que des régions intergéniques. Les différents types de régions non-codantes sont listés ci-dessous avec, à titre d'exemple, leur proportion dans le génome humain[9] qui est représentatif de la situation chez les mammifères :

  • Les introns dans les gènes. Dans le génome humain, les régions codantes (exons) représentent 1,5 % de la longueur totale du génome et les introns près de 26 %.
  • Les pseudogènes qui représentent 1,5 % du génome humain
  • Les répétitions en tandem qui représentent 5 % du génome humain
  • Les répétitions dispersées qui représentent 45 % du génome humain
  • L'hétérochromatine. Environ 10 % dans le génome humain
  • Les autres régions non-codantes. Environ 11 % du génome humain

En plus des gènes, les génomes contiennent en effet souvent des pseudogènes. Ce sont des séquences qui ont de nombreuses caractéristiques des gènes (séquences codantes, séquence promoteur, signaux d'épissage…), mais qui ne sont pas fonctionnelles et ne conduisent donc pas à la production d'une protéine. Ceci peut être la conséquence de mutations génétiques qui ont altéré sa séquence. Le génome humain contient ainsi environ 20 000 pseudogènes, soit pratiquement autant que de gènes fonctionnels. Souvent les pseudogènes sont des duplications d'un gène actif qui conserve la fonctionnalité pour la cellule. On dénombre ainsi plusieurs pseudogènes pour le cytochrome c dans notre génome, en plus du gène fonctionnel. Dans d'autres cas, la transformation d'un gène en pseudogène conduit à une perte de fonction, lorsque c'est la seule copie active qui est atteinte par des mutations. Dans notre génome, c'est le cas du gène codant la L-guluno-γ-lactone oxydase, une enzyme permettant la synthèse de l'acide ascorbique qui est devenu un pseudogène, ce qui fait que nous devons absorber de la vitamine C chaque jour dans notre alimentation, faute de pouvoir la synthétiser.

Dans les grands génomes, la plus grande partie des régions non-codantes est constituée de séquences répétées et plus particulièrement de répétitions dispersées. Leur proportion augmente aussi avec la taille du génome. Dans le génome humain, ce taux est d'environ 45 %[8]. Il dépasse 80 % dans le génome du blé, qui est cinq fois plus grand que celui de l'homme.

Annotation des génomes[modifier | modifier le code]

Article connexe : Bio-informatique.

L’annotation d’un génome consiste à analyser la séquence nucléotidique qui constitue l’information brute pour en extraire l'information biologique. Cette analyse poursuit deux objectifs successifs, le premier est de localiser les gènes et les régions codantes et le second est, une fois ces gènes localisés, d'identifier ou de prédire leur fonction biologique. Ces deux étapes reposent initialement sur l'utilisation d'outils algorithmiques sophistiqués, dont le développement constitue l'un des champs de la bio-informatique.

Pour localiser les gènes, il existe différents outils complémentaires : des méthodes statistiques qui identifient les régions codantes sur la base de l'analyse de la fréquence des codons, des méthodes de recherche de motifs et en particulier les signatures caractéristiques du démarrage et de la fin, des jonctions entre les introns et les exons, séquences promotrices, terminatrices, sites de fixation du ribosome (RBS).

Pour prédire la fonction potentielle de ces gènes (leur attacher une étiquette, portant leur nom probable, leur fonction probable, leurs interactions probables), on utilise des programmes de recherche d'homologie de séquence. Lorsque le produit d'un gène prédit à des ressemblances avec une protéine connue, on en déduit en général une homologie probable de fonction[10]. On peut également identifier dans la séquence protéique prédite des motifs d'acides aminés caractéristiques de certaines classes de protéines (kinases, protéases…) ce qui peut permettre d'attribuer une fonction probable au gène correspondant. Ce type d'annotation est appelé annotation fonctionnelle.

L'annotation peut être automatique c'est-à-dire s’appuyer uniquement sur des algorithmes recherchant des similarités (de séquence, de structure, de motifs…), permettant de prédire (en fait deviner) la fonction d’un gène. Elle aboutit au transfert « automatique » de l’information figurant dans l’étiquette d’un gène « similaire » d’un génome déjà annoté au génome en cours d’annotation

L'annotation automatique initiale est parfois complétée par une annotation manuelle par des experts qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux. Celle-ci peut ainsi éviter le transfert automatique d’erreurs et donc leur propagation, ce qui peut devenir le grand problème auquel devra se confronter la génomique, compte tenu de l'afflux massif de données issues en particulier, des nouvelles techniques de séquençage (voir pyroséquençage).

Notes et références[modifier | modifier le code]

  1. (en) A.M. Morse, D.G.. Peterson, M.N. Islam-Faridi, K.E. Smith, Z. Magbuana, S.A. Garcia, T.L. Kubisiak, H.V. Anderson, J.E. Carlson, C.D. Nelson et J.M. Davis, « Evolution of genome size and complexity in Pinus », PLoS One, vol. 4,‎ 2009, e4332 (lien PubMed?, lire en ligne)
  2. a et b (en) J. Pellicer, M. Fay et I. J. Leitch,, « The largest eukaryotic genome of them all? », Botanical Journal of the Linnean Society, vol. 164,‎ 2010, p. 10–15 (lire en ligne).
  3. a et b (en) J.M. Aury, O. Jaillon et L. Duret et al., « Global trends of whole-genome duplications revealed by the ciliate Paramecium tetraurelia. », Nature, vol. 444,‎ 2006, p. 171-178 (lien PubMed?)
  4. (en) R.D. Fleischmann et al., « Whole-genome random sequencing and assembly of Haemophilus influenza Rd », Science, vol. 269,‎ 1995, p. 496-512 (lien PubMed?)
  5. (en) FR Blattner, G Plunkett, CA Bloch, NT Perna, V Burland, M Riley, J Collado-Vides, JD Glasner, CK Rode, GF Mayhew, J Gregor, NW Davis, HA Kirkpatrick, MA Goeden, DJ Rose, B Mau et Y Shao, « The complete genome sequence of Escherichia coli K-12. », Science, vol. 277,‎ 1997, p. 1453-1462 (lien PubMed?)
  6. (en) A. Goffeau, B.G. Barrell, H. Bussey, R.W. Davis, B. Dujon, H. Feldmann, F. Galibert, J.D. Hoheisel, C. Jacq, M. Johnston, E.J. Louis, H.W. Mewes, Y. Murakami, P. Philippsen, H. Tettelin et S.G. Oliver, « Life with 6000 genes », Science, vol. 274,‎ 1996, p. 563-567 (lien PubMed?)
  7. (en) M.D. Adams et S.E. Celniker et al., « The genome sequence of Drosophila melanogaster », Science, vol. 287,‎ 2000, p. 2185-2195 (lien PubMed?)
  8. a et b (en) International Human Genome Sequencing Consortium, « Initial sequencing and analysis of the human genome », Nature, vol. 409,‎ 2001, p. 820-921 (lien PubMed?)
  9. (en) T.R. Gregory, « Synergy between sequence and size in large-scale genomics », Nat. Rev. Genet., vol. 6, no 9,‎ 2005, p. 699-708 (lien PubMed?, lire en ligne)
  10. F. Dardel et F. Képès, Bioinformatique : génomique et post-génomique, Editions de l'École Polytechnique,‎ 2002, 153-180 p. (ISBN 978-2730209274)

Annexes[modifier | modifier le code]

Sur les autres projets Wikimedia :

Bibliographie[modifier | modifier le code]

  • Terence A. Brown, Génomes, Flammarion médecine-sciences, 2004.
  • Génétique, gènes et génomes : Cours et questions de révision, ouvrage collectif par Jean-Luc Rossignol, Roland Berger, Jean Deutsch, Marc Fellous, Dunod, 2004.
  • Stuart J. Edelstein, Des gènes aux génomes, Odile Jacob, 2002.

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]

Filmographie[modifier | modifier le code]