Code génétique

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
(en) À gauche, un brin d'ARNm avec sa séquence de bases nucléiques ; à droite, les codons correspondants, chacun spécifiant un acide aminé.

Le code génétique est l'ensemble des règles permettant de traduire les informations contenues dans le matériel génétique des cellules vivantes pour produire des protéines. Ce code établit une correspondance entre un triplet de nucléotides, appelé codon (voir infra) sur l'ARN messager et un acide aminé qui sera incorporé dans la protéine en cours de synthèse. L'ARN messager est lui-même produit par transcription à partir de l'ADN.

Cette correspondance codon-acide aminé permet de résumer le code génétique sous forme d'une table associant chacun des 64 codons ou triplets possibles (43) avec l'un des 20 acides aminés présents dans les protéines.

Dans la cellule, ce sont les ribosomes qui effectuent l'interprétation du code génétique, un processus appelé la traduction génétique. Situés dans le cytoplasme de la cellule, les ribosomes assemblent les protéines en réalisant la lecture séquentielle des codons sur l'ARN. Pour réaliser cette opération de décodage, ils utilisent des ARN intermédiaires indispensables, les ARN de transfert. Ces ARN sont des adaptateurs, qui d'une part interagissent avec le codon auquel ils s'apparient via un triplet de nucléotides complémentaires, l'anticodon, et d'autre part portent l'acide aminé correspondant attaché par une liaison ester à leur extrémité 3'-hydroxyle.

Le code génétique est très largement conservé, le même codon ayant la même traduction en acide aminé chez la plupart des espèces vivantes. Il existe quelques variations mineures, en particulier dans le génome des mitochondries et chez les organismes ciliés.

Par extension, et de façon impropre, le grand public appelle parfois « code génétique » ce qui est en fait le génotype d'une cellule, c'est-à-dire l'ensemble de ses gènes.

Structure du code[modifier | modifier le code]

Lors de l'expression des protéines à partir du génome, des portions de l'ADN génomique sont transcrites en ARN messager. Cet ARN messager (ou ARNm) contient des régions non-codantes, qui ne sont pas traduites en protéines, et une ou plusieurs régions codantes, qui sont décodées par le ribosome pour produire une ou plusieurs protéines. L'ARNm est composé de l'enchaînement de quatre types de bases nucléotidiques, A, C, G et U, qui constitue une sorte d'alphabet. Le code génétique est un code de longueur fixe égale à trois sur cet alphabet. Dans les régions codantes de l'ARNm, ce code associe un triplet de nucléotides ou codon à un acide aminé dans la protéine associée.

Le nombre de séries de trois lettres prises dans un alphabet de quatre lettres étant de 43 , le code génétique comporte 64 codons différents, codant directement les vingt acides aminés standard et les signaux de fin de la traduction, appelés codons-stop ou codons de terminaison. Deux acides aminés mineurs, la sélénocystéine et la pyrrolysine sont insérés de façon spécifique au niveau de certains codons-stop, dont le recodage est obtenu grâce à des structures spécifiques sur l'ARN messager.

Cette correspondance de 64 triplets ou codons avec 20 acides aminés principaux implique que ce code est très redondant — on dit qu'il est dégénéré — car chaque élément exprimé (acides aminés, fin de traduction) y est codé en moyenne par trois codons distincts : une mutation génétique sur trois affectant une séquence d'ADN codante n'entraîne pas de modification de la protéine traduite. On dit alors que cette mutation est silencieuse.

Ce code permet la synthèse des protéines. L'ADN est transcrit en ARN-messager (ARNm). Celui-ci est traduit par les ribosomes qui assemblent les acides aminés présents sur des ARN de transfert (ARNt). L'ARNt contient un « anti-codon », complémentaire d'un codon, et porte l'acide aminé correspondant au codon. L'estérification spécifique de l'acide aminé correspondant à un ARNt donné est réalisé par les aminoacyl-ARNt synthétases, une famille d'enzymes spécifiques chacune d'un acide aminé donné. Pendant la traduction, le ribosome lit l'ARNm codon par codon, met en relation un codon de l'ARNm avec l'anti-codon d'un ARNt et ajoute l'acide aminé porté par celui-ci à la protéine en cours de synthèse.

Codons[modifier | modifier le code]

Le tableau suivant donne la signification standard de chaque codon de trois bases nucléiques d'ARN messager. Les principaux codages alternatifs sont indiqués après une barre oblique :

  2e base
U C A G
1re base U UUU Phe UCU Ser UAU Tyr UGU Cys U 3e base
UUC Phe UCC Ser UAC Tyr UGC Cys C
UUA Leu UCA Ser UAA STOP Ocre UGA STOP Opale / Sec / Trp A
UUG Leu / START UCG Ser UAG STOP Ambre / Pyl UGG Trp G
C CUU Leu CCU Pro CAU His CGU Arg U
CUC Leu CCC Pro CAC His CGC Arg C
CUA Leu CCA Pro CAA Gln CGA Arg A
CUG Leu CCG Pro CAG Gln CGG Arg G
A AUU Ile ACU Thr AAU Asn AGU Ser U
AUC Ile ACC Thr AAC Asn AGC Ser C
AUA Ile ACA Thr AAA Lys AGA Arg A
AUG Met & START ACG Thr AAG Lys AGG Arg G
G GUU Val GCU Ala GAU Asp GGU Gly U
GUC Val GCC Ala GAC Asp GGC Gly C
GUA Val GCA Ala GAA Glu GGA Gly A
GUG Val / START GCG Ala GAG Glu GGG Gly G
      Acide aminé apolaire
      Acide aminé polaire
      Acide aminé acide
      Acide aminé basique
      Codon STOP
Tableau inverse

Comme chaque acide aminé d'une protéine est codé par un ou plusieurs codons, il est parfois utile de se référer au tableau suivant ; les principaux codages alternatifs sont indiqués en petits caractères entre parenthèses.

Acide aminé
 
 
Codons
Alanine Ala A GCU, GCC, GCA, GCG.
Arginine Arg R CGU, CGC, CGA, CGG ; AGA, AGG.
Asparagine Asn N AAU, AAC.
Acide aspartique Asp D GAU, GAC.
Cystéine Cys C UGU, UGC.
Glutamine Gln Q CAA, CAG.
Acide glutamique Glu E GAA, GAG.
Glycine Gly G GGU, GGC, GGA, GGG.
Histidine His H CAU, CAC.
Isoleucine Ile I AUU, AUC, AUA.
Leucine Leu L UUA, UUG ; CUU, CUC, CUA, CUG.
Lysine Lys K AAA, AAG.
Méthionine Met M AUG.
Phénylalanine Phe F UUU, UUC.
Proline Pro P CCU, CCC, CCA, CCG.
Pyrrolysine Pyl O UAG, après séquence PylIS.
Sélénocystéine Sec U UGA, après séquence SecIS.
Sérine Ser S UCU, UCC, UCA, UCG ; AGU, AGC.
Thréonine Thr T ACU, ACC, ACA, ACG.
Tryptophane Trp W UGG. (UGA)
Tyrosine Tyr Y UAU, UAC.
Valine Val V GUU, GUC, GUA, GUG.
START AUG. (UUG, GUG)
STOP Ambre UAG.
STOP Ocre UAA.
STOP Opale UGA.

La région codante d'un ARNm se termine toujours par un « codon non-sens » aussi appelé « codon-stop », il existe 3 codons-stop (UAG, UAA et UGA) qui déclenchent l'arrêt de la traduction par le ribosome et la libération de la protéine terminée. Le codon UGA peut parfois coder une sélénocystéine, produisant alors une sélénoprotéine.

Dégénérescence du code génétique[modifier | modifier le code]

Comme on peut le voir dans le tableau ci-dessus, le code génétique est dégénéré, c'est-à-dire qu'il existe plusieurs combinaisons de trois lettres pour coder le même acide aminé. Ainsi, l'histidine peut être codée par les codons CAU et CAC. On parle alors de codons synonymes. Seuls deux acides aminés ne montrent pas de redondance de leur code: la méthionine et le tryptophane. Le nombre de codons synonymes n'est pas le même pour tous les acides aminés. Ainsi, en fonction du nombre de codons différents codant le même acide aminé, on distingue des duos (histidine, lysine, asparagine, glutamine, acide glutamique, asparagine, tyrosine, cystéine et phénylalanine), des trios (isoleucine et codons stop), des quatuors (thréonine, proline, alanine, glycine et valine) et des sextuors (arginine, leucine et sérine). Il existe donc souvent plusieurs ARNt associés au même acide aminé, capables de lier les différents triplets dégénérés de nucléotides sur l'ARN. On parle alors d'ARNt isoaccepteurs, car ils acceptent le même acide aminé.

L'utilisation par un organisme donné des différents codons synonymes pour un acide aminé n'est pas aléatoire. On observe en général ce qu'on appelle un biais d'usage du code. La cellule exprime en général des préférences assez marquées dans le choix des codons synonymes, ainsi par exemple, le codon AUA qui code l'isoleucine est largement évité chez l'homme comme chez Escherichia coli, par rapport aux deux autres codons synonymes AUU et AUC. Cette préférence d'usage des codons est très variable selon l'organisme, et dépend, au sein d'un même génome, de la partie considérée (nucléaire, mitochondriale, chloroplastique, ...). Elle est en revanche assez générale pour l'ensemble des gènes portés par la même partie.

Variantes du code génétique[modifier | modifier le code]

À de très rares exceptions près, le code génétique est le même pour tous les êtres vivants, ce qui suggère que ce code était déjà utilisé par le dernier ancêtre commun universel de tous les organismes vivants actuels.

Principe de base[modifier | modifier le code]

Ce système de codage entre l'ADN et les acides aminés s'est avéré être utilisé par l'immense majorité des être vivants. De l'Homme à la bactérie, ce même code est utilisé. Cette universalité du code est expliquée en termes d'évolution : si le changement d'une base dans l'ADN peut entraîner des changements parfois bénéfiques dans l'être vivant, cela n'est que peu probable dans le cas d'un changement du codage. En effet, cela reviendrait à changer la position des touches d'une machine à écrire d'un dactylographe tapant à l'aveugle : le texte résultant sera fort probablement complètement illisible. Le système de codage est ainsi resté inchangé durant les milliards d'années d'évolution de la vie. On estime généralement qu'il s'est fixé ainsi très tôt dans l'histoire de la vie, probablement avant le dernier ancêtre commun à tous les êtres vivants (baptisé LUCA pour Last Universal Common Ancestor). Certains scientifiques ont émis l'hypothèse que la structure du code génétique était née dans les abysses, chez des organismes thermophiles et barophiles[1].

Exceptions[modifier | modifier le code]

Cette vision des choses est simpliste : si l'immense majorité des organismes vivants aujourd'hui utilisent le code génétique standard, les généticiens ont découvert quelques variantes à ce code. De plus, ces variantes se retrouvent dans les différentes lignées évolutives et consistent en des traductions différentes de quelques codons.

  • Le codon CUG, traduit habituellement par la leucine, correspond à la sérine[2] chez de nombreuses espèces de champignons Candida[3] .
  • De nombreuses espèces d'algues vertes du genre Acetabularia utilisent les codons-stop UAG et UAA pour coder la glycine.
  • De nombreux ciliés, comme Paramecium tetraurelia, Tetrahymena thermophila ou Stylonychia[4] lemnae utilisent les codons UAG et UAA pour coder la glutamine au lieu de stop. Seul UGA est stop chez ces cellules.
  • Le cilié Euplotes octocarinatus utilise le codon UGA pour coder la cystéine, ne laissant que UAG et UAA comme stops.
  • Dans les trois règnes du vivant, on trouve parfois un 21e acide aminé, la sélénocystéine, codé par le codon UGA (habituellement un codon-stop).
  • Dans les archées et les eubactéries, un 22e acide aminé, la pyrrolysine est parfois rencontré, codé par UAG (également habituellement un codon-stop).

Le premier acide aminé incorporé (déterminé par le codon-start AUG) est une méthionine chez la plupart des eucaryotes, plus rarement une valine (chez certains eucaryotes), et une formyl-méthionine chez la plupart des procaryotes. En outre, ce codon d'initiation est parfois GUG ou GUU chez certains procaryotes.

On pense donc aujourd'hui que la vie comptait à l'origine un nombre plus restreint d'acides aminés. Ces acides aminés ont été modifiés et ont vu leur nombre augmenter (par un phénomène similaire à la formation de la sélénocytéine et à la pyrrolysine qui dérivent de la sérine et de la lysine, respectivement, modifiées alors qu'elles sont sur leur ARN de transfert sur le ribosome.) Ces nouveaux acides aminés ont alors utilisé un sous-ensemble des ARN de transfert et leur codage associé. On remarque peut-être des traces de ce phénomène avec la glutamine, qui dans certaines bactéries, dérive du glutamate encore attaché à son ARN de transfert.

Autre exception : le code est parfois ambigu. Ainsi par exemple, le codon UGA peut dans un même organisme (Escherichia coli par exemple) coder tantôt pour le 21ème acide aminé évoqué plus haut (sélénocystéine) ou pour "stop".

Mitochondries[modifier | modifier le code]

Article détaillé : génome mitochondrial.

Les variations du code utilisés par les mitochondries sont encore plus nombreuses.

  • Dans le génome mitochondrial de la levure de boulanger (Saccharomyces cerevisiaie), la thréonine est codée par 4 des 6 codons correspondant classiquement à la leucine. comme la tymine.
  • Dans les mitochondries humaines, AUA, comme AUG, code la méthionine et non l'isoleucine.
  • Dans les mitochondries humaines, AGA et AGG sont des codons-stop et ne codent pas l'arginine.
  • Dans les mitochondries humaines, de la levure de boulanger, de spiroplasmes et de Mycoplasma mollicutes, UGA n'est pas un codon-stop mais code le tryptophane.

Notes et références[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Article connexe[modifier | modifier le code]

Lien externe[modifier | modifier le code]