Centimorgan

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche

En génétique, le centimorgan (noté cM) est une unité mesurant le lien entre deux gènes. Cette mesure est une transformation directe du taux de recombinaison, et ainsi, se comporte comme lui : plus sa valeur entre deux gènes est faible, plus les gènes sont dits proches (ou liés), et plus la probabilité que ces gènes soient transmis ensemble (sous forme d'haplotype) à la génération suivante est grande.

Le centimorgan a été nommé ainsi en l'honneur du généticien Thomas Hunt Morgan par Alfred Sturtevant, l'un de ses étudiants.

Motivation[modifier | modifier le code]

Cette mesure a été inventée pour faciliter l'étude de l'évolution génétique des populations. En effet, une des grandes difficultés pour modéliser et analyser une population, notamment en génétique des populations, est la prise en compte des recombinaisons génétiques (sans parler de leur accumulation au cours des générations). Pour ce faire, il faut incorporer les taux de recombinaison dans les analyses.

Une alternative beacoup plus simple est d'incorporer dans les analyses les distances en centimorgan. En effet, cette mesure a été construite pour qu'elle possède les propriétés bien connues d'une distance[1] (c'est pour cela que l'on parle la plupart du temps distance en centimorgan), ce qui la rend bien plus pratique à utiliser que les taux de recombinaison qui, eux, ne sont pas additifs, et particulièrement intéressante pour modéliser les processus de recombinaison.

Toutefois, bien qu'elle en ait les propriétés, cette grandeur n'est pas une distance physique : la relation entre la distance en centimorgan et la distance physique (en nombre de paires de bases) n'est ni constante ni universelle. Cette relation varie selon les espèces, mais aussi le long du génome au sein d'un même organisme : par exemple, chez les Humains 1 cM correspond en moyenne à 1 mégabase, alors que chez l'Arabidopsis thaliana 1 cM correspond en moyenne à 200 kilobases[2]. Cette relation peut même varier entre les sexes des individus d'une même espèce.

Formulation mathématique[modifier | modifier le code]

Soit le taux de recombinaison entre les deux locus A et B. La distance en centimorgan entre ces deux locus est définie comme :

Pour démontrer cette formule, il faut supposer que les taux de recombinaison sont compris entre 0 et 0.5, que l'interférence génétique est négligeable et que pour un taux de recombinaison infiniment petit, sa valeur est égale à celle de la distance en Morgan (pas en centimorgan).

Soient trois locus A, B et C situés le long d'un chromosome et dans cet ordre, et , et les taux de recombinaison respectifs entre A et B, B et C, et A et C. En supposant l'absence d'interférence génétique, il est possible de montrer que :

et de se rendre compte premièrement que les taux de recombinaison ne sont pas additifs, et que, deuxièmement, pour n'importe quelle valeur de , respecte la relation de Chasles, nécessaire pour qualifier cette grandeur de distance. Pour trouver la valeur de , il nous faut utiliser la troisième hypothèse, qui se formule mathématique comme suit :

En utilisant le développement limité du logarithme, on conclut que pour la distance en Morgan (et donc 50 en centimorgan), d'où la formule.

Intérêt du centimorgan : processus de recombinaison[modifier | modifier le code]

Grâce au fait que cette mesure se comporte comme une distance, il est très facile de modéliser les recombinaisons le long du génome. En effet, il est possible de projeter la carte génétique d'un chromosome d'un organisme en une carte fictive, sur laquelle deux locus sont distants selon leur distance en centimorgan. Sur cette carte fictive, les points de recombinaison suivent un processus de Poisson d'intensité , où est la longueur du chromosome en Morgan.

Estimation du taux de recombinaison[modifier | modifier le code]

Il est possible de déterminer le taux de recombinaison, nécessaire pour calculer la distance en centimorgan, avec les gamètes recombinants et les gamètes non recombinants. Prenons l'exemple des pois : en croisant de lignées homozygotes [jaune + lisse] x [vert + ridé] en F1, on obtient 100 % d'hétérozygotes pour les deux locus, avec uniquement deux haplotypes possibles : [jaune + lisse] et [vert + ridé].

Si le taux de recombinaison que l'on cherche à estimer est , alors en F2 les proportions attendues des gamètes [jaune + lisse] est de , [vert + ridé] de , [jaune + ridé] de et [vert + lisse] de . Les réalisations de ces proportions permettent d'estimer le taux de recombinaison .

Exemple de recombinaison chez l'homme[modifier | modifier le code]

Supposons deux gènes liés sur un même chromosome, c'est-à-dire très proches l'un de l'autre et ne se séparant pas par enjambement lors de la méiose. Par exemple dans le système de groupe sanguin MNS, sans considérer les nombreux variants mineurs de ce système, le gène codant une protéine, la glycophorine A (GPA), possède deux allèles M et N, et le gène codant une seconde protéine, la glycophorine B (GPB), possède deux allèles S et s. Il y a donc 4 haplotypes possibles dans ce système : MS, Ms, NS, Ns. Supposons un père ayant reçu de ses parents les haplotypes MS et Ns donc de génotype MS/Ns et de phénotype MNSs, marié à une femme homozygote MS/MS de phénotype MMSS. Leurs enfants seront nécessairement MS de par leur mère, et seront MS ou Ns de par leur père, mais ne pourront pas être Ms ou NS de par leur père. À moins d'une exceptionnelle recombinaison, dont la fréquence de survenue dans les familles donne une idée de la distance entre les gènes exprimée en centimorgans, les enfants MM seront nécessairement SS, et les enfants MN seront nécessairement Ss.

Haplotypes maternels
MS MS
Haplotypes paternels MS MS / MS MS / MS
Ns MS / Ns MS / Ns

Ainsi, dans l'exemple précédent, sur 4 enfants, 2 sont MMSS, et deux MNSs. Si nous connaissons à l'origine les haplotypes paternels, nous concluons qu'il n'y a aucun recombinant. Si, ce qui serait exceptionnel, nous observions dans cette famille un cinquième enfant qui serait MNSS (l'ensemble des autres marqueurs confirmant la paternité), ce serait un recombinant, et nous dirions que le pourcentage de recombinaison dans cette dernière famille est d'un enfant sur cinq, soit 20 %, donc que la distance entre les deux gènes est d'environ 11 centimorgans. Si nous ne connaissons pas les haplotypes parentaux, la probabilité de recombinaison calculée n'est pas exactement la même du fait que les haplotypes parentaux sont déterminés à partir des enfants. Il fallait donc un grand nombre de familles (nombreuses de préférence) d'au moins deux enfants et/ou des familles étudiées sur trois générations, pour estimer, avant la biologie moléculaire, une distance exprimée en centimorgans.

La méthode des lod scores permet de cumuler les rapports, à la probabilité sous l'hypothèse d'indépendance, des probabilités d'observations calculées pour divers taux de recombinaison au sein de chaque famille étudiée. En effet, en exprimant en logarithmes décimaux les rapports calculés pour chaque taux choisi, on obtient des scores que l'on peut additionner au fur et à mesure des nouvelles familles étudiées. Le score le plus élevé obtenu pour un taux donné, correspond au maximum de vraisemblance.

Cette méthode d'étude familiale permettait, avant la biologie moléculaire, de déterminer non seulement une fréquence de recombinaison entre deux gènes, mais également l'ordre des gènes sur le chromosome lorsque trois gènes, ou plus, étaient liés.

Un modèle animal, la drosophile[modifier | modifier le code]

Le modèle animal de la drosophile, de par son grand nombre d'individus à reproduction rapide et ses quatre gros chromosomes polytènes très visibles dans les cellules des glandes salivaires, a permis à T.H. Mogan et ses disciples de suivre plusieurs générations d'individus, et de théoriser l'origine (située sur le chromosome) et conséquences (crossing over, carte génétique...) de la génétique mendélienne.

Le taux de recombinaison le long des chromosomes de la drosophile peut être estimé grâce au "Recombination Rate Calculator".

Notes et références[modifier | modifier le code]

  1. (en) JBS Haldane, « The combination of linkage values and the calculation of distances between the loci of linked factors », Journal of Genetics 8.29,‎ , p. 299-309 (lire en ligne)
  2. (en) A.C. Cavell, « Collinearity between a 30-centimorgan segment of Arabidopsis thaliana chromosome 4 and duplicated regions within the Brassica napus genome », Genome,‎ , p. 41(1): 62-69 (lire en ligne)

Voir aussi[modifier | modifier le code]