PLINK
PLINK [1] est un logiciel open source gratuit d'analyse d'association pangénomique conçu par Shaun Purcell. Le logiciel est conçu pour effectuer un large éventail d'analyses génétiques usuelles à grande échelle.
Fonctionnalités
[modifier | modifier le code]PLINK prend actuellement en charge les fonctionnalités suivantes :
- Gestion de données.
- Statistiques descriptives (indice de fixation, proportion de données manquantes, tests d'équilibre d'Hardy – Weinberg, coefficient de consanguinité, etc.).
- Calcul du déséquilibre de liaison (en anglais : linkage disequilibrium ou LD).
- Calcul matriciel d'identité par descendance (Identity by descent ou IBD) et d'identité par état (Identity by state ou IBS).
- Analyse de la stratification de la population, telle qu'une analyse en composantes principales (ACP).
- Analyse d'association telle que l'étude d'association génome-entier pour les études cas-témoins (où le caractère étudié est binaire) et les caractères quantitatifs.
- Tests d'épistasie.
Formats de fichiers
[modifier | modifier le code]PLINK a ses propres formats de fichiers textes (.ped) et de fichiers binaires (.bed) qui servent de fichiers d'entrée pour la plupart des analyses. Un .map accompagne un fichier .ped et fournit des informations sur les variantes, tandis que les fichiers .bim et .fam accompagnent les fichiers .bed afin de compléter les données binaires.
La version la plus récente (PLINK 2.0) accepte en entrée des fichiers VCF, BCF, Oxford et 23andMe, qui sont généralement transformés en format .bed (binaire) avant d'effectuer les analyses souhaitées. Avec certains formats tels que VCF, cette transformation s'accompagne d'une perte d'informations comme la phase du caryotype et le dosage qui seront ignorés.
PLINK propose une variété de formats de sortie, notamment des fichiers adaptés au logiciel BEAGLE ou au format VCF pour pouvoir utiliser d'autres logiciels. De plus, PLINK est conçu pour fonctionner en conjonction avec R et peut produire des fichiers à traiter par certains paquets R.
Extensions et développements actuels
[modifier | modifier le code]- PLINK 2.0, une mise à jour complète de PLINK, développée par Christopher Chang montre une vitesse améliorée pour divers calculs d'association à l'échelle du génome y compris le calcul d'identité par état, le "pruning" basé sur LD et l'analyse d'association [2].
- PLINK/SEQ est une bibliothèque open-source C/C++ conçue pour analyser des études génome-entier et exome-entier (en anglais : Whole Genome Shotgun et Whole Exome Shotgun).
- MQFAM est un test d'association multivarié qui peut être appliqué efficacement à de grands échantillons de population et est implémenté dans PLINK.
Références
[modifier | modifier le code]- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « PLINK_(genetic_tool-set) » (voir la liste des auteurs).
- (en) Andries T. Marees, Hilde de Kluiver, Sven Stringer, Florence Vorspan, Emmanuel Curis, Cynthia Marie-Claire et Eske M. Derks, « A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis », International Journal of Methods in Psychiatric Research, (lire en ligne)
- (en) Hui Shi, Chistopher Medway, Kristelle Brown, Noor Kalsheker et Kevin Morgan, « Using Fisher's method with PLINK ‘LD clumped’ output to compare SNP effects across Genome-wide Association Study (GWAS) datasets », International Journal of Molecular Epidemiology and Genetics, (lire en ligne)
- Purcell S, Neale B, Todd-Brown K et Thomas L, « PLINK: a toolset for whole-genome association and population-based linkage analysis. », American Journal of Human Genetics, vol. 81, no 3, , p. 559–75 (PMID 17701901, PMCID 1950838, DOI 10.1086/519795)
- (en) Lee, Purcell, Vattikuti et Tellier, « Second-generation PLINK: rising to the challenge of larger and richer datasets », GigaScience, vol. 4, no 1, , p. 7 (PMID 25722852, PMCID 4342193, DOI 10.1186/s13742-015-0047-8)