Effet Batch

Un article de Wikipédia, l'encyclopédie libre.

En biologie moléculaire, l'effet Batch (ou effet de lot) est l'altération des données produites dans une expérience en raison de facteurs non biologiques. De tels effets peuvent conduire à des conclusions inexactes lorsque leurs causes sont corrélées à un ou plusieurs résultats d'intérêts dans une expérience. Ils sont courants dans de nombreux types d'expériences de séquençage à haut débit, y compris celles utilisant des puces à ADN, des spectromètres de masse[1], et des données de séquençage d'ARN unicellulaire[2]. Ils sont le plus souvent abordés dans le contexte de la recherche en génomique et sur le séquençage à haut débit, mais ils existent également dans d’autres domaines scientifiques[1].

De multiples définitions du terme « effet batch » ont été proposées dans la littérature. Lazar et coll. (2013) ont noté : « Fournir une définition complète et sans ambiguïté de ce que l'on appelle l'effet batch est une tâche difficile, en particulier parce que ses origines et la manière dont il se manifeste dans les données ne sont pas entièrement connues ou ne sont pas enregistrées. ». En se concentrant sur les expériences avec des puces à ADN, ils proposent une nouvelle définition basée sur les définitions précédentes : « [L]'effet batch représente les différences techniques systématiques lorsque les échantillons sont traités et mesurés dans différents lots et qui ne sont liées à aucune variation biologique enregistrée au cours d'une MAGE (Micro Array Gene Expression). »[3].

De nombreux facteurs de variations potentiellement ont été identifiés comme causes potentielles de l'effets batch, notamment les suivants :

  • Conditions de laboratoire[1]
  • Choix du lot de réactifs ou du batch[1],[4]
  • Différences de personnel[1]
  • Heure de la journée à laquelle l'expérience a été menée[4]
  • Niveaux d'ozone atmosphérique[4]
  • Instruments utilisés pour mener l'expérience

Diverses techniques statistiques ont été développées pour tenter de corriger l'effet batch dans les expériences à haut débit. Ces techniques sont destinées à être utilisées pendant les étapes de conception expérimentale et d’analyse des données. Historiquement, ils se sont principalement concentrés sur les expériences en génomique et n’ont commencé que récemment à s’étendre à d’autres domaines scientifiques tels que la protéomique [5]. Un problème associé à de telles techniques est qu’elles peuvent involontairement supprimer la variation biologique réelle[6]. Certaines techniques qui ont été utilisées pour détecter et/ou corriger l'effet batch sont les suivantes :

  • Pour les données d'expériences de puces à ADN, des modèles mixtes linéaires ont été utilisés, avec des facteurs de confusion inclus sous forme d'interceptions aléatoires[7].
  • En 2007, Johnson et coll. a proposé une technique bayésienne empirique pour corriger l'effet batch. Cette approche a représenté une amélioration par rapport aux méthodes précédentes dans la mesure où elle pouvait être utilisée efficacement avec des lots de petites tailles[4].
  • En 2012, le progiciel sva a été présenté. Il comprend plusieurs fonctions permettant d'ajuster l'effet de batch, notamment l'utilisation de l'estimation de variables de substitution, dont il avait déjà été démontré qu'elle améliorait la reproductibilité et réduisait la dépendance dans les expériences à haut débit.
  • Haghverdi et coll. (2018) ont proposé une technique conçue pour les données de séquençage d'ARN unicellulaire, basée sur la détection des voisins les plus proches dans les données[2].
  • Papiez et coll. (2019) ont proposé un algorithme de programmation dynamique pour identifier les effets par lots de valeur inconnue dans les données à haut débit[8].
  • Voß et al. (2022) ont proposé un algorithme appelé HarmonizR qui permet l'harmonisation des données sur des ensembles de données protéomiques indépendants avec une gestion appropriée des valeurs manquantes[9].

Références[modifier | modifier le code]

  1. a b c d et e (en) Leek, Scharpf, Bravo et Simcha, « Tackling the widespread and critical impact of batch effects in high-throughput data », Nature Reviews Genetics, vol. 11, no 10,‎ , p. 733–739 (ISSN 1471-0056, PMID 20838408, PMCID 3880143, DOI 10.1038/nrg2825)
  2. a et b (en) Haghverdi, Lun, Morgan et Marioni, « Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors », Nature Biotechnology, vol. 36, no 5,‎ , p. 421–427 (ISSN 1087-0156, PMID 29608177, PMCID 6152897, DOI 10.1038/nbt.4091)
  3. (en) Leek, Johnson, Parker et Jaffe, « The sva package for removing batch effects and other unwanted variation in high-throughput experiments », Bioinformatics, vol. 28, no 6,‎ , p. 882–883 (ISSN 1460-2059, PMID 22257669, PMCID 3307112, DOI 10.1093/bioinformatics/bts034)
  4. a b c et d (en) Johnson, Li et Rabinovic, « Adjusting batch effects in microarray expression data using empirical Bayes methods », Biostatistics, vol. 8, no 1,‎ , p. 118–127 (ISSN 1468-4357, PMID 16632515, DOI 10.1093/biostatistics/kxj037)
  5. Jelena Čuklina, Patrick G. A. Pedrioli et Ruedi Aebersold, Review of Batch Effects Prevention, Diagnostics, and Correction Approaches, vol. 2051, coll. « Methods in Molecular Biology », , 373–387 p. (ISBN 978-1-4939-9743-5, ISSN 1940-6029, PMID 31552638, DOI 10.1007/978-1-4939-9744-2_16, S2CID 202760910)
  6. (en) Goh, Wang et Wong, « Why Batch Effects Matter in Omics Data, and How to Avoid Them », Trends in Biotechnology, vol. 35, no 6,‎ , p. 498–507 (PMID 28351613, DOI 10.1016/j.tibtech.2017.02.012)
  7. (en) Espín-Pérez, Portier, Chadeau-Hyam et van Veldhoven, « Comparison of statistical methods and the use of quality control samples for batch effect correction in human transcriptome data », PLOS ONE, vol. 13, no 8,‎ , e0202947 (ISSN 1932-6203, PMID 30161168, PMCID 6117018, DOI 10.1371/journal.pone.0202947, Bibcode 2018PLoSO..1302947E)
  8. (en) Papiez, Marczyk, Polanska et Polanski, « BatchI: Batch effect Identification in high-throughput screening data using a dynamic programming algorithm », Bioinformatics, vol. 35, no 11,‎ , p. 1885–1892 (ISSN 1367-4803, PMID 30357412, PMCID 6546123, DOI 10.1093/bioinformatics/bty900)
  9. (en) Voß, Schlumbohm, Barwikowski et Wurlitzer, « HarmonizR enables data harmonization across independent proteomic datasets with appropriate handling of missing values », Nature Communications, vol. 13, no 1,‎ , p. 3523 (ISSN 2041-1723, PMID 35725563, PMCID 9209422, DOI 10.1038/s41467-022-31007-x)