Évaluation par les pairs

Dans les disciplines scientifiques, l'évaluation par les pairs (ou peer review selon l'expression anglophone couramment utilisée) est l'activité collective des chercheurs qui critiquent les travaux d'autres chercheurs (leurs « pairs »)[1]. Depuis 2023 environ, des IA sont utilisées pour rédiger des articles, mais aussi lors de l'évaluation par des pairs, par des évaluateurs, ou de manière autonome, ce qui inquiète de nombreux chercheurs.
Présentation
[modifier | modifier le code]L'évaluation par les pairs est un principe fondamental de la recherche scientifique, que ce soit pour les sciences dites « exactes » ou les sciences humaines et sociales. Elle est utilisée aussi bien pour ce qui concerne la publication d'articles dans des revues que pour le recrutement et l'avancement des enseignants-chercheurs et le financement de leurs projets de recherche. Dans cet article cependant, seul le premier volet est abordé[2].
Objet
[modifier | modifier le code]Cette évaluation peut porter sur :
- une recherche précise soumise pour publication dans une revue scientifique (ou destinée à être présentée à une conférence). L'avis du comité de lecture est essentiel dans la décision d'accepter ou non la publication (ou la présentation) ;
- un projet de recherche proposé à un financement par une institution publique (comme le CNRS) ou privée (comme une fondation). Il s'agit alors de financer ou non le projet, et si oui à quel montant ;
- l'ensemble des travaux d'un chercheur, notamment lors du recrutement à un poste, mais aussi dans le cadre d'une procédure de contrôle (généralement périodique) ;
- l'ensemble des travaux d'un groupe de chercheurs ou d'un établissement entier, dans le cadre d'une procédure de contrôle (généralement périodique).
Comités de lecture
[modifier | modifier le code]Les comités de lecture font partie intégrante de la démarche scientifique. Le parcours normal d'un nouveau résultat depuis sa découverte jusqu'à sa reconnaissance par la communauté scientifique passe en effet par la publication des travaux qui ont permis d'y aboutir dans des revues scientifiques où ils seront soumis à la critique des chercheurs travaillant dans le même domaine. Traditionnellement, la diffusion des travaux scientifiques se fait essentiellement au travers de conférences et de comptes rendus écrits qui, afin d'être acceptés, doivent d'abord faire l'objet d'une critique attentive par un nombre restreint d'experts nommés par l'organisateur de la conférence ou le comité éditorial de la revue scientifique. La même évaluation a lieu en ce qui concerne les revues scientifiques des sciences humaines et sociales. Néanmoins, une part plus importante du travail en ces domaines échappe aux revues, étant donné que celui-ci peut utiliser d'autres supports, en particulier les livres.
Certaines revues scientifiques ont poussé le système du comité de lecture jusqu'à inviter un très grand nombre voire l'ensemble des chercheurs du domaine à critiquer les articles qu'elles publient : c'est le commentaire ouvert aux pairs (anglais : open peer review[3]). Seules les critiques jugées les plus intéressantes sont finalement publiées avec l'article original ainsi que, souvent, une réponse des auteurs à leurs critiques. C'est, par exemple, le cas de la revue Behavioral and Brain Sciences[4].
L'apparition des systèmes de publications en libre accès a légèrement changé la donne en matière de diffusion scientifique. En effet, selon l'une des modalités associées à ce système, les auteurs peuvent déposer dans un répertoire en libre accès leurs prépublications, c'est-à-dire les manuscrits des articles qu'ils soumettent à des revues. Ceux-ci deviennent donc disponibles, du moins dans leur forme initiale, longtemps avant leur éventuelle publication. Un exemple de ce type de répertoire est arXiv, qui héberge des prépublications en physique, mathématiques et informatique, notamment. Précisons cependant qu'il existe quelques règles restreignant légèrement le dépôt dans arXiv : un article doit être soumis depuis une adresse électronique hébergée par une institution scientifique et un auteur publiant pour la première fois peut devoir faire endosser sa soumission par une personne ayant déjà soumis avec succès un article[5].
Fonctionnement
[modifier | modifier le code]Dans le cas d'une publication dans une revue scientifique, le manuscrit proposé par un ou plusieurs chercheurs est reçu par le directeur de la revue, ou rédacteur en chef. Ce dernier est généralement un chercheur réputé dans son domaine, qui assume bénévolement cette fonction. Ses tâches consistent principalement à choisir, en collaboration avec le comité éditorial, les membres du comité de lecture, et à assurer la communication entre les relecteurs et les auteurs de l'article.
À la réception du manuscrit, le directeur décide, après une lecture rapide, si l'article est potentiellement publiable dans la revue. La pertinence de la question évoquée et l'intérêt des résultats pour les lecteurs de la revue sont évalués, en fonction des critères de publication propres à la revue. La proportion de manuscrits refusés dès cette première phase est très variable selon les revues ; ce pourcentage s'élève à 90 % pour des revues multidisciplinaires comme Nature ou Science selon leurs dires[6].
Dans le cas où le directeur décide de poursuivre le processus, il contacte plusieurs (le plus souvent deux) spécialistes dont le profil correspond aux thèmes et aux techniques abordés dans l'article. Ces spécialistes disposent alors de quelques semaines pour lire le manuscrit de manière approfondie et rédiger un rapport livrant leur impression générale sur l'article, ainsi que leurs commentaires précis sur d'éventuelles erreurs ou imprécisions.
Le directeur prend alors connaissance des rapports des membres du comité de lecture, et fait part aux auteurs de sa décision de publier ou non l'article. L'éditeur suit fréquemment l'avis des relecteurs, mais sa décision reste indépendante. En cas de doute, par exemple si les rapports sont manifestement contradictoires, le directeur peut faire appel à une troisième, voire une quatrième évaluation. Dans tous les cas, il transmet aux auteurs une lettre d'explications sur sa décision, ainsi qu'une copie des rapports. Outre l'acceptation et le rejet sans conditions, la décision peut être plus nuancée (acceptation sous réserve de corrections, ou invitation à soumettre une nouvelle version).
Traditionnellement, les rapports sont anonymes, seul le nom du directeur étant connu des auteurs. De son côté, le nom des auteurs peut être connu ou non des relecteurs ; on parle alors d'évaluation à simple ou double insu, respectivement. Cependant, de plus en plus de revues encouragent une gestion transparente du processus, et autorisent, voire imposent, la divulgation des noms des membres du comité de lecture. Quelques-unes vont même jusqu'à rendre publics les rapports des relecteurs, anonymes ou non.
Critiques
[modifier | modifier le code]Une des critiques les plus courantes au sujet du processus d'évaluation par les pairs est qu'il est lent, et qu'il faut généralement plusieurs mois, voire plusieurs années, dans certains domaines, pour qu'un article finisse par être publié. En fait, une grande partie des communications, dans certains domaines comme l'astronomie et l'économie, se font avant l'évaluation par les pairs, au moyen de prépublications soumises sur des répertoires tels qu'arXiv. Certaines initiatives se développent pour organiser la revue par les pairs des prépublications, dans de multiples domaines, tels que Peer Community in.
D'autres critiques portent sur l'aptitude réelle de l'évaluation par les pairs à garantir la qualité des articles[7]. Un cas emblématique est celui du modèle de Tai, où l'auteure comme les relecteurs n'ont pas remarqué que les travaux prétendument originaux décrits dans l'article reproduisaient la méthode des trapèzes connue de tous les mathématiciens depuis l'mathématiciens babyloniens.
Mario Biagioli a suggéré que l'évaluation des livres et articles encourageait la prudence et l'autocensure, à la manière de ce qui se passait au début de l'Europe moderne. Il montre comment le mécanisme de l'évaluation par les pairs est issu des rouages de la censure des livres, et comment il a rapidement été intégré à la production de la valeur académique, et se demande si cette méthode n'est pas aujourd'hui revenue à l'exercice d'une censure [8].
Défaillances
[modifier | modifier le code]Le système est quelquefois contourné d'une façon qui nuit à l'intégrité scientifique. Ainsi en 2012, un chercheur sud-coréen, Moon Hyung-in, est accusé d'avoir publié un certain nombre d'articles en en rédigeant lui-même les critiques. Il soumettait ses manuscrits à des journaux qui acceptaient les experts suggérés par l'auteur ; il utilisait de faux noms et des adresses mail qu'il contrôlait pour proposer des critiques[9],[10].
Un autre cas spectaculaire de truquage de l'examen par les pairs est révélé en mai 2013 par Ali Nayfeh, alors rédacteur en chef du Journal of Vibration and Control. L'enquête dévoile 130 faux reviewers. Finalement, 60 articles ont été trouvés comme présentant des preuves de falsification de l'examen par les pairs, d'implication dans le réseau de citation ou les deux. Peter Chen, ingénieur à l'époque à l'Université nationale d'éducation de Pingtung (NPUE) à Taïwan, était coauteur de pratiquement tous les articles en question[10].
En 2022, la revue d'Elsevier rétracte une cinquantaine d'articles parce qu'ils ont tous été acceptés sur « l'avis positif d'un rapport d'examinateur illégitime »[11].
L'article sur la bactérie prétendument extraterrestre GFAJ-1 publié par Science en 2010 et rétracté en 2025 avait été évalué par des chercheurs majoritairement incompétents, selon l'enquête du journaliste scientifique de USA Today Dan Vergano qui a réussi à obtenir, à la d'une demande en vertu de la loi américaine d'accès à l'information, les documents clés concernant le processus éditorial[12],[13].
Arrivée de relectures par l'IA ?
[modifier | modifier le code]En novembre 2024, James Zou, s'inquiète de voir ChatGPT rapidement transformer la nature de l'« évaluation par les pairs » ; il note que dans les principaux médias d’informatique, jusqu’à 17 % des revues par les pairs sont déjà rédigées par l’intelligence artificielle. Si ces outils offrent une rapidité et une efficacité inédites, ils posent la question de la validité intellectuelle du travail (l'IA peut-elle vraiment vérifier la rigueur des travaux courants, et reconnaître les découvertes exceptionnelles), et quid du risque de réduire la relecture à un simple processus logistique ? Zou estime qu'il est urgent de produire des directives claires pour cadrer ce type de démarches, « avant que les choses ne dégénèrent », pour éviter que l’amélioration de l’efficacité ne se fasse au détriment de la qualité scientifique[14]. L'IA peut-elle examiner la littérature scientifique — et bien comprendre ce qu'elle signifie ? .. et avec quels risques ? se demande également Helen Pearson dans la Revue Nature[15].
En 2025, OpenRxiv, l'organisation à but non lucratif qui gère les dépôts bioRxiv et medRxiv, a annoncé en 2025 intégrer Agent de relecture basé sur l’intelligence artificielle. Cet IA agentique a été développé par la start-up q.e.d Science, basée à Tel Aviv. Il produit en moins de trente minutes un retour sur les manuscrits biomédicaux. il évalue leur originalité, d'éventuelles lacunes logiques, et il propose des pistes de correction[16].
Peu après, un outil de détection (développé par Pangram Labs) a révélé que de nombreuses évaluations par les pairs soumises à la conférence ICLR 2026[note 1] avaient en fait été générées par une intelligence artificielle. Près de 75 800 rapports et 19 490 études ont été scannés par cet outil, qui a estimé que 21 % des relectures critiques étaient entièrement produites par des LLM, et que plus de la moitié présentaient des signes d’usage d’IA. Ce travail a confirmé les soupçons de chercheurs ayant trouvé des incohérences ou retours vagues dans les analyses de leurs travaux. Les organisateurs de la conférence ICLR 2026 ont annoncé qu’ils recourraient désormais à des outils automatisés pour vérifier le respect des règles concernant l'usage de l'IA. Cette affaire illustre les inquiétudes croissantes sur l’impact des modèles de langage dans le processus d’évaluation scientifique.
Dans la revue Nature (2025), Giorgio F. Gilestro (neurobiologiste à l'Imperial College London) note que cette expérience a suscité un intérêt car le retour est bien plus rapide qu'avec les relecteurs habituels, et l'IA est a priori relativement neutre (sans conflits d'intérêts, a priori), mais elle inquiète aussi quand à la validité intellectuelle du processus. Les LLM peuvent certes vérifier les statistiques, détecter un plagiat et vérifier les sources et citations, libérant ainsi du temps pour les évaluations humaines des découvertes majeures, et une étude de 2024 a montré qu'ils pouvaient prédire ce que dirait un évaluateur humain moyen lors d'une relecture[16] ; mais sont ils capables de remplir d'autres fonctions, essentielles, de l’évaluation par les pairs.
Notes et références
[modifier | modifier le code]Notes
[modifier | modifier le code]- ↑ ICLR 2026 est la quatorzième édition de l’International Conference on Learning Representations, une conférence académique majeure sur l’apprentissage automatique, qui se tiendra du 23 au 27 avril 2026 à Rio de Janeiro, au Brésil.
Références
[modifier | modifier le code]- ↑ Hervé This, « L’évaluation par les pairs », L’Actualité chimique, no 82, , p. 1-6
- ↑ James B. Riding, « An evaluation of the process of peer review », Palynology, vol. 0, no 0, , p. 2151052 (ISSN 0191-6122, DOI 10.1080/01916122.2022.2151052, lire en ligne, consulté le )
- ↑ Anne Baillot et Anthony Pecqueux, « Débat : Comment l’évaluation ouverte renouvelle-t-elle la conversation scientifique ? », sur The Conversation (consulté le )
- ↑ Voir son site ici.
- ↑ (en) The arXiv endorsement system. Récupéré le du site Arxiv.
- ↑ (en) « Decisions, decisions », Nature Neuroscience, vol. 5, no 10, , p. 917 (lire en ligne [PDF]).
- ↑ (en) Nielsen, Michael (2009, 8 janvier). Three myths about scientific peer review. Récupéré du blogue de l'auteur.
- ↑ (en) Biagioli, Mario (2002). From Book Censorship to Academic Peer Review.
- ↑ « L’évaluation par les pairs, un processus défaillant dans la recherche », Le Monde.fr, (lire en ligne, consulté le )
- (en) Cat Ferguson, Adam Marcus et Ivan Oransky, « Publishing: The peer-review scam », Nature, vol. 515, no 7528, , p. 480–482 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/515480a, lire en ligne, consulté le )
- ↑ (en-US) Author Adam Marcus, « Elsevier journal retracts nearly 50 papers because they were each accepted on the “positive advice of one illegitimate reviewer report” », sur Retraction Watch, (consulté le )
- ↑ (en) « FOIA2012 NASA 01 Dvergano » [PDF], sur embed.documentcloud.org (consulté le )
- ↑ (en-US) Dan Vergano, USA TODAY, « Glowing reviews on 'arseniclife' spurred NASA's embrace », sur USA TODAY, (consulté le )
- ↑ (en) James Zou, « ChatGPT is transforming peer review — how can we use it responsibly? », Nature, vol. 635, no 8037, , p. 10–10 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/d41586-024-03588-8, lire en ligne, consulté le ).
- ↑ (en) Helen Pearson, « Can AI review the scientific literature — and figure out what it all means? », Nature, vol. 635, no 8038, , p. 276–278 (DOI 10.1038/d41586-024-03676-9, lire en ligne, consulté le ).
- (en) Weixin Liang, Yuhui Zhang, Hancheng Cao et Binglu Wang, « Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis », NEJM AI, vol. 1, no 8, , AIoa2400196 (DOI 10.1056/AIoa2400196, lire en ligne, consulté le ).
Voir aussi
[modifier | modifier le code]Articles connexes
[modifier | modifier le code]- Bonnes pratiques de laboratoire
- Faculty of 1000
- Junk science
- Méthode scientifique
- Objectivité
- Recherche empirique
- Revue scientifique