« Test GRIM » : différence entre les versions

Navigation interactive dans l’historique

Contenu supprimé Contenu ajouté

Intégrés

Version du 22 novembre 2019 à 17:00

GRIM test

Le test GRIM (granularity-related inconsistency of means) est un test statistique utilisé pour identifier les inconsistances dans l'analyse de jeux de données. Le test sur base sur l'idée que si un jeu de donnée contient N valeurs entières, la moyenne arithmétique ne peut prendre que certaines valeurs précises: elle ne peut être l'expression que d'une fraction avec une valeur entière au numérateur et au dénominateur N. Si la moyenne rapportée dans l'article ne convient pas à cette description, c'est qu'il existe une erreur, appelée inconsistance, pour indiquer que son origine est, pour le moment, typiquement inconnue. Les inconsistances GRIM peuvent provenir d'une erreur dans l'entrée des données, par inadvertance, d'erreurs typographiques, ou de fraude scientifique. Le test GRIM est le plus utile dans des domaines de recherche comme la psychologie, dans lesquels les chercheurs utilisent des petits groupes et des mesures comprenant des valeurs entières. Le test GRIM a été proposé par Nick Brown et James Heathers en 2016, suivant la prise de conscience de la crise de réplicabilité dans certains domaines scientifiques^[1]

Procédure

Le test GRIM est un test direct. Pour chaque moyenne rapportée dans un article, la taille de l'échantillon (N) est trouvé, et toutes les fractions avec le dénominateur N sont calculées. La moyenne rapportée dans l'article est ensuite recherchée dans cette liste (en prenant garde au fait que les valeurs ont pu être arrondies de manière inconsistance, par exemple une moyenne de 1.123 peut être rapportée comme 1.12 ou 1.13). Si la moyenne n'est pas dans cette liste, elle est indiquée comme mathématiquement impossible.^[2]^[3]

Exemple

Considérons une expérience dans laquelle un dé non pipé est lancé 20 fois. Chaque lancé produit un nombre entier entre 1 et 6, et la valeur moyenne hypothétique est 3.5. Les résultats des lancés sont ensuite agrégés en une moyenne, et la moyenne est rapportée comme 3.48. Ce résultat est proche de la valeur hypothétique, et apparaît donc comme supportant l'hypothèse. Cependant, un test GRIM révèle que la moyenne rapportée est impossible, un résultat issu d'une division par 20 et écrit avec deux décimales doit être sous une forme X.X0 ou X.X5 : il n'est pas possible de produire un nombre qui finit par X.X8.^[4]

Interprétation et limitations

Si des données échouent au test GRIM, cela ne signifie pas qu'il y ait eu manipulation. Les erreurs dans les rapports de moyennes peuvent provenir d'une erreur de résultat de la part du testeur, d'une erreur typographique, d'une erreur de calcul ou de programmation, ou d'une erreur dans le rapport de la taille de l'échantillon (n).^[2] Cependant, cela peut être le signe que des données ont été exclues de manière inopportune ou que la moyenne a été inventée illégitimement pour faire apparaître des résultats comme plus significatifs qu'ils ne le sont. La localisation des erreurs peut être une indication de la cause sous-jacente: une moyenne impossible isolée peut être causée par une erreur innocente, des valeurs impossibles multiples dans la même ligne indiquent un taux de réponse pauvre, et de multiples valeurs impossibles dans la même colonne indiquent que la taille de l'échantillon rapportée est incorrecte. Des erreurs multiples disséminées dans l'ensemble de la table de données peut être un signe de problèmes plus profonds et d'autres tests statistiques peuvent être utilisés pour analyser les données suspectes.^[5] Le test GRIM marche mieux quand le jeu de donnée possède : une taille d'échantillon relativement faible, un nombre de sous-composant dans les mesures composites relativement faible également, et que la moyenne est rapportée avec plusieurs décimales.^[2] Dans certains cas, une moyenne valide peut apparaître comme ayant raté le test si les données entrées ne sont pas discrétisées comme prévu - par exemple, s'il est demandé à des participant d'indiquer le nombre de parts de pizza mangés dans un buffet, certains peuvent répondre trois et demi au lieu d'un nombre entier comme prévu.^[5]

Applications

Brown et Heathers ont appliqué le test à 260 articles publiés dans Psychological Science, Journal of Experimental Psychology: General, et Journal of Personality and Social Psychology. Parmi ces articles, 71 ont été exploitables par GRIM, 36 possèdent au moins une valeur impossible, 16 contiennent de multiples valeurs impossibles.^[3] Le test GRIM a joué un rôle important dans la révélation des erreurs dans les publications par le laboratoire Food and Brand de l'Université Cornell sous Brian Wansik. Le test GRIM a révélé qu'une série d'articles sur les effets du prix sur la consommation des buffet de pizza à volonté contiennent de nombreuses moyennes impossibles - des analyses approfondies des données brutes ont révélé que dans de nombreux cas, les tailles d'échantillon ont été incorrectement déclarées et les valeurs incorrectement calculées.^[1]^[5]

References

↑ ^{a et b} (en) Tom Bartlett, « Spoiled Science », The Chronicle of Higher Education,‎ 17 mars 2017 (lire en ligne)
↑ ^{a b et c} James Heathers, « The GRIM test—a method for evaluating published research. », sur Medium, 23 mai 2016 (consulté le 19 octobre 2017)
↑ ^{a et b} Nicholas J. L. Brown et James A. J. Heathers, « The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology », Social Psychological and Personality Science, vol. 8, n^o 4,‎ 18 octobre 2016, p. 363–369 (DOI 10.1177/1948550616673876, lire en ligne)
↑ « GRIM Plot (mean: 3.48, size: 20) », PrePubMed (consulté le 19 octobre 2017)
↑ ^{a b et c} Jordan Anaya, Tim van der Zee et Nick Brown, « Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications », PeerJ Preprints,‎ 14 juin 2017 (DOI 10.7287/peerj.preprints.3025v1, lire en ligne, consulté le 19 octobre 2017)

Liens externes

Online GRIM test calculator

[Chron-1] {a et b} (en) Tom Bartlett, « Spoiled Science », The Chronicle of Higher Education,‎ 17 mars 2017 (lire en ligne)

[Medium-2] {a b et c} James Heathers, « The GRIM test—a method for evaluating published research. », sur Medium, 23 mai 2016 (consulté le 19 octobre 2017)

[GRIMPaper-3] {a et b} Nicholas J. L. Brown et James A. J. Heathers, « The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology », Social Psychological and Personality Science, vol. 8, n^o 4,‎ 18 octobre 2016, p. 363–369 (DOI 10.1177/1948550616673876, lire en ligne)

[4] « GRIM Plot (mean: 3.48, size: 20) », PrePubMed (consulté le 19 octobre 2017)

[Infarction-5] {a b et c} Jordan Anaya, Tim van der Zee et Nick Brown, « Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications », PeerJ Preprints,‎ 14 juin 2017 (DOI 10.7287/peerj.preprints.3025v1, lire en ligne, consulté le 19 octobre 2017)

[1]

[2]

[3]

[4]

[5]

@@ Ligne 1 : / Ligne 1 : @@
+== GRIM test ==
-{{Aide:Comment créer un article/brouillon}}
+Le test GRIM (granularity-related inconsistency of means) est un [[test statistique]] utilisé pour identifier les inconsistances dans l'analyse de jeux de données. Le test sur base sur l'idée que si un jeu de donnée contient N valeurs entières, la [[moyenne arithmétique]] ne peut prendre que certaines valeurs précises: elle ne peut être l'expression que d'une [[fraction]] avec une valeur entière au numérateur et au dénominateur N. Si la moyenne rapportée dans l'article ne convient pas à cette description, c'est qu'il existe une erreur, appelée inconsistance, pour indiquer que son origine est, pour le moment, typiquement inconnue. Les inconsistances GRIM peuvent provenir d'une erreur dans l'entrée des données, par inadvertance, d'erreurs typographiques, ou de fraude scientifique. Le test GRIM est le plus utile dans des domaines de recherche comme la psychologie, dans lesquels les chercheurs utilisent des petits groupes et des mesures comprenant des valeurs entières. Le test GRIM a été proposé par Nick Brown et James Heathers en 2016, suivant la prise de conscience de la crise de réplicabilité dans certains domaines scientifiques<ref name="Chron">{{cite news|url=http://www.chronicle.com/article/Spoiled-Science/239529|title=Spoiled Science|newspaper=The Chronicle of Higher Education|first=Tom|last=Bartlett|date=17 March 2017|accessdate=19 October 2017}}</ref>
-<!-- Cliquez sur le bouton bleu « Publier ... » pour initialiser votre brouillon. Vous pourrez ensuite le modifier librement. Ne retirez pas ces codes, ils sont là pour vous aider. -->
+=== Procédure ===
+Le test GRIM est un test direct. Pour chaque moyenne rapportée dans un article, la taille de l'échantillon (N) est trouvé, et toutes les fractions avec le dénominateur N sont calculées. La moyenne rapportée dans l'article est ensuite recherchée dans cette liste (en prenant garde au fait que les valeurs ont pu être arrondies de manière inconsistance, par exemple une moyenne de 1.123 peut être rapportée comme 1.12 ou 1.13). Si la moyenne n'est pas dans cette liste, elle est indiquée comme mathématiquement impossible.<ref name="Medium">{{cite web|url=https://medium.com/@jamesheathers/the-grim-test-a-method-for-evaluating-published-research-9a4e5f05e870|title=The GRIM test—a method for evaluating published research.|first=James|last=Heathers|website=[[Medium (website)|Medium]]|date=23 May 2016|accessdate=19 October 2017}}</ref><ref name="GRIMPaper">{{cite journal|title= The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology|first1=Nicholas J. L.|last1=Brown|first2=James A. J.|last2=Heathers|date=18 October 2016|journal=Social Psychological and Personality Science|doi=10.1177/1948550616673876|volume=8|issue=4|pages=363–369|url=https://peerj.com/preprints/2064.pdf}}</ref>
+=== Exemple ===
+Considérons une expérience dans laquelle un dé non pipé est lancé 20 fois. Chaque lancé produit un nombre entier entre 1 et 6, et la valeur moyenne hypothétique est 3.5. Les résultats des lancés sont ensuite agrégés en une moyenne, et la moyenne est rapportée comme 3.48. Ce résultat est proche de la valeur hypothétique, et apparaît donc comme supportant l'hypothèse. Cependant, un test GRIM révèle que la moyenne rapportée est impossible, un résultat issu d'une division par 20 et écrit avec deux décimales doit être sous une forme X.X0 ou X.X5 : il n'est pas possible de produire un nombre qui finit par X.X8.<ref>{{cite web|url=http://www.prepubmed.org/grim_plot/?mean=3.48&size=20|title=GRIM Plot (mean: 3.48, size: 20)|accessdate=19 October 2017|publisher=PrePubMed}}</ref>
+=== Interprétation et limitations ===
+Si des données échouent au test GRIM, cela ne signifie pas qu'il y ait eu manipulation. Les erreurs dans les rapports de moyennes peuvent provenir d'une erreur de résultat de la part du testeur, d'une erreur typographique, d'une erreur de calcul ou de programmation, ou d'une erreur dans le rapport de la taille de l'échantillon (n).<ref name="Medium"/> Cependant, cela peut être le signe que des données ont été exclues de manière inopportune ou que la moyenne a été inventée illégitimement pour faire apparaître des résultats comme plus significatifs qu'ils ne le sont. La localisation des erreurs peut être une indication de la cause sous-jacente: une moyenne impossible isolée peut être causée par une erreur innocente, des valeurs impossibles multiples dans la même ligne indiquent un taux de réponse pauvre, et de multiples valeurs impossibles dans la même colonne indiquent que la taille de l'échantillon rapportée est incorrecte. Des erreurs multiples disséminées dans l'ensemble de la table de données peut être un signe de problèmes plus profonds et d'autres tests statistiques peuvent être utilisés pour analyser les données suspectes.<ref name="Infarction">{{cite journal|url=https://peerj.com/preprints/3025/|title=Statistical infarction: A postmortem of the Cornell Food and Brand Lab pizza publications|first1=Jordan|last1=Anaya|first2=Tim|last2=van der Zee|first3=Nick|last3=Brown|journal=PeerJ Preprints|date=14 June 2017|accessdate=19 October 2017|doi=10.7287/peerj.preprints.3025v1}}</ref>
+Le test GRIM marche mieux quand le jeu de donnée possède : une taille d'échantillon relativement faible, un nombre de sous-composant dans les mesures composites relativement faible également, et que la moyenne est rapportée avec plusieurs décimales.<ref name="Medium"/> Dans certains cas, une moyenne valide peut apparaître comme ayant raté le test si les données entrées ne sont pas discrétisées comme prévu - par exemple, s'il est demandé à des participant d'indiquer le nombre de parts de pizza mangés dans un buffet, certains peuvent répondre trois et demi au lieu d'un nombre entier comme prévu.<ref name="Infarction"/>
+=== Applications ===
+Brown et Heathers ont appliqué le test à 260 articles publiés dans Psychological Science, Journal of Experimental Psychology: General, et Journal of Personality and Social Psychology. Parmi ces articles, 71 ont été exploitables par GRIM, 36 possèdent au moins une valeur impossible, 16 contiennent de multiples valeurs impossibles.<ref name="GRIMPaper"/>
+Le test GRIM a joué un rôle important dans la révélation des erreurs dans les publications par le laboratoire Food and Brand de l'[[Université Cornell]] sous Brian Wansik. Le test GRIM a révélé qu'une série d'articles sur les effets du prix sur la consommation des buffet de pizza à volonté contiennent de nombreuses moyennes impossibles - des analyses approfondies des données brutes ont révélé que dans de nombreux cas, les tailles d'échantillon ont été incorrectement déclarées et les valeurs incorrectement calculées.<ref name="Chron"/><ref name="Infarction"/>
+==References==
+{{Reflist|30em}}
+==Liens externes==
+* [http://www.prepubmed.org/grim_test/ Online GRIM test calculator]
+[[Catégorie: test statistique]]