A propos de la déclaration de l’ASA sur les valeurs-p

En mars 2016, la Société Américaine de Statistique (American Statistical Society (ASA)) a publié une importante déclaration au sujet de la « valeur-p »12. Cette déclaration était motivée par les mauvais usages et les mauvaises interprétations de la valeur-p dans la recherche scientifique.
Etant passionné par ce sujet, je projette d’écrire des articles concernant divers points de cette déclaration. Ces articles seront référencés par l’étiquette « valeur-p » (« p-value » pour les versions anglaises de ces articles)


  1. Version anglaise : Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI: 10.1080/00031305.2016.1154108; Link : https://doi.org/10.1080/00031305.2016.1154108W
  2. Traduction non officielle en français de la déclaration ici sur ce blog

Déclaration de l’ASA sur les valeurs-p : contexte, processus et objectif (Traduction française)

Cet article est une traduction de l’article initialement paru sous la référence :
Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI: 10.1080/00031305.2016.1154108 ;
Lien : https://doi.org/10.1080/00031305.2016.1154108W
La publication de cette traduction est autorisée par l’éditeur (Taylor & Francis ; http://www.tandfonline.com) et par M. Ronald L. Wasserstein, Directeur exécutif de la Société Américaine de Statistique (American Statistical Association), sans que ceci implique une quelconque responsabilité de leur part dans cette traduction. Tous les droits sur l’article initial et cette traduction restent réservés.

Déclaration de l’ASA sur les valeurs-p : contexte, processus et objectif

En février 2014, George Cobb, professeur émérite de mathématiques et statistiques au Mount Holyoke College, a posé ces questions dans un forum de discussion de l’ASA :

Q: Pourquoi autant de cursus d’enseignement supérieur enseignent-ils p = 0,05 ?
R: Parce que c’est toujours ce que la communauté scientifique et les éditeurs pratiquent.
Q: Pourquoi tant de personnes utilisent-elles encore p = 0,05 ?
R: Parce que c’est ce qu’on leur a appris dans l’enseignement supérieur.

La préoccupation de Cobb portait sur une persistante et inquiétante référence circulaire dans la sociologie de la science concernant l’utilisation de règles binaires, telle que ‘p < 0.05’ : "Nous l’enseignons parce que c’est ce que nous faisons. Nous le faisons parce que c’est ce que nous enseignons.". Cette préoccupation a été portée à l’attention du Comité de Direction de l’ASA.
Le Comité de Direction de l’ASA a également été motivé par des discussions très visibles au cours de ces dernières années. Par exemple, ScienceNews (Siegfried 2010) a écrit : "C’est le secret le plus honteux de la science : la ‘méthode scientifique’ de test d’hypothèses par l’analyse statistique repose sur de fragiles fondations". Un article de novembre 2013 dans Phys.org Science News Wire (2013) a cité «de nombreuses failles profondes» dans les tests de signification d’hypothèse nulle. Un article de ScienceNews (Siegfried 2014) du 7 février 2014, contenait : "Les techniques statistiques de test d’hypothèses… ont plus de failles que la politique de confidentialité de Facebook.”. Une semaine plus tard, Jeff Leek, statisticien et blogueur du site ‘Simply Statistics’ a répondu. "Le problème n’est pas que les gens utilisent mal la p-valeur, a écrit Leek, c’est que la grande majorité des analyses de données n’est pas effectuée par des personnes correctement formées à faire de l’analyse de données." (Leek 2014). La même semaine,la statisticienne et écrivain scientifique Regina Nuzzo a publié un article dans Nature intitulé ‘Scientific Method: Statistical Errors’ (Nuzzo 2014). Cet article est maintenant parmi les articles les plus consultés de Nature, selon altmetric.com (http://www.altmetric.com/details/2115792#score).
Bien entendu, il ne s’agissait pas simplement de répondre à quelques articles parus. La communauté statisticienne était profondément préoccupée par les questions de reproductibilité et de replicabilité des conclusions scientifiques. Sans entrer dans les définitions et les distinctions de ces termes, nous observons que beaucoup de confusion et même de doute sur la validité de la science apparaissent. Un tel doute peut conduire à des choix radicaux, tels celui des rédacteurs de Basic and Applied Social Psychology, qui ont décidé d’interdire les valeurs-p (test de signification de l’hypothèse nulle) (Trafimow et Marks 2015). L’incompréhension ou l’utilisation abusive de l’inférence statistique n’est qu’une des causes de la «crise de reproductibilité» (Peng 2015), mais pour notre communauté, elle est importante.
Lorsque le Comité de Direction de l’ASA a décidé de relever le défi d’élaborer un énoncé de principe sur les valeurs-p et la signification statistique, il ne l’a pas fait à la légère. L’ASA n’avait encore jamais pris position sur des questions spécifiques concernant la pratique statistique. Le plus approchant qu’ai fait auparavant la Société était une déclaration sur l’utilisation de modèles à valeur ajoutée (VAM) pour l’évaluation de l’éducation (Morganstein et Wasserstein 2014) et une déclaration sur la limitation des risque pour les audits post-électoraux (American Statistical Association 2010). Cependant, il s’agissait de déclarations concernant effectivement des politiques. La déclaration sur les VAM traitait une question clé de la politique éducative, reconnaissant la complexité des questions en jeu, citant les limites des VAM en tant que modèles effectifs de performance, et demandant instamment qu’ils soient développés et interprétés avec la participation de statisticiens. La déclaration sur l’audit électoral répondait également à un problème majeur mais spécifique de politique (élections proches en 2008), et énonçait que les audits électoraux basés sur les statistiques devraient devenir une partie intégrante du processus électoral.
En revanche, le Comité a envisagé que la déclaration de l’ASA sur les valeurs-p et la signification statistique éclairerait un aspect de notre domaine qui est trop souvent mal compris et mal utilisé dans la communauté de la recherche au sens large et, ce faisant, rendrait service à cette communauté. Le public visé serait les chercheurs, praticiens et rédacteurs scientifiques qui ne sont pas originellement statisticiens. Cette déclaration devrait donc être très différente de tout ce qui avait déjà été tenté.
Le Conseil a chargé Wasserstein de constituer un groupe d’experts représentant une large variété de points de vue. Au nom du Comité, il a contacté plus de deux douzaines de telles personnes, toutes déclarant qu’elles seraient heureuses de participer. Plusieurs exprimèrent des doutes quant à la possibilité de parvenir à un accord, mais confirmèrent que s’il y avait une discussion, ils voulaient en être.
Durant plusieurs mois, les membres du groupe ont discuté du format que la déclaration devrait avoir, ont tenté de mieux identifier concrètement la cible de la déclaration, et ont commencé à trouver des points d’accord. Cela s’est avéré être relativement facile, mais il fut tout aussi facile de trouver de forts points de désaccord.
Le temps vint enfin pour le groupe de siéger pour débattre de ces points, et donc en octobre 2015, 20 membres du groupe se réunirent au bureau de l’ASA à Alexandria, en Virginie. Les 2 jours de réunion furent animés par Regina Nuzzo et à la fin de la réunion, un bon nombre des points autour desquels la déclaration pourrait être bâtie avaient été développés.
Les trois mois suivants virent plusieurs ébauches de la déclaration être examinées par les membres du groupe, par les membres du Comité (dans une longue discussion lors de la réunion du Comité de Direction de l’ASA de novembre 2015), et par des membres du public cible. Finalement, le 29 janvier 2016, le Comité exécutif de l’ASA approuvait la déclaration.
Le processus de développement de la déclaration fut plus long et controversé que prévu. Par exemple, il y eut beaucoup de discussions sur la meilleure façon d’aborder la question des comparaisons multiples potentielles (Gelman et Loken 2014). Nous avons débattu longuement des problèmes derrière les mots "une p-valeur proche de 0,05 prise isolément n’est qu’une faible preuve contre l’hypothèse nulle" (Johnson 2013). Il y avait des points de vue divergents sur la façon de caractériser diverses alternatives à la valeur-p et jusqu’à quel niveau de détails les aborder. Pour garder la déclaration raisonnablement simple, nous n’avons pas traité des hypothèses alternatives, des types d’erreur, ou de puissance (entre autres choses), et tout le monde n’était pas d’accord avec cette approche.
À l’approche de la fin du processus d’élaboration de la déclaration, Wasserstein a contacté Lazar et lui a demandé si la déclaration convenait pour une publication dans The American Statistician (TAS). Après réflexion, Lazar a estimé que TAS serait une bonne plate-forme pour atteindre un lectorat statisticien étendu. Nous avons tous convenu que l’ajout d’une discussion en ligne augmenterait le niveau d’intérêt pour l’audience de TAS, donnant l’occasion de refléter les controverses susmentionnées.
À cette fin, un groupe de participants a été contacté pour fournir ses commentaires sur la déclaration. Vous pouvez lire leurs déclarations dans le supplément en ligne, et un guide de ces déclarations apparaît à la fin de cet éditorial. Nous remercions Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Groenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark et Steve Ziliak pour avoir partagé leurs perspectives éclairées.
Une mention spéciale à l’article ci-dessous, qui est une contribution significative à la littérature sur les valeurs-p et la signification statistique.
Groenland, S., Senn, SJ, Rothman, KJ, Carlin, JB, Poole, C., Goodman, S.N. et Altman, D.G. : "Statistical Tests, P-values, Confidence Intervals, and Power: A Guide to Misinterpretations"
Bien qu’il y ait eu des désaccords sur ce que la déclaration devrait dire exactement, il y a eu un large consensus sur le fait que l’ASA devait s’exprimer sur ces sujets.
Soyons clairs. Rien dans cette déclaration de l’ ASA n’est nouveau. Les statisticiens et d’autres ont sonné vainement l’alarme sur ces questions depuis des décennies. Nous espérions qu’une déclaration de la plus grande association professionnelle de statisticiens au monde renouvellerait la discussion et susciterait une attention forte et nouvelle afin de modifier les pratiques scientifiques concernant l’utilisation de l’inférence statistique.

Guide de la documentation supplémentaire en ligne de la Déclaration de l’ASA sur les valeurs-p et la signification statistique

Beaucoup de participants à la rédaction de la déclaration de l’ASA ont contribué en commentant la déclaration ou des points connexes. Leurs commentaires sont publiés en tant que suppléments en ligne à la déclaration. Nous fournissons ici une liste des articles supplémentaires.

Eléments supplémentaires à la déclaration de l’ASA sur les valeurs-p et la signification statistique

Altman,Naomi: Ideas from multiple testing of high dimensional data provide insights about reproducibility and false discovery rates of hypothesis supported by p-values
Benjamin, Daniel J, and Berger, James O: A simple alternative to p-values
Benjamini, Yoav: It’s not the p-values’ fault
Berry, Donald A: P-values are not what they’re cracked up to be
Carlin, John B: Comment: Is reform possible without a paradigm shift?
Cobb, George: ASA statement on p-values: Two consequences we can hope for
Gelman, Andrew: The problems with p-values are not just with p-values
Goodman, Steven N: The next questions:Who,what,when, where, and why?
Greenland, Sander: The ASA guidelines and null bias in current teaching and practice
Ioannidis, John P.A.: Fit-for-purpose inferential methods: abandoning/changing P-values versus abandoning/ changing research
Johnson, Valen E.: Comments on the “ASA Statement on Statistical Significance and P-values" and marginally significant p-values
Lavine, Michael, and Horowitz, Joseph: Comment
Lew, Michael J: Three inferential questions, two types of P-value
Little, Roderick J: Discussion
Mayo, Deborah G: Don’t throw out the error control baby with the bad statistics bathwater
Millar,Michele: ASA statement on p-values: some implications for education
Rothman, Kenneth J: Disengaging from statistical significance
Senn, Stephen: Are P-Values the Problem?
Stangl, Dalene: Comment
Stark, P.B.: The value of p-values
Ziliak, Stephen T: The significance of the ASA statement on statistical significance and p-values

Références

American Statistical Association (2010), “ASA Statement on Risk- Limiting Post Election Audits.” Available at http://www.amstat.org/policy/pdfs/Risk-Limiting_Endorsement.pdf. [129] Gelman, A., and Loken, E. (2014), “The Statistical Crisis in Science [online],” American Scientist, 102. Available at http://www.american-scientist.org/issues/feature/2014/6/the-statistical-crisis-in-science. [129] Johnson, V. E. (2013), “UniformlyMost Powerful Bayesian Tests,” Annals of Statistics, 41, 1716–1741. [130] Leek, J. (2014), “On the Scalability of Statistical Procedures: Why the p-Value Bashers Just Don’t Get It,” Simply Statistics Blog, Available at http://simplystatistics.org/2014/02/14/on-the-scalability-of-statisticalprocedures-why-the-p-value-bashers-just-dont-get-it/. [129] Morganstein, D., and Wasserstein, R. (2014), “ASA Statement on Value-Added Models,” Statistics and Public Policy, 1, 108–110. Available at http://amstat.tandfonline.com/doi/full/10.1080/2330443X.2014.956906. [129] Nuzzo, R. (2014), “Scientific Method: Statistical Errors,” Nature, 506, 150–152. Available at http://www.nature.com/news/scientific-methodstatistical-errors-1.14700. [129] Peng, R. (2015), “The Reproducibility Crisis in Science: A Statistical Counterattack,” Significance, 12, 30–32. [129] Phys.org Science News Wire (2013), “The Problem With p Values: How Significant are They, Really?” Available at http://phys.org/wire-news/145707973/the-problem-with-p-values-how-significant-are-they-really.html. [129] Siegfried, T. (2010), “Odds Are, It’s Wrong: Science Fails to Face the Shortcomings of Statistics,” Science News, 177, 26. Available at https://www.sciencenews.org/article/odds-are-its-wrong. [129] Siegfried, T. (2014), “To Make Science Better, Watch out for Statistical Flaws,” Science News Context Blog, February 7, 2014. Available at https://www.sciencenews.org/blog/context/make-science-betterwatch-out-statistical-flaws. [129] Trafimow, D., and Marks, M. (2015), “Editorial,” Basic and Applied Social Psychology 37, 1–2. [129]

Ronald L.Wasserstein and Nicole A. Lazar
ron@amstat.org
American Statistical Association, 732 NorthWashington Street,
Alexandria, VA 22314-1943.

Déclaration de l’ASA sur la signification statistique et les valeurs p

1. Introduction

L’usage accrue des méthodes quantitatives dans la recherche scientifique et la prolifération ces dernières années de jeux de données étendus et complexes ont élargi le domaine d’application des méthodes statistiques. Ceci a créé de nouvelles voies pour le progrès scientifique, mais a aussi suscité des inquiétudes sur les conclusions tirées des données issues de la recherche. La validité des conclusions scientifiques, y incluant leur reproductibilité, dépend de plus que des méthodes statistiques en elles-mêmes. Des techniques convenablement choisies, des analyses correctement menées, une interprétation correcte des résultats statistiques avec une présentation adéquate de l’incertitude qui les entoure jouent aussi un rôle majeur pour garantir des conclusions fiables.
A la base de nombreuses conclusions scientifiques publiées se trouve le concept de «signification statistique», généralement évaluée par un indice appelé la valeur-p. Bien que la valeur-p soit une mesure statistique utile, elle est couramment mal utilisée et mal interprétée. Cela a conduit des revues scientifiques à décourager l’utilisation des valeurs-p, et certains scientifiques et statisticiens à recommander leur abandon, avec des arguments inchangés pour l’essentiel depuis l’introduction des valeurs-p.
Dans ce contexte, la Société américaine de statistique (American Statistical Association (ASA)) estime que la communauté scientifique pourrait bénéficier d’une déclaration formelle clarifiant plusieurs principes largement acceptés, sous-jacents à l’utilisation et à l’interprétation correctes de la valeur-p. Les questions qui y sont abordées affectent non seulement la recherche, mais aussi le financement de la recherche, les pratiques éditoriales, l’avancement de carrière, l’éducation scientifique, les politiques publiques, le journalisme et le Droit. Cette déclaration ne cherche pas à résoudre tous les problèmes liés aux bonnes pratiques statistiques, ni à régler les controverses fondamentales. Cette déclaration énonce plutôt en termes non techniques une sélection de principes qui pourraient améliorer la réalisation ou l’interprétation des analyses quantitatives, selon un large consensus de la communauté statisticienne.

2. Qu’est-ce qu’une p-valeur ?

De manière informelle, une valeur-p est la probabilité, pour un modèle statistique spécifié, qu’une valeur statistique pour des données (par exemple, la différence des moyennes empiriques entre deux échantillons) soit égale ou plus extrême que la valeur observée.

3. principes

  1. Les valeurs-p peuvent indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.

Une valeur-p fournit une approche pour résumer l’incompatibilité entre un jeu particulier de données et un modèle proposé pour ces données. Le contexte le plus courant est un modèle, construit sur un ensemble de suppositions, et ce qui est appelée "l’hypothèse nulle". Souvent l’hypothèse nulle suppose l’absence d’effet, par exemple l’absence de différence entre deux groupes, ou l’absence d’une relation entre un facteur et un résultat. Plus la valeur-p est petite, plus les données sont statistiquement incompatibles avec l’hypothèse nulle, si les suppositions établies pour calculer la valeur-p sont valables. Cette incompatibilité peut être interprétée comme rendant douteuse, ou fournissant des preuves contre, l’hypothèse nulle ou les suppositions retenues.

  1. Les valeurs-p ne mesurent pas la probabilité que l’hypothèse étudiée soit vraie, ou la probabilité que les données soient uniquement le fruit du hasard.

Les chercheurs souhaitent souvent transformer une valeur-p en constat sur la réalité de l’hypothèse nulle, ou sur la probabilité que le hasard ait produit les données observées. La valeur-p n’est rien de cela. C’est un constat sur les données par rapport à une hypothèse explicative spécifiée, pas un constat sur l’explication elle-même.

  1. les conclusions scientifiques et les décisions commerciales ou politiques ne devraient pas être basées uniquement sur le fait qu’une valeur-p ait franchi un seuil déterminé.

Les pratiques qui ramènent l’analyse de données ou l’inférence scientifique à l’application mécanique de règles binaires ( telle que "p<0.05" ) pour justifier des affirmations scientifiques ou des conclusions peuvent mener à des convictions erronées ou de mauvaises prises de décisions. Une conclusion ne devient pas immédiatement "vraie" d’un coté de la démarcation et "fausse" de l’autre. Les chercheurs devraient aussi mettre en balance divers facteurs contextuels pour déduire des inférences scientifiques, y incluant la conception de l’étude, la qualité des mesures, les preuves externes pour le phénomène étudié et la validité des présupposés qui sous-tendent l’analyse des données. Des considérations pragmatiques requièrent souvent des décisions binaires, de type "oui ou non", mais cela ne signifie pas que les valeurs-p à elles seules peuvent assurer que la décision est correcte ou non. L’usage généralisé de la "signification statistique" (généralement interprétée comme "p<0.05") comme permettant d’établir une découverte scientifique (ou un fait avéré) mène à d’importante distorsion du processus scientifique.

  1. Une inférence correcte nécessite un rapport complet et de la transparence

Les valeurs-p et les analyses associées ne doivent pas être présentées sélectivement. Effectuer plusieurs analyses des données en ne présentant que celles avec certaines p-valeurs (typiquement celles qui passent un seuil de signification) rendent les p-valeurs présentées essentiellement ininterprétables.

Le tri sélectif des résultats, également connus sous des termes tels que tripatouillage de données, chasse à la signification, quête de signification, inférence sélective et «p-hacking», 1 conduit à un excès trompeur de résultats statistiquement significatifs dans les publications et devrait être soigneusement évité. Il n’est pas formellement nécessaire de procéder à plusieurs tests statistiques pour que ce problème se pose : chaque fois qu’un chercheur choisit ce qu’il va présenter sur la base des résultats statistiques, l’interprétation valable de ces résultats est gravement compromise si le lecteur n’est pas informé de ce choix et des raisons de celui-ci. Les chercheurs devraient présenter le nombre d’hypothèses explorées au cours de l’étude, toutes les décisions prises lors de la collectes de données, toutes les analyses statistiques menées et toutes les valeurs-p calculées. On ne peut pas tirer de conclusions scientifiques valables à partir des valeurs-p et des statistiques associées sans au moins savoir combien et quelles analyses ont été effectuées, et comment ces analyses (y compris les valeurs-p) ont été sélectionnées pour être présentées.

  1. Une valeur-p ou une signification statistique ne mesure pas la taille d’un effet ou l’importance d’un résultat.

Etre statistiquement significatif n’est pas équivalent à être significatif au sens scientifique, humain ou économique. Des valeurs-p plus faibles n’impliquent pas nécessairement la présence d’effets plus grands ou plus importants, et des valeurs p-plus grandes n’impliquent pas une absence d’importance ou même une absence d’effet. N’importe quel effet, aussi ténu soit il, peut produire une valeur-p faible si la taille de l’échantillon ou la précision des mesures est assez grande, et des effets importants peuvent fournir des valeurs-p peu impressionnantes si la taille de l’échantillon est petite ou si les mesures sont imprécises. De même, des effets identiques estimés auront des valeurs-p différentes si la précision des estimations diffère.

  1. En soi, une valeur-p ne fournit pas une bonne mesure de la preuve d’un modèle ou d’une hypothèse.

Les chercheurs devraient reconnaître qu’une valeur-p, sans le contexte ou d’autres éléments de preuve, ne fournit que des informations limitées. Par exemple, une valeur-p proche de 0,05 prise isolément n’offre qu’une faible évidence contre l’hypothèse nulle. De même, une valeur-p relativement grande n’implique pas une preuve en faveur de l’hypothèse nulle ; beaucoup d’autres hypothèses peuvent être tout autant voire plus cohérentes avec les données observées. Pour ces raisons, l’analyse des données ne doit pas se limiter au calcul d’une valeur-p lorsque d’autres approches sont appropriées et faisables.

4. Autres approches

Compte tenu des usages abusifs et des idées fausses concernant les valeurs-p, certains statisticiens préfèrent compléter ou même remplacer les valeurs-p par d’autres approches. Ceci inclut des méthodes qui mettent en avant l’estimation par rapport aux tests, tels que les intervalles de confiance, la vraisemblance, ou les intervalles de prévision ; les méthodes bayésiennes ; des mesures alternatives de la preuve, telles que les rapports de vraisemblance, les facteurs de Bayes ; et d’autres approches, telles que la modélisation de la décision et les taux de fausses découvertes. Toutes ces mesures et approches reposent sur des hypothèses supplémentaires, mais elles peuvent plus directement traiter la taille d’un effet (et son incertitude associée) ou la validité de l’hypothèse.

5. Conclusion

La bonne pratique statistique, en tant que composante essentielle de la bonne pratique scientifique met en avant les principes de bonne conception et réalisation des études, une variété de descriptions graphiques et numériques des données, la compréhension du phénomène étudié, l’interprétation contextualisée des résultats, une présentation exhaustive et une bonne compréhension logique et quantitative de ce que signifient les valeurs statistiques. Aucun chiffre isolé ne peut se substituer au raisonnement scientifique.

Remerciements

Le Comité de Direction de l’ASA remercie les personnes suivantes pour avoir partagé leurs expertises et leurs points de vue pour l’élaboration de cette déclaration. La déclaration ne reflète pas nécessairement le point de vue de toutes ces personnes, et, en fait, certains ont des points de vue opposés à tout ou partie de la déclaration. Néanmoins, nous sommes profondément reconnaissants pour leurs contributions. Naomi Altman, Jim Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian, Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Groenland, Guido Imbens, John Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck McCulloch, Michele Millar, Sally Morton, Regina Nuzzo, Hilary Parker, Kenneth Rothman, Don Rubin, Stephen Senn, Uri Simonsohn, Dalene Stangl, Philip Stark, Steve Ziliak.

Edité par Ronald L.Wasserstein, directeur exécutif Au nom du Comité de Direction de la Société Américaine de Statistique

Une courte liste de références concernant les valeurs-p et la signification statistique :

liste :

Altman D.G., and Bland J.M . (1995), “Absence of Evidence is not Evidence of Absence,” British Medical Journal, 311, 485.
Berger, J.O., and Delampady,M. (1987), “Testing Precise Hypotheses,” Statistical Science, 2, 317–335.
Berry, D. (2012), “Multiplicities in Cancer Research: Ubiquitous and Necessary Evils,” Journal of the National Cancer Institute, 104, 1124–1132.
Christensen, R. (2005), “Testing Fisher, Neyman, Pearson, and Bayes,” The American Statistician, 59, 121–126.
Cox, D.R. (1982), “Statistical Significance Tests,” British Journal of Clinical Pharmacology, 14, 325–331.
Edwards, W., Lindman, H., and Savage, L.J. (1963), “Bayesian Statistical Inference for Psychological Research,” Psychological Review, 70, 193–242.
Gelman, A., and Loken, E. (2014), “The Statistical Crisis in Science [online],” American Scientist, 102. Available at http://www.americanscientist.org/issues/feature/2014/6/the-statistical-crisis-in-science
Gelman, A., and Stern, H.S. (2006), “The Difference Between ‘Significant’ and ‘Not Significant’ is not Itself Statistically Significant,” The American Statistician, 60, 328–331.
Gigerenzer, G. (2004), “Mindless Statistics,” Journal of Socioeconomics, 33, 567–606.
Goodman, S.N. (1999a), “Toward Evidence-BasedMedical Statistics 1: The P-Value Fallacy,” Annals of Internal Medicine, 130, 995–1004.
——— (1999b), “Toward Evidence-Based Medical Statistics. 2: The Bayes Factor,” Annals of Internal Medicine, 130, 1005–1013.
———(2008), “A Dirty Dozen: Twelve P-Value Misconceptions,” Seminars in Hematology, 45, 135–140.
Greenland, S. (2011), “Null Misinterpretation in Statistical Testing and its Impact on Health Risk Assessment,” Preventive Medicine, 53, 225–228.
——— (2012), “Nonsignificance Plus High Power Does Not Imply Support for theNull Over the Alternative,” Annals of Epidemiology, 22, 364–368.
Greenland, S., and Poole, C. (2011), “Problems in Common Interpretations of Statistics in Scientific Articles, Expert Reports, and Testimony,” Jurimetrics, 51, 113–129.
Hoenig, J.M., andHeisey,D.M. (2001), “The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis,” The American Statistician, 55, 19–24.
Ioannidis, J.P. (2005), “Contradicted and Initially Stronger Effects in Highly Cited Clinical Research,” Journal of the American Medical Association, 294, 218–228.
———(2008), “WhyMost Discovered True Associations are Inflated” (with discussion), Epidemiology 19, 640–658.
Johnson, V.E. (2013), “Revised Standards for Statistical Evidence,” Proceedings of the National Academy of Sciences, 110(48), 19313–19317.
——— (2013), “Uniformly Most Powerful Bayesian Tests,” Annals of Statistics, 41, 1716–1741.
Lang, J., Rothman K.J., and Cann, C.I. (1998), “That Confounded P-value” (editorial), Epidemiology, 9, 7–8.
Lavine,M. (1999), “What is Bayesian Statistics and Why Everything Else is Wrong,” UMAP Journal, 20, 2.
Lew, M.J. (2012), “Bad Statistical Practice in Pharmacology (and Other Basic Biomedical Disciplines): You Probably Don’t Know P,” British Journal of Pharmacology, 166, 5, 1559–1567.
Phillips, C.V. (2004), “Publication Bias In Situ,” BMC Medical Research Methodology, 4, 20.
Poole, C. (1987), “Beyond the Confidence Interval,” American Journal of Public Health, 77, 195–199.
——— (2001), “Low P-values or Narrow Confidence Intervals: Which are More Durable?” Epidemiology, 12, 291–294.
Rothman, K.J. (1978), “A Show of Confidence” (editorial), New England Journal of Medicine, 299, 1362–1363.
——— (1986), “Significance Questing” (editorial), Annals of Internal Medicine, 105, 445–447.
———- (2010), “Curbing Type I and Type II Errors,” European Journal of Epidemiology, 25, 223–224.
Rothman, K.J., Weiss, N.S., Robins, J., Neutra, R., and Stellman, S. (1992), “Amicus Curiae Brief for the U. S. Supreme Court, Daubert v. Merrell
Dow Pharmaceuticals, Petition for Writ of Certiorari to the United States Court of Appeals for the Ninth Circuit,” No. 92-102, October Term, 1992.
Rozeboom,W.M. (1960), “The Fallacy of the Null-Hypothesis Significance Test,” Psychological Bulletin, 57, 416–428.
Schervish, M.J. (1996), “P-Values:What They Are and What They Are Not,” The American Statistician, 50, 203–206.
Simmons, J.P., Nelson, L.D., and Simonsohn, U. (2011), “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant,” Psychological Science, 22, 1359–1366.
Stang, A., and Rothman, K.J. (2011), “That Confounded P-value Revisited,” Journal of Clinical Epidemiology, 64, 1047–1048.
Stang, A., Poole, C., and Kuss, O. (2010), “The Ongoing Tyranny of Statistical Significance Testing in Biomedical Research,” European Journal of Epidemiology, 25, 225–230.
Sterne, J. A. C. (2002). “Teaching Hypothesis Tests—Time for Significant Change?” Statistics in Medicine, 21, 985–994.
Sterne, J. A. C., and Smith, G. D. (2001), “Sifting the Evidence—What’s Wrong with Significance Tests?” British Medical Journal, 322, 226–231.
Ziliak, S.T. (2010), “The Validus Medicus and a New Gold Standard,” The Lancet, 376, 9738, 324–325.
Ziliak, S.T., and McCloskey, D.N. (2008), The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives, AnnArbor,MI: University of Michigan Press.


  1. NdT : la terminologie française pour ces pratiques douteuses n’est pas aussi établie que l’anglo-saxonne, d’autant que beaucoup de publications d’origine française sont en fait rédigées en anglais. Lorsqu’une appellation usuelle, éventuellement anglophone (telle que p-hacking qui est couramment utilisé en français), n’a pu être identifiée , une traduction littérale a été faite.

La malédiction de la valeur-p

La revue Pour la Science a édité au premier trimestre 2018 un numéro hors série : "BIG DATA : vers une révolution de l’intelligence ?" . Un des articles, titré "La malédiction de la valeur-p" traitait un de mes sujets d’intérêt : le mauvais usage de la valeur-p dans la recherche scientifique.

L’article était intéressant et couvrait assez bien le sujet. Toutefois, j’ai remarqué deux énoncés non seulement incorrects, mais aussi incohérents avec le fond de l’article : dans l’en-tête, sous-titré "l’ESSENTIEL", on lit en première remarque : "La valeur-p désigne la probabilité qu’un résultat statistique ne soit pas le fait du hasard" et, plus loin, une note de marge : "Valeur-P : la valeur-p indique dans quelle mesure il est probable que le résultat présenté dans une étude soit vrai et ne résulte pas du hasard. Ainsi une valeur-p inférieure à 0.05 signifie que nous aurions raison 95 fois sur 100 de croire qu’un effet observé n’est pas une coincidence".

Intrigué, j’ai cherché sur internet des informations sur la Professeure Regina Nuzzo, l’auteure mentionnée de l’article. J’ai découvert rapidement qu’elle enseignait effectivement les statistiques à l’Université Gallaudet à Washington DC, qu’elle avait été choisie par l’ASA (American Statistical Association) pour animer le groupe de travail qui a produit la déclararion officielle de l’ASA sur l’usage de la valeur-p, et aussi qu’elle a rédigé un des articles les plus consultés sur les problèmes de la valeur-p – version originale en anglais : Nuzzo, R. (2014), “Scientific Method: Statistical Errors,” Nature, 506, 150–152., ou dans une traduction française, non officielle semble t’il : https://sceptom.wordpress.com/2014/11/10/la-methode-scientifique-erreurs-statistiques-regina-nuzzo/ -. L’article dans Pour la Science semble d’ailleurs assez inspiré de celui de Nature, sans en être une simple traduction 1.

Il est difficile de penser que la Professeure Nuzzo ait pu être l’auteure de tels contre-sens (avec une valeur-p < 0.000001 ). Ayant contacté celle-ci, elle m’a confirmé l’inexactitude de ces deux affirmations. La rédaction de Pour la Science, contactée elle aussi, ne m’a pas répondu. Je ne peux donc qu’avancer une hypothèse : "quelqu’un", qui n’est probablement pas spécialiste, ayant travaillé sur un article qui traite des difficultés que les professionnels même confirmés rencontrent avec l’usage et l’interprétation de la valeur-p, a estimé pouvoir inclure sa propre interprétation de la valeur-p : une façon involontairement ironique de confirmer la malédiction de la valeur-p.


  1. Il y a aussi une erreur d’attribution de citation dans Pour la Science qui n’existe pas dans Nature : "Charles Lambdin, d’Intel Corporation, à même proposé de rebaptiser la méthode « Statistical Hypothesis Inference Testing »… En fait, si l’on consulte la référence fournie (Lambdin 2012 Theory & Psychology 22(1) 67–90 Significance tests as sorcery: Science is empirical— significance tests are not https://doi.org/10.1177/0959354311429854), Lambdin attribue cette phrase au statisticien Cohen.

Pourquoi ce blog ?

(Le nom de ce blog (lets-see-what-happens) peut se traduire par « voyons ce que ça donne »)
J’ai toujours été intéressé par les sciences et la technologie. Mes héros favoris quand j’étais enfant (avant de découvrir les super-héros) étaient le capitaine Nemo, concepteur et constructeur du sous-marin Nautilus dans « 20000 lieues sous les mers » de Jules Verne, et Cyrus Smith, l’ingénieur génial de « L’île mystérieuse » du même auteur. (Cyrus Smith est une sorte de super « Mac gyver » : sur une ile déserte avec trois autres naufragés, il trouve moyen de fabriquer du verre, de la nitroglycérine, etc.).
Après avoir suivi bien sûr une formation d’ingénieur, j’ai commencé à travailler comme développeur dans l’informatique (à une époque ou le COBOL était enseigné comme un langage informatique, pas une langue morte), puis dans les télécom, puis je suis devenu manager, puis j’ai quitté le business technologique… bref je je me suis éloigné de la technique et ça me manque.
Il y a quelques années, je me suis offert un mac book air (oui, oui, je sais, merci de ne pas troller). Grace à cet ordinateur, j’ai trouvé mon équivalent de l’armoire pour retourner à Narnia : le Terminal ! Evidemment, pas question de faunes, de blaireaux, de lion prétentieux, mais d’une profusion de logiciels pour développer et créer, libres, gratuits et, une fois découvert Homebrew, faciles à installer !
Après quelques années d’orgie de découvertes, d’essais et de problèmes existentiels à résoudre  : Vim ou Emacs ? (ce sera Vim : Oui, oui, je sais, merci de ne pas troller), python ou R ? Rstudio or Jupyter ? Latex ou Markdown ? etc. etc. j’ai (plus ou moins clarifié) mes objectifs :
  • Travailler vim et Markdown, et utiliser Pandoc avec une pincée  de CSS et HTML, en réalisant un ebook et en le publiant sur Amazon (fait en 2017 : il s’agit de la numérisation d’un ouvrage du domaine public, sur les contes et légendes de Carnac en Bretagne)
  • Utiliser python et Panda pour faire une analyse de données (fait en 2014 dans le cadre professionnel)
  • Me mettre à niveau en statistiques et en data science (commencé en 2016. Pas de fin prévue à ce jour)
  • Apprendre à programmer en R (en cours en depuis 2017. Pas de fin prévue à ce jour)
  • Pratiquer et améliorer mon anglais
  • Mettre en place un blog et/ou un site internet : fait avec ce blog (nom de domaine et hébergement en 2016, premier article : 2018 : Si ce n’est pas de la procrastination …)
  •  Voir ce que donne tout çà…
Je parlerai donc ici de mes réflexions et activités dans ces divers domaines  et probablement aussi de ce qui me passera par la tête au gré de mes lectures, de l’actualité, etc. etc. et maintenant … Let’s see what happens !
Même si il est peu probable que l’audience de ce site dépasse un jour ma femme et mes enfants, j’insérerai éventuellement des liens commissionnés pour les produits que je cite. Si vous crachez sur tout ce qui est lien commercial, suivez ce lien ci.