BloguesLa réalité existe

Quand la science nourrit la pseudoscience.

Même pour l’observateur peu attentif, il est apparent que les nouvelles scientifiques ont la fâcheuse tendance de se contredire très souvent. Remarquez que la découverte de résultats scientifiques faux n’a rien d’anormal et est même tout à fait sain, car la force même de la méthode scientifique est de détecter les erreurs. En effet, le fondement de la méthode scientifique, c’est la reproductibilité. Il est donc normal qu’en testant la reproductibilité des résultats, on trouve des discordances de temps à autre avec les observations ou les conclusions de travaux antérieurs.

Le problème c’est la magnitude du phénomène. Le premier à avoir lancé un cri d’alarme est l’épidémiologiste de l’université Stanford, John Ioannidis qui a affirmé en 2005 que la majorité des articles scientifiques sont faux.  En effet, selon certaines estimations 75 à 90 % des observations empiriques dans le domaine biomédical sont non reproductibles! Ce qui fait dire à certains que la très grande majorité de la recherche dans ces domaines est un gaspillage d’argent dépassant les 200 milliards de dollars par an! Depuis que cette constatation a été faite, ce questionnement s’est étendu aux domaines de la biologie, de la psychologie, de l’économie et des sciences sociales, qui ont essentiellement les mêmes pratiques de recherche.

Cette prise de conscience est connue sous le nom de la crise de la reproductibilité. Pour celui qui suit le moindrement la littérature scientifique, il s’agit d’un phénomène social majeur. Avec un peu de chance, il aura des impacts positifs durables sur la façon de faire la science.

Le cause du problème ne réside pas dans la méthode scientifique ou dans une culture généralisée de fraude (qui est très rare), mais plutôt dans une culture qui favorise la productivité au détriment de la rigueur. Au cœur du problème, on retrouve le biais de confirmation. Il s’agit d’un phénomène psychologique très simple : quand on cherche quelque chose, on tend à la trouver. Les chercheurs sont particulièrement vulnérables à ce type de biais. Brillants et créatifs, il leur est possible de trouver des interprétations diverses aux données qui vont dans le sens des conclusions qu’ils veulent bien obtenir.

Un exemple classique dans le domaine de l’histoire des sciences est celui des rayons N de physicien français René Blondot. Blondot croyait avoir découvert un nouveau phénomène électromagnétique. Dans son laboratoire, le phénomène était reproductible. Le problème était qu’il ne l’était pas dans le labo d’un collègue américain. Exaspéré de ne pouvoir reproduire ces résultats, il visita le laboratoire de Blondot pour constater que sa  machine à rayons N fonctionnait même si elle était débranchée! Blondot s’était fait avoir au biais de confirmation. Des générations de physiciens ont entendu cette histoire ou, alternativement, celle de profs du département qui avait fait le même genre d’erreur.

La première ligne de défense contre le biais de confirmation est la randomisation et le travail en aveugle. En effet, si celui qui prend les mesures ignore la valeur des paramètres testés, il est difficile de pousser les données dans le sens voulu par la conclusion. On peut aussi travailler à double insu. Dans ce cas, le sujet d’étude et l’expérimentateur ne connaissent pas la valeur de paramètres testés. On peut même travailler en triple insu en faisant faire l’analyse des données par quelqu’un qui n’est pas au courant de l’objectif de l’expérience. Malgré la pertinence de cette approche et aussi surprenante que cela puisse paraître, les recherches ne se font pas toujours à double insu, même quand cela est possible.

Au-delà de la technique, il est de plus en plus apparent que le cœur du problème se trouve dans une culture qui valorise la découverte au détriment de la validité des résultats. Produit de cette culture, le biais de publication, où seuls les résultats positifs et les découvertes apparentes sont publiés, de sorte que les résultats négatifs et même les contre-vérifications sont boudés,  par les éditeurs scientifiques.  Au point, où certaines revues scientifiques refusent carrément d’accepter des articles qui essayent de reproduire des résultats antérieurs! La méthode scientifique en prend pour son rhume.

En plus du biais de publication, il y a le problème dit du «p-hacking». Un terme créé par le psychologue Uri Simonsohn de l’Université de la Pennsylvanie. Il s’agit de la pratique qui consiste à presser les données jusqu’à obtenir un résultat qui dépasse la frontière psychologique du p<0,05, qui est considéré comme le seuil de détection statistique dans bien des domaines. En pratique, cela se traduit par la création d’hypothèse a posteriori, à l’observation simultanée d’un maximum de variables et si ce n’est pas suffisant découper l’échantillon en sous-groupes. Remarquez qu’aucune de ces pratiques n’est en soi fondamentalement incorrecte.

En général, il s’agit d’une limite tout à fait raisonnable quand on ne fait qu’un seul test. Le problème est que lorsque l’on fait plusieurs tests, la probabilité d’obtenir un résultat positif par hasard augmente exponentiellement. Il faut donc augmenter significativement le seuil de détection pour faire une découverte (correction de Bonferonni)

C’est pour cette raison que les physiciens des particules ne considèrent pas qu’une découverte est valide tant qu’elle n’a pas atteint le seuil de 5 écarts types, ce qui correspond à un p de 1/3,5 millions, car ils font une quantité énorme de mesure simultanément. Je me souviens d’avoir lu dans une publication du CERN que cette valeur a été choisie après que l’expérience ait montré que les signaux à quatre écarts types (1/31 574) étaient faux une fois sur deux.  De même, en astrophysique, il est relativement connu que les mesures avec un rapport signal à bruit de 5 sont biaisées, pour cette même raison.

Un exemple de cette pratique est le papier de Carman et al. 2013 portant sur la toxicité des OGMs. Les chercheurs ont examiné 40 indicateurs physiologiques à la recherche d’un effet toxique. Et en plus, l’inflammation de l’estomac a été divisée en 4 niveaux et par sexe pour faire augmenter la signifiance statistique du signal.

En plus des efforts de manipulation des données de la part des chercheurs, il y a aussi une mauvaise interprétation de la signifiance statistique. En effet, il faut savoir que le choix d’un seuil de 5 % est purement arbitraire. Quand il a été proposé dans les années 20, par le statisticien britannique Ronald Fisher, il n’avait pas pour but d’être un test définitif pour définir une découverte. C’est plutôt un indicateur qu’il y avait peut-être là quelque chose d’intéressant à explorer. À cette époque, les statisticiens polonais Jerzy Neyman et britannique Egon Pearson développaient une approche alternative basée sur la puissance statistique et les faux positifs et négatifs, qui n’utilisait pas la valeur p. Les deux approches étant incompatibles, il s’en suivit une guerre intellectuelle entre les deux équipes.

Las de cette situation, d’autres chercheurs ont produit des manuels de statistiques pratiques qui combinaient les deux méthodes. Cela transforma la signification de la valeur p en une indication de sujet d’intérêt en preuve de découverte formelle. Ce qui est fondamentalement faux.

En effet, pour être utilisée correctement, la valeur p doit être combinée avec une hypothèse initiale de la probabilité de la réalité d’un phénomène. Cette approche, dite bayésienne, tient compte de l’information préexistante. Ainsi, les hypothèses les moins plausibles – télépathie,  télékinésie, extra-terrestres, homéopathie – ont plus de chances d’être fausses que des hypothèses plus banales pour la même valeur de p.

Par exemple, si au départ les deux hypothèses sont aussi valides (l’effet existe ou n’existe pas), car on n’a pas d’information a priori, un p de 0,05 correspond plutôt à un taux d’erreur entre un 1/3 et 1/5  et p=0,01 entre 1/12 et 1/20! Alors, si vous allez à la pêche en examinant plusieurs variables et en faisant un peu de p-hacking, vous êtes quasiment certain de faire une découverte, mais cette dernière sera très probablement fausse!

Schoenfeld_Ioannidis
Aliments et risque de cancer (adapté de Schoenfeld & Ioannidis 2012)

Cette sur-interprétation des données a pour conséquence la production d’une quantité hallucinante d’études scientifiques de faible valeur. Par exemple, des dizaines d’études scientifiques montrent que presque tous les aliments causent et préviennent simultanément le cancer. Ce qui permet aux charlatans de tout acabit de proposer un menu anticancer prouvé scientifiquement en faisant une lecture sélective de la littérature.

1-9801568x6
Risque de cancer associé à l’exposition au champs électromagnétiques (Leitgeb 2014)

Les champs électromagnétiques vous préoccupent. Pas de problème, il y a des centaines d’articles qui montrent que cela provoque le cancer ou le prévient. Il suffit de choisir dans la pile. Au passant, je vous invite à comparer ce dernier graphique à cette étude classique sur la psychokinésie. Ne chercher pas la différence, il n’y en a pas! Dans le deux cas cependant, les résultats convergent vers ce que la physique prédit: zéro effet.

Lucadou_Romer_Walach_-_funnel_plot
Puissance de l’effet psychokinétique (Steinkamp et al., 2002)

Une façon simple de corriger ce problème serait d’augmenter le seuil de détection statistique à un niveau plus réaliste. Ainsi, on pourrait utiliser p=0,005 et p=0,001 comme seuils d’un effet significatif et très significatif. Correspondant, à des taux d’erreur de 1/20 à 1/50 et 1/100 à 1/200 respectivement. Le prix à payer pour atteindre ce niveau de certitude est d’augmenter la taille des échantillons par un facteur 2, ce qui est plus coûteux, mais fait réduire le nombre de faux positifs par un facteur 5.

Une autre façon de limiter le problème est de présenter les résultats sous une forme graphique parlante, ce qui est rarement le cas dans bien des domaines où l’on préfère utiliser des tables. Pourtant, le graphique à lui seul contient souvent suffisamment d’information pour que la signifiance du phénomène puisse être évaluée d’un coup d’œil pour peu qu’il soit bien construit.

Il est très possible de faire de la recherche sans produire des montagnes de faux résultats positifs. Ainsi, dans le domaine de la physique, des mathématiques et du génie, la très grande majorité des résultats sont valides. Il n’y a pas de statistiques publiées sur la validité des découvertes dans ces domaines, mais en examinant simplement la banque de données de l’Extrasolar Planets Encyclopedia, on note que seulement 197 des 1924 planètes dans la banque de données sont non confirmées, controversées ou ont été rétractées, soit 10,2 %. Il faut dire que les physiciens sont en général plus rigoureux dans leur analyse statistique, mais aussi plus craintifs face à l’annonce d’une fausse découverte.

C’est probablement là où se trouve le nœud du problème. En effet, le contre-argument qui m’a été servi à chaque fois que j’ai dénoncé cette situation était que d’augmenter la rigueur des analyses allait réduire le nombre de découvertes, même si la majorité d’entre elles sont présentement fausses. Tant que cette culture ne changera pas, on ne peut pas espérer de progrès et les sciences continueront à nourrir les pseudosciences.

Ajout du 28 mai

Un petit commentaire d’un astrophysicien québécois chasseur d’exoplanète, David Lafrenière,  qui illustre bien la différence culturelle qu’il peut y avoir au sujet de la notion de certitude.

 «En 2008, on a publié une découverte de planète après une seule époque, mais avec un spectre, où l’on estimait que la probabilité que l’objet soit réellement une planète liée était de 99,8 %, ce n’était donc pas une certitude (on n’a pas attendu la certitude pour publier), mais c’était bien statistiquement significatif.»

Lectures suggérées:

Dossier de Nature sur la crise de la reproductibilité

De la méthode scientifique, un de mes vieux billets sur Science on Blogue!