1complexe.md



TL;DR
La reproductibilité est une question complexe : La diversité de termes (replicability? repeatability?, checking? robustness?) et la polysémie la caractérisent. Par qui (soi même, un collègue, un concurrent, un reviewer, une instance de vérification?) ? Pour quoi (pour valider?, pour contredire? pour interpréter?) Comment ? (même instrumentation ? même protocole ? même conclusion par d'autres moyens ?) qu'est ce qui est "pareil" ? (strictes mesures, patterns, généralisations ?) quand a t on besoin d'être "pareil" ? (pour démontrer, pour infirmer ou contredire, pour généraliser?). D'une manière générale, la littérature en histoire des sciences montre que si la reproductibilité conduit à plus de fiabilité en science, c'en est un moyen parmi d'autres, pas toujours suffisant, pas toujours nécessaire.

La reproductibilité est une notion complexe
La reproductibilité pose tout d'abord un problème sémantique. Non seulement de nombreux termes (en anglais particulièrement : replicability? repeatability?, checking? robustness?) mais aussi de nombreux sens différents associés à chacun de ces termes : Le sens exact de la reproductibilité est rarement reproductible ! La raison de cette absence de consensus est probablement à chercher dans la diversité des communautés scientifiques (différentes cultures épistémiques, voir chapitre 3) qui s'emparent de cette notion. Une typologie des différents termes et de leurs emplois a déjà été esquissée (Baker, 2016b), mais l'analyse fine des généalogies (d'où viennent les différences et à quelles cultures correspondent elles?) serait un sujet de recherche intéressant en soi. Dans la suite de ce texte, on essaye de rester agnostique, tout en essayant de pointer la diversité.
D'une manière générale, la littérature en histoire des sciences montre que si la reproductibilité conduit à plus de fiabilité en science, c'en est un moyen parmi d'autres, pas toujours suffisant, pas toujours nécessaire. La compilation historique de Steinle (Steinle, 2016) propose une variété de situations.
La reproductibilité est aussi complexe parce que, bien que simple à imaginer en apparence, le concept recouvre tout un tas de pratiques qui posent des questions :

Reproductibilité par qui ? soi même? un collègue? un concurrent? un reviewer? une instance de vérification?
Reproductibilité pour quoi : pour valider ?, pour contredire ? pour interpréter ?
Reproductibilité comment ? avec la même instrumentation ? le même protocole ? la même conclusion par d'autres moyens ?
De fait, qu'est ce qui est "pareil" ?  de strictes mesures ? des patterns concordants de résultats ? des conclusions généralisatrices ?
Et enfin,  quand a t on besoin d'être "pareil" ? pour vérifier ? pour démontrer ? pour infirmer ou contredire ? pour généraliser ?

Par ailleurs, la "reproduction" doit elle être hypothétique ou effective ? Il est notoire que les scientifiques n'ont (en général) aucune motivation à reproduire les expériences des autres : Puisque la récompense de l'activité de recherche est la publication et que la valeur de la publication réside dans l'originalité, la question reste souvent hypothétique, et les rares cas de tentatives de reproduction se font lors de controverses. Paradoxalement, malgré le flou qui l'entoure et la faible activité de reproduction en pratique, la reproductibilité est souvent citée comme "la moindre des choses" dans les bonnes pratiques scientifiques, voire un "gold standard" de la science. Elle est par exemple pregnante dans la critique de l'activité de publication et en particulier du protocole de peer reviewing. La nécessité de la reproductibilité est ainsi souvent brandie comme un principe moral indiscutable, et les conditions de la réalisation de ce principe sont souvent hypothétiques. La critique de l'activité de reviewing, par exemple, existe de plus en plus et des propositions sont envisagées, mais cette remise en cause, parfois appliquée dans des revues scientifiques d'avant garde, ne pèse pas lourd face à l'immobilisme des revues les plus prestigieuses, celles qui pèsent le plus.
Dans les quatre exemples suivants, issus de travaux d'historiens des sciences, on va s'intéresser à quelques notions devenues des classiques qui illustrent en quoi la reproductibilité peut servir à différentes fonctions, en quoi elle est compliquée à mettre en oeuvre, et quelles techniques ont été utilisées pour la transformer en légitimité.

vertus épistémiques : Schikore
Tout d'abord, la reproduction d'expériences peut avoir des vertus épistemiques différentes selon les contextes. Dans le cas d'études des effets de morsures de vipères par les scientifiques de l'Accademia dei Cimento dans la Toscane du 16e siècle, l'historienne Jutta Schikore compare l'utilisation differente de la répétition des expériences par Redi et son disciple Fontana (Schikore, 2011). Si le premier se vante de répéter des centaines de fois ses expériences de morsures de vipères sur des grenouilles, c'est pour d'une part gérer l'incertitude générées par des grenouilles ou des vipères differentes, et d'autre part pour disqualifier les résultats de ses concurrents. Fontana, plus tard, essaie de comprendre la variabilité des résultats en isolant les cas qui ne "collent pas" et en les interprétant. Ce faisant, il en déduit une théorie du fonctionnement du poison. Schikore montre ainsi que la reproductibilité peut servir différentes fonctions épistémiques dans l'activité scientifique.

La reproductibilité en histoire des sciences : Joule et les brasseries
En histoire des sciences, la tentative de reproduction d'expériences du passé est aussi une méthode pour essayer de révéler le contexte de ces expériences, au delà de la simple publication. Par exemple : l'historien Otto Sibum s'est interessé aux expériences de Joule sur la conversion de chaleur en travail (Sibum, 1995). Les résultats de Joule ne sont pas quantitativement reproductibles (la mesure de l'augmentation de température de l'eau sur laquelle on fait tomber un poids est très sensible aux conditions atmosphériques dans le laboratoire) et rien n'indique ni dans les publications, ni dans les cahiers de laboratoire ni dans la correspondance privée de Joule comment lever l'indétermination sur cette variabilité. Sibum est arrivé à la conclusion que la connexion de Joule avec le monde des brasseurs de bière (dont l'industrialisation demandait un savoir faire de régulation de la température pendant la fermentation) était l'explication d'un savoir tacite qui lui permettait de gérer cette variabilité de température dans ces expériences.  La tentative de reproduction a permis de préciser la notion de savoir tacite (tacit knowledge): ce que l'expérimentateur ne sait pas ou ne peut pas expliciter dans la réussite de son expérience, non pas seulement par négligence, mais aussi parce que certains savoirs ne sont par essence pas explicitables. En ce sens, la reproductibilité est un idéal inatteignable.

conviction : Leviathan & the air pump
Selon les situations, le fait de reproduire englobe celui de convaincre autrui ou pas, ce qui change beaucoup de choses à la fois à l'exigence de ce qui est accepté comme identique dans l'activité de reproduction mais aussi des techniques utilisées pour gagner l'adhésion.
L'avènement de la pompe à air au 17e siècle est un exemple canonique. La crédibilité des expériences sur le vide de Otto von Guericke etait basée sur le spectacle. L'exceptionnalité de ses démonstrations publiques et l'appareillage complexe et unique de la pompe a vide rendait la reproduction inenvisageable, si ce n'est pour Guericke lui même (pour la garantie du succès de ses spectacles).
Les expériences sur le vide de Robert Boyle, basées sur le même principe expérimental, mais sur un appareillage différent, avaient besoin d'autre chose pour gagner en crédibilité. Le succès de ses experiences dépendait de manière critique du savoir faire experimental de Hooke. Pour emporter l'adhésion sur le résultat de ses expériences, Boyle a eu recours à des témoins bien choisis (les gentlemen à la base de la fondation de la Royal Society, dignes de confiance puisqu'aristocrates). Au dela, la description la plus précise possible par écrit des expériences et des appareillages dans un compte rendu certifié par des gentlemen (et qui est l'ancêtre de la publication telle qu'on la connait aujourd'hui) consiste en ce que les historiens Shapin et Schaeffer (Shapin et Schaffer, 1989) ont appelé un témoin virtuel (virtual witness), consigné par écrit. Il faut noter que personne, malgré les tantatives de Huyghens en France notamment, n'a réussi à reproduire une pompe à air fonctionnelle à l'aide de ces publications : Cette reproduction dépendait de trop de savoirs tacites. Le but de cette "technique litteraire" (litterary technology) n'était effectivement pas (et n'est toujours pas dans les publications aujourd'hui) la reproductibilité mais la légitimité.

controverses : Collins
Ce concept de savoir tacite, décrit initialement par Polanyi a été développé et catégorisé par le sociologue des sciences Harry Collins. Collins est la principale référence quand il s'agit de théoriser la reproductibilité. Ses quelques études de cas (Le laser TEA, le facteur Q du saphir, les essais de mise en évidence des ondes gravitationnelles sur 40 ans) montrent l'influence de ces savoirs tacites dans les difficultés de reproduction.
L'école de la SSK (pour Sociology of Scientific Knowledge) s'est particuilèrement intéressée aux controverses scientifiques, parce qu'elles permettent d'en savoir plus sur ce qui se passe vraiment dans la science en train de se faire (knowledge in the making) par rapport à une situation sans problème. Étudier les controverses, c'est augmenter les chances de comprendres les formes de savoir tacite qui conditionnent la reproduction, qui n'apparaissent pas dans les publications, et qui surgissent au grand jour parce que des chercheurs contestent.
Dans le cas des essais expérimenatux de mise en évidence des ondes gravitationnelles (prévues par la théorie de la relativité), Collins a mis en évidence que les dispoitifs expérimentaux (ou plus exactement, les dispositifs de traitement du rapport signal/bruit produits par l'expérience) posent toute une série de problèmes (pointés par les équipes essayant de reproduire les résultats) qui empêchent le consensus. La controverse se clôt finalement sans qu'aucun parti ne puisse convaincre l'autre (Collins, 1985). Dans la formule "experimenter's regress", Collins pointe une indétermination qu'il considère irréductible. "To know whether an experiment has been well conducted, one needs to know whether it gives rise to the correct outcome. But to know what the correct outcome is, one needs to do a well-conducted experiment. But to know whether the experiment has been well conducted ...ad infinitum. the experimenters’ regress shows that experiment alone cannot force a scientist to accept a view that they are determined to resist." (Collins, 2016). La "sociologie de la calibration" de Collins met l'accent sur la nécessité que les instruments et les protocoles expérimenatux gagnent en crédibilité pour que des conclusions basées sur des résultats expérimenataux soient acceptés par la communauté de scientifiques concernés. Dans le cas des ondes gravitationnelles, l'affirmation de leur détecton a d'abord été rejetée dans les années 70 pour être finalement acceptée 40 ans plus tard. Shapin and Schaeffer ont repris cet exemple contemporain dans leur description des "litterary techniques" de Boyle pour ses pompes à air dans sa quête de légitimité.