reproencrise.md 48.3 KB
Newer Older
HOCQUET Alexandre's avatar
HOCQUET Alexandre committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
Intro : La reproductibilité : en crise ?
----------------------------------------
L'expression "crise de la reproductibilité" en français possède [son article Wikipédia](https://fr.wikipedia.org/wiki/Crise_de_la_reproductibilit%C3%A9) depuis fin 2016 et l'équivalent en anglais (reproducibility crisis ou replication crisis) [depuis début 2015](https://en.wikipedia.org/wiki/Replication_crisis). Une rapide recherche du terme "replication crisis" dans les "[google trends](https://trends.google.com/trends/explore?date=all&q=%2Fm%2F012mc030)" montre que cette expression se popularise depuis la première moitié des années 2010. Le journal "Nature" en a fait ces dernières années [un de ses sujets éditoriaux récurrents](https://www.nature.com/collections/prbfkwmwvz/). En particulier, [une enquête sous forme de questionnaire](https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970) de plusieurs centaines de scientifiques de tous domaines est publiée en 2016 et est depuis reprise par tous les articles évoquant le sujet : Oui, il existe selon la majorité des scientifiques interrogés une incapacité à reproduire les expériences scientifiques publiées, et oui, il s'agit selon eux d'une crise, sous entendant non seulement que l'affaire est grave, mais aussi qu'elle est nouvelle ([Baker, 2016](https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970)).  

La reproductibilité est souvent réclamée comme la moindre des choses en science, et pourtant, en forçant un peu le trait, on pourrait avancer que quasiment rien n'est jamais reproduit : personne ne veut essayer, et quand quelqu'un essaye, ça ne marche pas. Ce qui est nouveau, c'est que cela semble rédhibitoire dans le cadre de bonnes pratiques scientifiques, au nom de la crédibilité de la science, et [des initiatives](https://rescience.github.io/) pour y remédier commencent à fleurir.  

Dans ce volet, nous allons essayer de nous intéresser à la crise de la reproductibilité du point de vue de l'histoire (mais aussi philosophie et sociologie) des sciences. 

* Le premier chapitre présente la notion de reproductibilité telle qu'elle a été abordée en histoire des sciences. On y introduit les notions de savoir tacite (tacit knowledge), de témoin virtuel (virtual witness), de technique littéraire (litterary technology), et de régression de l'expérimentateur (experimenter's regress).
* Le deuxième chapitre aborde six catégories de reproductibilité différentes selon les domaines scientifiques selon la typologie de la philosophe des sciences Leonelli et conclut sur le problème de la reproductibilité vue comme un "gold standard" global.  
* Le troisième chapitre s'intéresse à la narration de "crise" de la reproductibilité en essayant de la replacer dans le contexte de son époque.
* Le quatrième chapitre s'intéresse spécifiquement à la "reproductibilité computationnelle" dans ce contexte.


Chapitre 1 : La reproductibilité est une notion complexe
--------------------------------------------------------
La reproductibilité pose tout d'abord un problème sémantique. Non seulement de nombreux termes existent (en anglais particulièrement : replicability? repeatability?, checking? robustness?) mais aussi de nombreux sens différents sont associés à chacun de ces termes : Le sens exact de la reproductibilité est rarement reproductible ! La raison de cette absence de consensus est probablement à chercher dans la diversité des communautés scientifiques qui s'emparent de cette notion. Une typologie des différents termes et de leurs emplois a déjà été esquissée ([Baker, 2016b)](https://www.nature.com/news/muddled-meanings-hamper-efforts-to-fix-reproducibility-crisis-1.20076), mais l'analyse fine des généalogies (d'où viennent les différences et à quelles cultures correspondent elles?) serait un sujet de recherche intéressant en soi. Dans la suite de ce texte, on essaye de rester agnostique, tout en essayant de pointer la diversité.  

D'une manière générale, la littérature en histoire des sciences montre que si la reproductibilité conduit à plus de fiabilité en science, c'en est un moyen parmi d'autres, pas toujours suffisant, pas toujours nécessaire. La compilation historique de Steinle ([Steinle, 2016](https://onlinelibrary.wiley.com/doi/10.1002/9781118865064.ch3)) propose une variété de situations.

La reproductibilité est aussi complexe parce que, bien que simple à imaginer en apparence, le concept recouvre tout un tas de pratiques qui posent des questions : 

* Reproductibilité par qui ? soi même? un collègue? un concurrent? un reviewer? une instance de vérification?  
* Reproductibilité pour quoi : pour valider ?, pour contredire ? pour interpréter ? 
* Reproductibilité comment ? avec la même instrumentation ? le même protocole ? la même conclusion par d'autres moyens ?
* De fait, qu'est ce qui est "pareil" ?  de strictes mesures ? des patterns concordants de résultats ? des conclusions généralisatrices ?
* Et enfin,  quand a t on besoin d'être "pareil" ? pour vérifier ? pour démontrer ? pour infirmer ou contredire ? pour généraliser ?

Par ailleurs, la "reproduction" doit elle être hypothétique ou effective ? Il est notoire que les scientifiques n'ont (en général) aucune motivation à reproduire les expériences des autres : Puisque la récompense de l'activité de recherche est la publication et que la valeur de la publication réside dans l'originalité, la question reste souvent hypothétique, et les rares cas de tentatives de reproduction se font lors de controverses.  

Paradoxalement, malgré le flou qui l'entoure et la faible activité de reproduction en pratique, la reproductibilité est souvent citée comme "la moindre des choses" dans les bonnes pratiques scientifiques, voire un "gold standard" de la science. Elle est par exemple pregnante dans la critique de l'activité de publication et en particulier du protocole de peer reviewing. La nécessité de la reproductibilité est ainsi souvent brandie comme un principe moral indiscutable, et les conditions de la réalisation de ce principe sont souvent hypothétiques. La critique de l'activité de reviewing, par exemple, existe de plus en plus et des propositions sont envisagées ([Ross-Hellauer, 2017](https://f1000research.com/articles/6-588/v2)), mais cette remise en cause, parfois appliquée dans des revues scientifiques d'avant garde, se heurte à l'immobilisme des revues les plus prestigieuses, celles qui pèsent le plus.  

Dans les quatre exemples suivants, issus de travaux d'historiens des sciences, on va s'intéresser à quelques notions devenues des classiques qui illustrent en quoi la reproductibilité peut servir à différentes fonctions, en quoi elle est compliquée à mettre en oeuvre, et quelles techniques ont été utilisées pour la transformer en légitimité. 

### Vertus épistémiques : le venin de vipères
Tout d'abord, la reproduction d'expériences peut avoir des vertus épistemiques différentes selon les contextes. Dans le cas d'études des effets de morsures de vipères par les scientifiques de l'Accademia dei Cimento dans la Toscane du 16e siècle, l'historienne Jutta Schikore compare l'utilisation differente de la répétition des expériences par Redi et son disciple Fontana ([Schikore, 2017](https://www.press.uchicago.edu/ucp/books/book/chicago/A/bo25793826.html)). Si le premier se vante de répéter des centaines de fois ses expériences de morsures de vipères sur des grenouilles, c'est pour d'une part gérer l'incertitude générées par des grenouilles ou des vipères differentes, et d'autre part pour disqualifier les résultats de ses concurrents. Fontana, plus tard, essaie de comprendre la variabilité des résultats en isolant les cas qui ne "collent pas" et en les interprétant. Ce faisant, il en déduit une théorie du fonctionnement du poison. Schikore montre ainsi que la reproductibilité peut servir différentes fonctions épistémiques dans l'activité scientifique.

### Reproduire des expériences en histoire des sciences : Joule et les brasseries
En histoire des sciences, la tentative de reproduction d'expériences du passé est aussi une méthode pour essayer de révéler le contexte de ces expériences, au delà de la simple publication. Par exemple : l'historien Otto Sibum s'est interessé aux expériences de Joule sur la conversion de chaleur en travail ([Sibum, 1995](https://www.sciencedirect.com/science/article/abs/pii/0039368194000369)). Les résultats de Joule ne sont pas quantitativement reproductibles (la mesure de l'augmentation de température de l'eau sur laquelle on fait tomber un poids est très sensible aux conditions atmosphériques dans le laboratoire) et rien n'indique ni dans les publications, ni dans les cahiers de laboratoire ni dans la correspondance privée de Joule comment lever l'indétermination sur cette variabilité.  

Sibum est arrivé à la conclusion que la connexion de Joule avec le monde des brasseurs de bière (dont l'industrialisation demandait un savoir faire de régulation de la température pendant la fermentation) était l'explication d'un savoir tacite qui lui permettait de gérer cette variabilité de température dans ces expériences.  La tentative de reproduction a permis de préciser la notion de savoir tacite (tacit knowledge): ce que l'expérimentateur ne sait pas ou ne peut pas expliciter dans la réussite de son expérience, non pas seulement par négligence, mais aussi parce que certains savoirs ne sont par essence pas explicitables. En ce sens, la reproductibilité est un idéal inatteignable.

### Emporter l'adhésion : Leviathan et la pompe à air
Selon les situations, le fait de reproduire englobe celui de convaincre autrui ou pas, ce qui change beaucoup de choses à la fois à l'exigence de ce qui est accepté comme identique dans l'activité de reproduction mais aussi des techniques utilisées pour gagner l'adhésion.  

L'avènement de la pompe à air au XVIIe siècle est un exemple canonique. La crédibilité des expériences sur le vide de Otto von Guericke etait basée sur le spectacle. L'exceptionnalité de ses démonstrations publiques et l'appareillage complexe et unique de la pompe a vide rendait la reproduction inenvisageable, si ce n'est pour Guericke lui même (pour la garantie du succès de ses spectacles).  

Les expériences sur le vide de Robert Boyle, basées sur le même principe expérimental, mais sur un appareillage différent, avaient besoin d'autre chose pour gagner en crédibilité. Le succès de ses experiences dépendait de manière critique du savoir faire experimental de Hooke. Pour emporter l'adhésion sur le résultat de ses expériences, Boyle a eu recours à des témoins bien choisis (les gentlemen à la base de la fondation de la Royal Society, dignes de confiance puisqu'aristocrates). Au dela, la description la plus précise possible par écrit des expériences et des appareillages dans un compte rendu certifié par des gentlemen (et qui est l'ancêtre de la publication telle qu'on la connait aujourd'hui) consiste en ce que les historiens Shapin et Schaeffer ([Shapin et Schaffer, 1989](https://press.princeton.edu/books/paperback/9780691178165/leviathan-and-the-air-pump)) ont appelé un témoin virtuel (virtual witness), consigné par écrit. Il faut noter que personne, malgré les tentatives de Huyghens en France notamment, n'a réussi à reproduire une pompe à air fonctionnelle à l'aide de ces publications : Cette reproduction dépendait de trop de savoirs tacites. Le but de cette "technique littéraire" (litterary technology) n'était effectivement pas (et n'est toujours pas dans les publications aujourd'hui) exactement la reproductibilité, mais plutôt la légitimité.

### Etudier les controverses : Ondes gravitationnelles
Ce concept de savoir tacite, décrit initialement par Polanyi a été développé et catégorisé par le sociologue des sciences Harry Collins. Collins est la principale référence quand il s'agit de théoriser la reproductibilité. Ses quelques études de cas (Le laser TEA, le facteur Q du saphir, les essais de mise en évidence des ondes gravitationnelles sur 40 ans) montrent l'influence de ces savoirs tacites dans les difficultés de reproduction.  

L'école de la SSK (pour Sociology of Scientific Knowledge) s'est particuilèrement intéressée aux controverses scientifiques, parce qu'elles permettent d'en savoir plus sur ce qui se passe vraiment dans la science en train de se faire (knowledge in the making) par rapport à une situation sans problème. Étudier les controverses, c'est augmenter les chances de comprendres les formes de savoir tacite qui conditionnent la reproduction, qui n'apparaissent pas dans les publications, et qui surgissent au grand jour parce que des chercheurs contestent.  

Dans le cas des essais expérimenatux de mise en évidence des ondes gravitationnelles (prévues par la théorie de la relativité), Collins a mis en évidence que les dispoitifs expérimentaux (ou plus exactement, les dispositifs de traitement du rapport signal/bruit produits par l'expérience) posent toute une série de problèmes (pointés par les équipes essayant de reproduire les résultats) qui empêchent le consensus. La controverse se clôt finalement sans qu'aucun parti ne puisse convaincre l'autre ([Collins, 1985](https://www.press.uchicago.edu/ucp/books/book/chicago/C/bo3623576.html)). Dans la formule "régression de l'expérimentateur" (ou experimenter's regress, une allusion à [l'argument de la régression](https://fr.wikipedia.org/wiki/Argument_de_la_r%C3%A9gression)), Collins pointe une indétermination qu'il considère irréductible. "Pour être certain qu'une expérience a été bien conduite, on a besoin de savoir si elle donne le bon résultat. Mais pour savoir en quoi consiste le bon résultat, on a besoin de réaliser une expérience bien conduite. Mais pour savoir si une expérience a été bien conduite, ad infinitum. La "régression de l'expérimentateur" démontre (selon Collins) que l'expérience seule ne peut forcer un scientifique à admettre un résultat auquel il est déterminé à s'opposer. ("To know whether an experiment has been well conducted, one needs to know whether it gives rise to the correct outcome. But to know what the correct outcome is, one needs to do a well-conducted experiment. But to know whether the experiment has been well conducted ...ad infinitum. the experimenters’ regress shows that experiment alone cannot force a scientist to accept a view that they are determined to resist.") ([Collins, 2016](https://onlinelibrary.wiley.com/doi/10.1002/9781118865064.ch4)).  

La "sociologie de la calibration" de Collins met l'accent sur la nécessité que les instruments et les protocoles expérimenatux gagnent en crédibilité pour que des conclusions basées sur des résultats expérimenataux soient acceptés par la communauté de scientifiques concernés. Dans le cas des ondes gravitationnelles, l'affirmation de leur détecton a d'abord été rejetée dans les années 70 pour être finalement acceptée 40 ans plus tard. Shapin and Schaeffer ont repris cet exemple contemporain dans leur description des "litterary techniques" de Boyle pour ses pompes à air dans sa quête de légitimité.

Chapitre 2 : Six catégories de reproductibilité
-----------------------------------------------
Sabina Leonelli est une philosophe des sciences qui s'intéresse à la "data-centric biology" (selon sa propre expression, une biologie centrée sur les données, c'est à dire à l'activité scientifique dans les sciences de la vie à l'ère des big data). Elle étudie ce qu'elle appelle les voyages des données. Les données, jamais "brutes", contiennent en elles toutes les théories, conditions, protocoles, biais, cultures qui ont servi à leur production et leur réutilisation se fait toujours dans d'autres conditions, par des chercheurs appartenant à d'autres cultures ([Leonelli, 2016](https://www.press.uchicago.edu/ucp/books/book/chicago/D/bo24957334.html)). Pour ce qui est de la reproductibilité, dans la même veine consistant à tenir compte des différentes cultures épistémiques de différents domaines scientifiques, Leonelli propose six catégories d'activités scientifiques pour lesquelles "reproductibilité" n'a pas forcément le même sens ni la même importance. ([Leonelli 2018](https://www.emerald.com/insight/content/doi/10.1108/S0743-41542018000036B009/full/html))

### 1 Computational Reproducibility
La reproductibilité computationnelle est la première envisagée par Leonelli parce qu'elle lui semble la plus simple à coller à une définition qui ne pose pas de problème. Selon les mots de Leonelli, "A research project is computationally reproducible if a second investigator [..] can recreate the final reported results of the project, including key quantitative findings, tables, and figures, given only a set of files and written instructions." (Un projet de recherche est reproductible computationnellement si un second chercheur peut obtenir de nouveau les résultats finaux tels qu'ils sont rapportés, simplement à partir d'un ensemble de fichiers et d'instructions écrites). On y trouve une vision de ce qu'est le computationnel restreint au  traitement de données, et la question statistique y est implicitement agrégée. (Voir le chapitre 5 "reproductibilité computationnelle" pour une discussion sur les problèmes que cela pose). Pour Leonelli, il s'agit du seul domaine où une reproductibilité "absolue" est à la fois envisageable et souhaitable.

### 2 Direct Experimental Reproducibility: Standardised Experiments
La deuxième catégorie concerne la reproductibilité expérimentale que Leonelli nomme "directe". Elle concerne les expériences qui sont les plus facilement maîtrisables (elle cite les **essais cliniques en médecine** ou la **physique des particules**) et ou, par conséquent, la reproductibilité est un canon de l'activité scientifique : elle est désirée et essentielle.  Dans cette catégorie, contrairement (selon elle) à la première, "The circumstances of data production are, by contrast, a primary concern for experimentalists" (Les circonstances de la production des données sont de première importance pour les expérimentateurs). Ces domaines sont caractérisés par un gros contrôle sur les conditions, une attente de reproductibilité sur les motifs (patterns) de données résultant de l'expérience plutôt que sur les données exactes sortantes, et typiquement sur l'utilisation de la statistique pour trancher quant à la validité de reproduction de ces motifs.

### 3 Scoping, Indirect and Hypothetical Reproducibility: Semi-Standardised Experiments
Dans sa troisème catégorie, "methods,  set-up  and  materials  used  have  been construed with ingenuity in order to yield very specific outcomes, and yet some significant parts of  the  set-up  necessarily  elude  the  controls  set  up  by experimenters" (Les méthodes, protocoles et matériaux utilisés ont été imaginés pour spécifiquement aboutir à des réultats précis, à ceci près que certains détails significatifs des prorocoles échappent fatalement au contrôle des expérimentateurs). Cela concerne par exemple la recherche sur les **organismes modèles** (rats de labo), la **psychologie sociale**, ou la **neuroscience** : toutes ces activités scientifiques ont en commun d'être impossibles à standardiser complètement. Les conclusions intéressantes proviennent justement de ce qui est non-standardisé dans ces expériences, comme par exemple la répétition chez Fontana pour l'étude de la variabilité dans l'effet des morsures de vipères, alors que la répétition chez Redi n'a d'autre but que de gérer l'aléatoire. ([Schikore 2017](https://www.press.uchicago.edu/ucp/books/book/chicago/A/bo25793826.html)). Dans cette catégorie un peu fourre-tout, Leonelli propose que la reproductibilité la plus significative se trouve dans la "convergence across multiple lines of evidence,even when they are produced in different ways (la convergence de faisceaux de preuve indépendants, produits de façons différentes) ce que les historiens des sciences ont appelé la triangulation ou la robustesse ([Cartwright, 1991)](https://econpapers.repec.org/RePEc:hop:hopeec:v:23:y:1991:i:1:p:143-155) : Arriver à des conclusions cohérentes entre elles à partir d'expériences qui n'ont rien à voir entre elles.

### 4 Reproducible Expertise: Non-Standard Experiments and Research on Rare Materials
La catégorie suivante s'intéresse à l'exceptionnalité : "cases  where experimenters  are  studying  new  objects  or  phenomena  (new  organisms  for instance)  and/or  employing  newly  devised,  unique  instruments  that are precisely tailored to the inquiry at hand" (les cas dans lesquels les expérimentateurs étudient des objets ou des phénomènes nouveaux et/ou utilisent des instruments uniques spécifiquement adaptés à l'étude). Dans ces situations, Le fait d'être significatif est moins lié au contrôle des conditions expérimentales qu'à l'expertise de la gestion des conditions exceptionnelles : "focus less on controls and  more  on  developing  robust  ways  of  evaluating  the  effects  of  their interventions  and  the  relation  between  those  effects  and  the  experimental circumstances  at  the  time  in  which  data  were  collected". Ce sont les sciences du rare qui sont ici concernées : en **archéologie**, la répétiton est tout simplement impossible et sans objet. "uniqueness and irreproducibility of the materials is arguably what  makes  the  resulting  data particularly useful  as  evidence" (l'unicité et l'irreproductibilité des matériaux est de fait ce qui rend les données obtenues utiles dans l'administration de la preuve). Dans cette catégorie, la vertu épistémique se trouve dans l'expertise : "reproducible expertise [...] as the expectation that any skilled  experimenter  working  with  the  same  methods  and  the  same  type  of materials at that particular time and place would produce similar results." (l'expertise reproductible se définit comme la compréhension qu'un expérimentateur qualifié travaillant avec des méthodes similaires sur les mêmes matériaux à ce moment et cet endroit précis produirait des résultat similaires)

### 5 Reproducible Observation: Non-experimental case description
Les deux dernières catégories concernent les sciences de l'observation : "surveys,  descriptions  and  case  reports documenting unique  circumstances" (enquêtes, descriptions, études de cas qui documentent des circonstances uniques). L'expertise y est encore une fois clé pour l' "observation reproductible".  "Reproducibility  of observation [is] the  expectation  that  any  skilled  researcher  placed  in  the same  time  and  place  would  pick  out,  if  not the  same data,  at  least similar patterns" (La reproducibilté de l'observation consiste en la compréhension que n'importe quel chercheur qualifié travaillant avec les mêmes méthodes, au même endroit au me moment, obtiendrait des résultats similaires, au moins dans les motifs). Leonelli cite la **sociologie** mais aussi la **radiologie** : "structured  interviewing,  where  researchers devise  a  relatively rigid  framing  for  their interactions  with  informants; and  diagnosis based on radiographies, resonance  scans and  other  medical  imaging  techniques." (les entretiens structurés dans lesquels les chercheurs conçoivent un cadre relativement strict des interactions avec leurs enquêtés ou les diagnostics basés sur des radiographies ou l'imagerie de résonance médicale).

### 6 Irreproducible Research: Participant Observation
Enfin la dernière catégorie traite des activités scientifiques où "the idea of reproducibility has been rejected in favor of an embrace of the subjectivity and unavoidable context-dependence of research outcomes" (L'idée même de reproductibilité est écartée au profit de la subjectivité, et d'une dépendance inévitable du contexte pour les résultats de recherche). En **anthropologie**, la reproductibilité n'a pas de sens : "Anthropologists cannot rely on reproducibility as an epistemic criterion for data quality and validity. They therefore devote considerable care to documenting data production processes" (Les anthopologues ne peuvent pas compter sur la reproductibilité en tant que critère épistémique pour la validité et la qualité de leurs données. Ils se concentrent du coup sur la documentation du processus de production des données).  

Là où la reproductibilité n'a pas de sens, les communautés scientifiques font reposer leur crédibilité sur d'autres vertus épistémiques. La réflexivité, par exemple, (dont de nombreuses sciences pourraient s'inspirer). "Ethnographic work in anthropology, for instance, has developed methods to account for the fact that data are likely to change depending on time, place, subjects as well as researchers’ moods, experiences and interests. Key among such methods is the principle of reflexivity, which requires researchers to give as comprehensive a view of their personal circumstances" (Dans le travail ethnographique en anthropologie, par exemple, des méthodes ont été développées pour tenir compte du fait que les données changent en fonction du temps, de l'endroit, des sujets de recherches mais aussi de caractériqtiques du chercheur comme ses expériences passées, ses centres d'intérêts ou son humeur. Le concept de réflexivité est essentiel dans ces méthodes : il requiert des chercheurs une compréhension la plus complète possible de leur propre influence)    

La conclusion de Leonelli à propos de cette typologie en six catégories est que l'exigence de reproductibilité (en tant que moyen d'obtenir la fiabilité) pose problème, et ce encore plus si elle est définie dans un sens étroit, basé sur des préceptes qui n'ont de sens que dans un seul domaine scientifique. Elle pose problème pour la vitalité de champs scientifiques différents pour lesquels cette exigence peut être sans objet, voire contre-productive. Certains vont même plus loin et voient dans l'exigence de reproductibilité globale "one size fits all" une tentative de ghettoïsation des sciences qui ne correspondraient pas à ce standard trop facilement accepté comme universel ([Penders et al. 2019](https://www.mdpi.com/2304-6775/7/3/52)).

Chapitre 3 : La crise et le discours de crise
---------------------------------------------
La narration de la reproductibilité en tant que crise pose question : Pourquoi est on en crise maintenant, c'est à dire depuis les années 2010? Pourquoi est on en crise en même temps dans des domaines distincts (psychologie, épidémiologie, sciences computationnelles...) ? Quel est le lien avec la narration de la science ouverte ? quel est le lien avec la crise de l'accès aouvert aux publications, et la question de l'ouverture des données qui lui est liée ([Hocquet,2018](https://theconversation.com/debat-l-open-science-une-expression-floue-et-ambigue-108187)) ? Quels sont les enjeux ? Comment et pourquoi ces éléments de discours sont ils repris/amorcés/amplifiés par des institutions (sociétés savantes, institutions nationales...) ? Quelle vision normative de ce que devrait être la "bonne science" cela traduit il ? En quoi cette narration est elle liée à une crise de confiance (des citoyens, des institutions) envers la science et comment est elle gérée (par les institutions) ? Sans pouvoir répondre à toutes ces questions, ce bref mémo tente de donner quelques pistes.

### La crise dans les médias
A première vue, les signaux d'alerte envoyés et la façon de les lancer laisse penser qu'il existe un lien, ou du moins une concomittance avec le mouvement de l'Open Access, la rebellion contre les oligopoles des éditeurs scientifiques et leur tendance à rendre la littérature scientifique inaccessible au commun des mortels (voire au commun des chercheurs) : Un des chevaux de bataille de ce mouvement est la revendication de plus de transparence dans les sciences. Par extension, le mouvement de l'Open Science revendique que les expériences scientifiques puissent être reproductibles, dans le cadre de cette exigence de transparence.  

La reproductibilité est revendiquée comme le "gold standard", l'étalon qui permet la confiance dans l'activité scientifique, confiance de la part de la communauté des chercheurs eux-mêmes mais aussi pour les institutions scientifiques de financement, et les citoyens. Le lien entre publication, transparence et reproductibilité est particulièrement pregnant dans la critique du peer-reviewing qui accompagne le mouvement de l'Open Access.  

Une compréhension fine du phénomène mériterait qu'une étude se penche sur les publications s'emparant du sujet, à la fois dans les journaux scientifiques, dans la presse, dans les journaux à l'interface de ces deux sphères (comme Nature) mais aussi dans les communiqués d'institutions (sociétés savantes, agences de financement...). Une telle étude permettrait aussi de tracer des généalogies plus spécifiques, en particulier selon les domaines scientifiques, qui ne vivent pas cette crise tous de la même manière.  

Enfin, la narration de la crise trouve ses sceptiques ([Fanelli, 2018](https://www.pnas.org/content/115/11/2628)), en particulier dans la remise en cause de l'étendue des résultats irreproductibles, et surtout de leur augmentation récente. La science évolue, et avec elle ses propres critères de fiabilité, particulièrement en ce qui concerne ce qui est défini comme significatif en statistiques.  

D'une analyse rapide (qui demanderait à être affinée) de la crise telle qu'elle est narrée, on peut proposer trois dynamiques exemplaires dans trois domaines différents, mais liés, de la médiatisation de la crise. Mais de nombreux autres domaines scientifiques (sciences économiques, sciences computationnelles...) sont sujets à ce discours de crise.

### En psychologie
D'un côté, en psychologie, la reproductibilité d'études scientifiques est souvent contestée, en particulier parce que ces études apparaissent parfois dans la presse grand public : elles sont médiatiques, donc exposées. Un exemple célèbre de tapage médiatique autour de cette question est l'expérience "[feeling the future](https://en.wikipedia.org/wiki/Daryl_Bem#%22Feeling_the_Future%22_controversy)" en 2011. D'autre part, la psychologie est un domaine scientifique souvent sur la défensive, constamment sommé de justifier sa scientificité (voir par exemple la contestation des résultats des expériences de Milgram ou de la prison de Stanford).  

En 2011, est créé le Reproducibility Project, puis en 2013, le Center for Open Science, opération de reproduction d'expériences en psychologie impliquant toute une communauté scientifique. De nombreuses publications existent sur ce sujet dans les journaux de ce domaine, résumées par le livre-manifeste "The seven deadly sins of psychology: a manifesto for reforming the culture of scientific practice" ([Chambers, 2017](https://press.princeton.edu/books/hardcover/9780691158907/the-seven-deadly-sins-of-psychology)). La crise de la reproductibilité, en psychologie, correspond à une introspection de l'ensemble de ce champ scientifique afin de définir collectivement ses bonnes pratiques scientifiques, comme par exemple l'exigence de pré-enregistrement d'études à venir pour réduire la potentialités de p-hacking ([Adam, 2019](https://www.sciencemag.org/news/2019/05/solution-psychology-s-reproducibility-problem-just-failed-its-first-test)). Ulrike Feest, philosophe des sciences sociales, propose que ce champ scientifiqe redéfinisse ses pratiques en tant qu'exploration plutôt que de vaines tentatives de "reproduction" pour pouvoir sortir de l'impasse ([Feest, 2016](https://www.journals.uchicago.edu/doi/abs/10.1086/705451)) dans un article au titre explicite : "why replication is overrated".

### Essais cliniques
L'autre domaine concerne les essais cliniques en médecine. L'historienne des sciences Nicole Nelson ([Nelson, 2019](https://www.radcliffe.harvard.edu/event/2019-nicole-c-nelson-fellow-presentation)) propose une généalogie de la crise dans le monde des essais cliniques. La médiatisation, en 2012, d'une publication affirmant avoir tenté de reproduire plusieurs dizaines d'essais cliniques de traitements contre le cancer pour un taux d'échec proche de 90% provoque un tollé ([Begley  & Ellis, 2012](https://www.nature.com/articles/483531ahttps://www.nature.com/articles/483531a)). La curiosité de cette publication que retient Nelson est que ses auteurs sont affiliés à une entreprise biomédicale privée. Il est notoire que les chercheurs n'ont a priori aucun intérêt (à l'exception de cas de compétitions ou disputes autour d'une controverse précise) à perdre leur temps à essayer de reproduire les résultats des autres puisque ça ne leur rapporte rien en termes d'originalité ni de publications. Dans le cas de chercheurs du privé, c'est encore plus étonnant puisque ça ne rapporte non plus rien financièrement.  

L'historicisation des essais cliniques en médecine permet d'en comprendre les raisons. L' "[evidence based medicine](https://fr.wikipedia.org/wiki/M%C3%A9decine_fond%C3%A9e_sur_les_faits)" est une politique (en particulier etats-unienne) apparue à la fin du XXe siècle fondée sur un espoir de rationalisation du processus de décision dans la pratique médicale. Les méta-analyses des essais cliniques ont connu  à cette occasion une nouvelle mise en lumière comparative (en particulier grâce aux graphiques en forêt). Une conséquence en a été le doute grandissant sur la validité des études cliniques devant la visualisation de résultats parfois apparemment contradictoires. Au début des années 2000, la contestation a porté sur les biais liés au fiancement privé des recherches, avec en point d'orgue le livre "The Truth About the Drug Companies: How They Deceive Us and What to Do" ([Angell, 2004](https://www.penguinrandomhouse.com/books/3901/the-truth-about-the-drug-companies-by-marcia-angell-md/)) provenant de la communauté académique médicale. La mise en évidence récente, lors d'études financées par le privé, que les problèmes de reproductibilité existent autant dans la recherche publique que dans la recherche privée suggère que ce manque de reproductibilité est lié à autre chose que l'influence d'intérêts financiers. Nelson le voit donc comme une sorte de contre-attaque de l'industrie pharmaceutique pour sortir du rôle de méchant dans lequel elle est cantonnée. 

### La méta-science
L'autre angle de contestation est porté par les statisticiens. La publication de 2005 de Ioannidis "Why Most Published Research Findings Are False" (au titre particulièrement nuancé) est de loin la plus citée ([Ioannidis, 2005](https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124)). Au point que depuis, un champ scientifique auto-proclamé appelé "[méta-science](https://en.wikipedia.org/wiki/Metascience)", imaginé par des statisticiens censé analyser les problèmes de reproductibilité en science, se concentre exclusivement sur les problèmes posés par la statistique et analyse la question exclusivement sous l'angle des bonnes pratiques statistiques, en les élevant au rang de parangon de LA méthode scientifique, comme si elle était unique.  

Il est de fait frappant que la quasi unanimité de la médiatisation de la crise concerne le traitement statistique des résultats des expériences, et ce dans les deux domaines évoqués ici et dans la plupart des autres. L'omniprésence des traitements statistiques, d'abord en tant que pratique scientifique de plus en plus répandue au delà des cercles d'experts du domaine, puis en tant que sujet de débat médiatique représente la troisième dynamique en question. Les problèmes épistémiques de reproductibilité sont pourtant bien plus divers que cette seule question, mais la reproductibilité statistique est de loin la plus médiatique.  

Chapitre 4 : La reproductibilité computationnelle
-------------------------------------------------
La reproductibilité computationnelle, c'est à dire la part où l'ordinateur joue un rôle, est ce qu'il nous intéresse ici. D'une part, la narration de la crise (telle que cette dernière apparait dans les médias) a tendance à l'invisibiliser sous le flot de la crise statistique. Si on distingue trois domaines différents dans laquelle la reproductibilité s'exprime (bien que les trois soient entremêlés) à savoir expérimental, statistique et computationnel, alors le statistique est la vedette de la crise. D'ailleurs, dans sa catégorisation, Leonelli a tendance à confondre computationnel et statistique d'une part, et réduire le computationnel au traitement de données d'autre part.   

Le statistique a tendance à être plus impliqué dans les domaines les plus médiatiques  (essais cliniques et psychologie). Le statistique est plus utilisé par des non-experts et il est plus facile à dramatiser, donc à médiatiser. L'apparition médiatique d'experts en "méta-science" comme Ioannidis, surfant sur cette vague de la crise de la reproductibilité en atteste.  

### Reproductibilité expérimentale
La reproductibilité expérimentale est historiquement apparue en premier (voir le chapitre 1). Les différents aspects qui la caractérisent dépendent de chaque domaine scientifique. Il est donc difficile d'en esquisser des principes généraux. Le philosophe John Norton argumente même qu'il n'existe pas de théorie générale du raisonnement par induction ([Norton, 2010](https://www.journals.uchicago.edu/doi/abs/10.1086/656542)), et que chaque domaine scientifique possède ses propres critères méthodologiques, en particulier sur la question de la reproductibilité (voir chapitre 2).  

La sociologue Karin Knorr-Cetina montre en observant des physiciens des particules et des imunologistes que différents domaines scientifiques possèdent différentes "**cultures épistémiques**", battant en brèche l'idée qu'il existerait UNE méthode scientifique ([Knorr-Cetina, 1999](https://www.hup.harvard.edu/catalog.php?isbn=9780674258945)). C'est ce que les philosophes des sciences nomment "the disunity of science" ([Galison & Stump, 1996](https://www.sup.org/books/title/?id=2121)). Dans le même ordre d'idée, Collins, en invoquant la régression de l'expérimentateur, énonce que la question de la reproductibilité doit d'abord résoudre le problème du consensus de ce que constitue le même "espace expérimental" qui va définir sur ce quoi un groupe de chercheurs peut se mettre d'accord quant à la validité des expériences. A l'intérieur de cet espace, un consensus sur la reproductibilité peut émerger, mais il ne sera jamais universel.  

Dans "How experiments end", Galison oppose deux catégories de scientifiques dans le même domaine de la physique des particules : ceux qui basent leur confiance dans les trajectoires effectivement observées dans les chambres à bulle et ceux qui ont plus confiance dans le traitement statistique Monte Carlo et la répétition des calculs (parce que "anything can happen once", tout peut toujours arriver une seule fois). On est là en présence d'une cohabitation de légitimités expérimentale et statistique (voire computationnelle) avec des stratégies différentes de définition de ce qui est fiable à l'intérieur d'un même champ scientifique ([Galison, 1987](https://www.press.uchicago.edu/ucp/books/book/chicago/H/bo5969426.html)).  

### Généalogie de la reproductibilité computationnelle
Pourtant, la reproductibilité comme norme, comme exigence, est souvent rhétoriquement liée à l'expérimentation, au discours de l'expérimentation. Les techniques de Boyle (voir chapitre 1) pour convaincre et acquérir une légitimité sont à l'origine de la fondation de la Royal Society et du concept de publication, et sont devenues l'archétype de la reproductibilité universelle grâce à la publication, telle qu'elle est revendiquée comme "gold standard". La reproductibilité computationnelle ne vient, chronologiquement, évidemment qu'après, mais l'informatisation participe à la transformation de l'activité scientifique dans de très nombreux domaines scientifiques. Il s'agit là d'une sorte de "changement d'époque" ([Nordmann et al., 2011](https://upittpress.org/books/9780822961635/)), un changement qui possède ses aspects épistémiques et techniques (l'informatisation, la transformation de l'instrumentation, la recrudescence des traitements statistiques dans l'expérimentation), mais aussi industriels et économiques (l'émergence de l'entrepreneurship science, du technology transfer) ([Berman, 2011](https://press.princeton.edu/books/hardcover/9780691147086/creating-the-market-university)).  

Si la reproductibilité statistique est grandement discutée (voir chapitre 3), il existe aussi une part de (problème de) reproductibilité qui est computationnelle sans pour autant être statistique, et elle a tendance à être parfois invisibilisée par, ou confondue avec, le statistique. Que ça soit en traitement de données, en modélisation, en informatique ou même dans quasiment tous les appareils électroniques de l'instrumentation, la computation intervient dans des recoins de la science sans même que le scientifique ne s'en rende parfois compte.  

D'ailleurs, le calcul computationnel est souvent réduit, y compris par ses acteurs mêmes, à l'activité de traitement de données par le calcul, ce qui favorise la confusion entre computationnel et statistique. De fait, le computationnel est souvent réduit à "ce qui traite les données" : D'après Googman, Fanelli et Ioannidis, "Scientist Jon Claerbout coined the term and associated it with a software platform and set of procedures that permit the reader of a paper to see the entire processing trail from the raw data and code to figures and tables" (Le sismologue Jon Claerbout est à l'origine du terme et le comprennait comme une plateforme logicielle et un ensemble de protocoles qui permettent au lecteur d'une publication d'apréhender le chemin complet depuis les données brutes et le code jusqu'aux tableaux et figures) ([Goodman et al., 2016](https://stm.sciencemag.org/content/8/341/341ps12)). Pourtant, même s'ils sont interpénétrés, le statistique et le computationnel ne posent pas les mêmes problèmes de reproductibilité.  

### Caractéristiques de la reproductibilité computationnelle
La reproductibilité computationnelle souffre, elle, d'un déficit de reconnaissance "grand public" : beaucoup en ont une image superficielle d'infaillibilité (2+2=4 est tout le temps vrai) et pourtant elle a eu aussi son moment de "crise grand pubic" lors de l'affaire du "[climategate](https://fr.wikipedia.org/wiki/Incident_des_courriels_du_Climatic_Research_Unit)" suivi du [Science Code Manifesto](http://sciencecodemanifesto.org/) en 2011. A cette occasion, la révélation d'emails de chercheurs en science du climat avaient semé la panique dans la communauté dont la crédibilité est un enjeu hautement politique. Le point le plus controversé de ce climategate était l'utilisation de "tricks" dans la programmation des modèles (en pratique, les emails en question mentionnaient des commentaires de lignes de codes incluant des subroutines appelées "tricks"), ce qui a abouti à une prise de conscience des problèmes posés par la programmation scientifique, et à l'élaboration du Science Code Manifesto en 2011 ([Barnes, 2010](https://www.nature.com/articles/467753a)).  

Parmi les caractéristiques de reproductibilité computationnelle, la plupart concerne le software. L'interdépendance des librairies informatiques est souvent un cauchemar informatique pour pouvoir reproduire un calcul ([Hinsen, 2018](https://www.practicereproducibleresearch.org/case-studies/khinsen.html)), comme le montre par exemple [cette publication](https://pubs.acs.org/doi/10.1021/acs.orglett.9b03216) récente de calculs en chimie : les résultats sont différents selon qu'on utilise un Mac ou un PC ! ([Gallagher, 2019](https://arstechnica.com/information-technology/2019/10/chemists-discover-cross-platform-python-scripts-not-so-cross-platform/)) Comme la curation de données, le travail de programmation (et pas seulement celui de programmation mais aussi celui de compilation, distribution, politique de licence...) par un chercheur n'est pas récompensé par la publication (sauf s'il s'agit de son activité de recherche elle même) ([Hocquet et Wieber, 2017](https://ieeexplore.ieee.org/document/8268025)). De fait, une grosse partie de l'activité computationnelle est réalisée par des scientifiques dont ce n'est pas le métier : ni dans le coding, ni dans le management, ni dans la diffusion et le licensing.  

C'est la différence entre la computing science (qui produit et publie des programmes) et la computational science (qui utilise des programmes dans son activité). Par ailleurs, l'industrie du software en général est elle même un domaine "en crise" depuis les années soixante ([Ensmenger, 2011](https://mitpress.mit.edu/books/computer-boys-take-over)) : Contrairement au hardware qui est de plus en plus performant (voir la loi de Moore), le software est toujours en retard, toujours plus cher que prévu, à l'interopérabilité toujours plus compliquée, et à la stabilité et la cohérence jamais achevées : comme le dit Ensmenger, plutôt qu'un tournant, La "[software crisis](https://en.wikipedia.org/wiki/Software_crisis)" est un art de vivre, depuis les années soixante jusqu'à aujourd'hui.  

Même si la définition et l'organisation de bonnes pratiques sont des préoccupations des chercheurs ([Bénureau et Rougier, 2018](https://www.frontiersin.org/articles/10.3389/fninf.2017.00069/full)) ([Stodden, 2016](https://onlinelibrary.wiley.com/doi/10.1002/9781118865064.ch9)) et que ses bonnes pratiques sont souvent inspirées par les "libertés fondamentales du logiciel libre" établisssant en cela une connexion directe entre principes du logiciel libre et "open science", Le logiciel scientifique possède une existence en pratique parfois sujette a des tensions entre normes académiques et normes commerciales, liées entre autres à cette absence de récompense : commercialisation de packages (éventuellement encouragées par les politiques de "technology transfer" des universités) ([Hocquet et Wieber 2017](https://www.frontiersin.org/articles/10.3389/fninf.2017.00069/full)), ou inversement, énorme investissement en énergie et temps pour produire un logiciel libre, incapacité à imaginer un "business model" qui satisfasse à des éxigences épistémiques de transparence, protection du code par peur de la compétition, mais aussi par souci de stabilité du logiciel, licences variables selon les utilisateurs académiques ou industriels, bricolage de paramètres dans les modèles en fonction des utilisateurs ([Wieber et Hocquet, 2018](https://arxiv.org/abs/1812.00995)).  

De même qu'on peut décrire deux modèles d'expérimentation avec des rapports à la fiabilité de l'instrument scientifique différents (l'un basé sur la transparence du fonctionnement de l'intrument "maison" en tant que garante, l'autre sur la confiance dans un instrument industriel et commercial au fonctionnement standardisé par sa large diffusion), on peut décrire deux visions différentes de fiabilité scientifique computationnelle. L'un considére le software comme "user-oriented". Dans ce cas, le programme est vu comme un outil dont on peut soulever le capot et vérifier comment il marche : la transparence est la vertu épistémique garantissant la reproductibilité, contrairement à une "boîte noire". L'autre considère le software comme "market-oriented", il est produit industriellement et la confiance est basée sur la robustesse d'un produit industriel imposant une forme de standard, même si propriétaire. Dans ce cas, la reproductibilité est basée sur l'assurance de la fiabilité par l'imposition d'une norme industrielle (Hocquet et Wieber, 2020). En particulier, dans le second cas, la prolifération de versions différentes du logiciel est considérée comme un problème pour la reproductibilité, parce qu'elle nuit à la stabilité des versions donc à la standardisation. Le paradoxe est que la possibilité de réutiliser et de créer d'autres versions est un des principes issus du logiciel libre dont s'inspire l' "open science". "Open" et reproductible ne sont pas forcément synonymes.  

Pour conclure, ce portrait de la reproductibilité ne doit pas empêcher d'essayer de concevoir des bonnes pratiques conduisant à plus de confiance dans la science. Au contraire, s'interroger sur les pratiques, les normes et les perceptions de l'activité scientifique, mais aussi celles de la computation doit pouvoir aider à les imaginer.