Skip to content

Latest commit

 

History

History
169 lines (89 loc) · 15.9 KB

04ReproducibleResearchAndDataAnalysis.md

File metadata and controls

169 lines (89 loc) · 15.9 KB

4. Recherche reproductible et analyse des données

Qu'est-ce que c'est ?

La reproductibilité signifie que les données de recherche et le code sont mis à disposition afin que d'autres puissent atteindre les mêmes résultats que ceux qui sont revendiqués dans les résultats scientifiques. Le concept de réplicabilité, c'est-à-dire le fait de répéter une méthodologie scientifique pour arriver à des conclusions similaires, est étroitement lié. Ces concepts sont au cœur de la recherche empirique.

L'amélioration de la reproductibilité entraîne une rigueur et une qualité accrues des résultats scientifiques, et donc une plus grande confiance dans la science. Il y a eu un besoin et une volonté croissants d'exposer les flux de travail de recherche depuis le lancement d'un projet et la collecte des données jusqu'à l'interprétation et à la communication des résultats. Ces développements sont accompagnés de leurs propres défis, y compris la conception de flux de travaux de recherche intégrés qui peuvent être adoptés par les collaborateurs tout en maintenant des normes élevées d'intégrité.

Le concept de reproductibilité est directement appliqué à la méthode scientifique, pierre angulaire de la science, et en particulier aux cinq étapes suivantes :

  1. Formuler une hypothèse

  2. Conception de l'étude

  3. Réalisation de l'étude et collecte des données

  4. Analyse des données

  5. Rapport de l'étude

Chacune de ces étapes devrait faire l'objet d'un rapport clair et ouvert, ce qui rendrait l'étude transparente et reproductible.

Raison d'être

[Overarching factors][NdT: pas d'équivalent en français] peuvent contribuer davantage aux causes de la non-reproductibilité, mais peuvent également conduire à la mise en œuvre de mesures spécifiques pour s'attaquer à ces causes. La culture et l'environnement dans lesquels se déroule la recherche constituent un important facteur global "descendant". D'un point de vue ascendant, l'éducation et la formation continues des chercheurs peuvent sensibiliser et diffuser les bonnes pratiques.

Bien qu'il soit important de comprendre l'ensemble des facteurs qui contribuent à la reproductibilité, il peut également être difficile de décomposer ces facteurs en étapes qui peuvent être immédiatement adoptées dans un programme de recherche existant et améliorer immédiatement sa reproductibilité. L'une des premières mesures à prendre est d'évaluer l'état actuel des choses et de suivre les améliorations à mesure que des mesures sont prises pour accroître encore davantage la reproductibilité. Certains des problèmes courants liés à la reproductibilité de la recherche sont illustrés dans la figure ci-dessous.

Source: Symposium report, October 2015. Reproducibility and reliability of biomedical research: improving research practice PDF.

Goodman, Fanelli, & Ioannidis (2016) note qu'en épidémiologie, en biologie computationnelle, en économie et dans les essais cliniques, la reproductibilité est souvent définie comme suit :

"la capacité d'un chercheur de reproduire les résultats d'une étude antérieure en utilisant les mêmes matériaux que ceux utilisés par le chercheur initial. Autrement dit, un deuxième chercheur pourrait utiliser les mêmes données brutes pour créer les mêmes fichiers d'analyse et mettre en œuvre la même analyse statistique dans le but d'obtenir les mêmes résultats".

Ceci est différent de la réplicabilité : "qui fait référence à la capacité d'un chercheur de reproduire les résultats d'une étude antérieure si les mêmes procédures sont suivies mais que de nouvelles données sont recueillies". Une façon plus simple d'y penser pourrait être que la reproductibilité est axée sur les méthodes, alors que la replicabilité est axée sur les résultats.

La reproductibilité peut être évaluée à plusieurs niveaux : au niveau d'un projet individuel (par exemple, un article, une expérience, une méthode ou un ensemble de données), un chercheur individuel, un laboratoire ou un groupe de recherche, une institution ou même un domaine de recherche. Des critères et des points d'évaluation légèrement différents peuvent s'appliquer à ces différents niveaux. Par exemple, un établissement maintient des pratiques de reproductibilité s'il instaure des politiques qui récompensent les chercheurs qui effectuent des recherches reproductibles. D'autre part, un domaine de recherche pourrait être considéré comme ayant un niveau de reproductibilité plus élevé s'il développe des ressources maintenues par la communauté qui favorisent et permettent des pratiques de recherche reproductibles, telles que des dépôts de données ou des normes communes de partage des données.

Objectifs d'apprentissage

Il y a trois objectifs majeurs qui doivent être abordés ici :

  1. Comprendre l'impact important de la création d'une recherche reproductible.

  2. Comprendre l'organisation générale d'une recherche reproductible (y compris la conception du flux de travail, la gestion des données et les rapports dynamiques).

  3. Connaître les différentes étapes du processus de reproductibilité, ainsi que les ressources correspondantes qui peuvent être utilisées.

Éléments-clés

Connaissances

Voici une liste indicative des points à retenir sur la reproductibilité :

  • Ce qu'est la "crise de la reproductibilité", et les méta-analyses de la reproductibilité.

  • Les principes de reproductibilité, d'intégrité et d'éthique dans la recherche.

  • Quelles sont les options et les environnements informatiques qui permettent une mise en place collaborative et reproductible ?

  • Les facteurs qui influent sur la reproductibilité de la recherche.

  • La ocumentation de l'analyse des données et workflows de recherche ouverts.

  • L'environnements d'analyse reproductibles (virtualisation).

  • Prendre en compte les "degrés de liberté des chercheurs". (Wicherts et al., 2016).

Savoir-faire

Il y a plusieurs conseils pratiques de reproductibilité qu'il faut garder à l'esprit lorsqu'on définit les compétences particulières nécessaires pour y parvenir. Les meilleures pratiques en matière de reproductibilité s'inspirent plus généralement des pratiques de la science ouverte, mais leur intégration présente des avantages pour les chercheurs eux-mêmes, qu'ils choisissent ou non de partager leurs recherches. La raison pour laquelle l'intégration des pratiques exemplaires en matière de reproductibilité profite au chercheur individuel est qu'elle améliore la planification, l'organisation et la documentation de la recherche. Nous présentons ci-dessous un exemple de mise en œuvre de la reproductibilité dans un flux de travail de recherche avec des références à ces pratiques dans le manuel.

1. Planifiez la reproductibilité avant de commencer
Créer un plan d'étude ou un protocole

Commencez la documentation dès le début de l'étude en rédigeant un plan ou un protocole d'étude qui comprend le plan et les méthodes proposés pour l'étude. Suivez les lignes directrices du Réseau Équateur, s'il y a lieu. Suivez les modifications apportées à votre plan d'étude ou à votre protocole à l'aide du contrôle de version (référence au contrôle de version). Calculez la puissance ou la taille de l'échantillon nécessaire et rapportez ce calcul dans votre protocole car les études sous-alimentées sont sujettes à l'irréproductibilité.

Choisir des outils et des matériaux reproductibles

Sélectionnez les anticorps qui fonctionnent à l'aide d'un moteur de recherche d'anticorps comme CiteAb. Éviter l'irréproductibilité par des lignées cellulaires mal identifiées en choisissant celles qui sont authentifiées par le International Cell Line Authentication Committee. Dans la mesure du possible, choisissez des outils logiciels et matériels qui vous permettent de conserver la propriété de vos recherches et de les transférer hors de la plate-forme pour les réutiliser (voir Logiciels de recherche ouverts et Open Source).

Configurez un projet reproductible

Centralisez et organisez la gestion de vos projets à l'aide d'une plate-forme en ligne, d'un référentiel central ou d'un dossier pour tous vos fichiers de recherche. Vous pouvez utiliser GitHub comme un endroit pour stocker les fichiers de projet ensemble ou pour tout gérer à l'aide d'un cahier de laboratoire électronique tel que Benchling, Labguru, ou SciNote. Au sein de votre projet centralisé, suivez les meilleures pratiques en séparant vos données de votre code dans différents dossiers. Faites vos données brutes en lecture seule et séparez-les des données traitées (référence à la gestion des données).

Lorsque vous sauvegardez et sauvegardez vos fichiers de recherche, choisissez des formats et des noms de fichiers informatifs qui permettent la réutilisation. Les noms de fichiers doivent être à la fois lisibles par machine et par l'homme (référence à Data Management). Dans votre analyse et votre code logiciel, utilisez des chemins relatifs. Évitez les formats de fichiers propriétaires et utilisez des formats de fichiers ouverts (voir 6 Licences et formats de fichiers ouverts).

2. Gardez une trace des choses
Pré-enregistrement

Pré-enregistrez l'information importante sur la conception et l'analyse de l'étude afin d'accroître la transparence et de contrer le biais de publication des résultats négatifs. Des outils gratuits pour vous aider à vous inscrire pour la première fois comprennent AsPredicted, Open Science Framework, et Registered Reports. Les essais cliniques devraient utiliser Clinicaltrials.gov.

Contrôle de version

Suivez les modifications apportées à vos fichiers, en particulier votre code d'analyse, à l'aide du contrôle de version (voir Open Research Software et Open Source).

Documentation

Documenter tout ce qui est fait à la main dans un fichier README. Créez un dictionnaire de données (également connu sous le nom de livre de codes) pour décrire les informations importantes concernant vos données. Pour une introduction facile, utilisez : Module d'organisation des données de Karl Broman et se référer à Gestion des données.

Programmation lettrée (literate programming)

Envisagez d'utiliser Jupyter Notebooks, KnitR, Sweave, ou d'autres approches de programmation alphabétisée pour intégrer votre code à votre récit et votre documentation.

3. Partagez et indiquez une licence pour vos recherches
Données

Évitez les annexes, optez pour une licence permissive acceptable et partagez vos données en utilisant un référentiel. Suivre les pratiques exemplaires décrites dans le chapitre Données et matériel de recherche ouverte.

Matériaux

Partagez votre matériel pour qu'il puisse être réutilisé. Déposer les réactifs dans des dépôts tels que [Addgene] (https://www.addgene.org/), The Bloomington Drosophila Stock Center, et [ATCC] (https://www.atcc.org/) pour les rendre facilement accessibles aux autres chercheurs. Pour en savoir plus, consultez la sous-section Matériaux ouverts de [Données et matériaux de recherche ouverts] (https://github.com/Open-Science-Training-Handbook/Open-Science-Training-Handbook_EN/blob/master/02OpenScienceBasics/02OpenResearchDataAndMaterials.md).

Logiciels, notebooks et conteneurs

Licencez votre code pour informer sur la façon dont il peut être utilisé (reutilisé). Partagez vos notebooks avec des services tels que mybinder qui permettent au public de visualiser et d'exécuter l'intégralité du bloc-notes sur des ressources partagées. Partagez des conteneurs ou des ordinateurs portables avec des services tels que [Rocker] (https://arxiv.org/abs/1710.03675) ou Code Ocean. Suivre les meilleures pratiques décrites dans Open Research Software et Open Source.

** Rédigez vos rapports de recherche de manière transparente**

Rapportez et publiez vos méthodes et interventions de manière explicite, transparente et complète afin de permettre leur réplication. Les lignes directrices du Réseau Équateur, des outils comme [Protocols.io] (https://www.protocols.io/) ou des processus comme Registered Reports peuvent vous aider à produire des rapports reproductibles. N'oubliez pas d'afficher vos résultats sur votre plateforme d'inscription publique (comme ClinicalTrials.gov ou le SocialScienceRegistry) dans l'année suivant la fin de votre étude, peu importe la nature ou l'orientation de vos résultats.

Questions, obstacles et idées fausses courantes

Q : "Tout est dans le journal ; n'importe qui peut reproduire ceci à partir de là !"

R : C'est l'une des idées fausses les plus courantes. Même une description extrêmement détaillée des méthodes et des flux de travail utilisés pour atteindre le résultat final ne suffira pas, dans la plupart des cas, à le reproduire. Cela peut être dû à plusieurs aspects, y compris des environnements de calcul différents, des différences dans les versions des logiciels, des biais implicites qui n'ont pas été clairement énoncés, etc.

Q : "Je n'ai pas le temps d'apprendre et d'établir un flux de travail reproductible."

R : En plus d'un nombre important de services en ligne disponibles gratuitement qui peuvent être combinés et qui facilitent la mise en place d'un flux de travail complet, le fait de consacrer du temps et de l'énergie à l'élaboration de ces services augmentera à la fois la validité scientifique des résultats finaux et réduira le temps nécessaire pour les exécuter de nouveau ou les prolonger dans des études ultérieures.

Q : "Les terminologies décrivant la reproductibilité sont difficiles."

R : Voir Barba (2018) pour une discussion sur la terminologie décrivant la reproductibilité.

Résultats d'apprentissage

  1. Comprendre la nécessité d'une recherche reproductible et son raisonnement.

  2. Etre capable d'établir un workflow reproductible dans le cadre d'une tâche d'exemple.

  3. Connaître les outils qui peuvent soutenir une recherche reproductible.

Lectures supplémentaires

  • Button et al. (2013). Power failure: why small sample size undermines the reliability of neuroscience. doi.org/10.1038/nrn3475

  • Karl Broman (n.y.). Data Organization. Choose good names for things. kbroman.org