-
Notifications
You must be signed in to change notification settings - Fork 0
/
urfist_bdx_slides.Rmd
2319 lines (1457 loc) · 85.3 KB
/
urfist_bdx_slides.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
---
title: "Rédiger un plan de gestion de données"
subtitle: ""
author: "Cécile Arènes"
institute: "Urfist de Bordeaux"
date: "2021-10-05 (dernière mise à jour: `r Sys.Date()`)"
output:
xaringan::moon_reader:
lib_dir: libs
nature:
ratio : "16:9"
highlightStyle: github
highlightLines: true
countIncrementalSlides: false
---
class: middle
# Programme de la journée
## Matin
1. Quelques rappels sur les données de la recherche
2. Le PGD en théorie : définition et modèles
3. Des évolutions à prévoir : MaDMP et data papers
## Après-midi
4. Le PGD en pratique : un retour d’expérience de rédaction
5. Le PGD en pratique : guide de rédaction et étude de plans rédigés
6. Boîte à outils : prise en main de DMP OPIDoR
[Support et matériel](https://github.com/carenes/urfist_bdx_DMP) à télécharger
---
class: middle
# Qui suis-je ?
* Cécile Arènes <a href="https://orcid.org/0000-0002-1839-3530"><img alt="ORCID logo" src="https://info.orcid.org/wp-content/uploads/2019/11/orcid_16x16.png" width="16" height="16" /></a>
* Conservatrice des bibliothèques
* Chargée de mission Données de la recherche et Humanités numériques à la bibliothèque de Sorbonne Université
* Membre du GTSO données de Couperin et du collège Données du CoSO
---
class: center, inverse, middle
# Tour de table
---
class: middle
# Vos attentes
* Votre nom
* Votre fonction
* Un souhait pour cette formation
---
class: center, middle
background-color: #bebebe
# En guise d'introduction
## Êtes-vous [FAIR-aware](https://doranum.fr/enjeux-benefices/outil-fair-aware/) ?
---
class: center, inverse, middle
# 1. Quelques rappels sur les données de la recherche
---
class: middle
# La science ouverte, une définition
> “Open Science is the practice of science in such a way that others can collaborate and contribute, where research data, lab notes and other research processes are freely available, under terms that enable reuse, redistribution and reproduction of the research and its underlying data and methods.”
FOSTER. s. d. « Open Science Definition ». Consulté le 3 octobre 2021. https://www.fosteropenscience.eu/foster-taxonomy/open-science-definition.
---
# Le mouvement de l'open data : des initiatives anciennes
* 1992 : [Genbank](https://www.ncbi.nlm.nih.gov/genbank/)
* 2007 : travaux sur l’[Open government data à l’initiative](https://opengovdata.org/) de Lawrence Lessig, Tim O’Reilly, Ethan Zuckermann, Joseph Hall, Aaron Schwartz et Carl Mamamud
.center[
```{r echo=FALSE, out.height=182, out.width=1020}
knitr::include_graphics("img/lessigetc.png")
```
]
**Principes : accessibilité, données non-propriétaires, licences ouvertes, etc.**
<small>Images : Silvio Tanaka, « Tim Berners-Lee, CC BY 2.0. https://commons.wikimedia.org/wiki/File:Tim_Berners-Lee_CP.jpg </small>
<small>Lessig 2016, CC BY 2.0, https://commons.wikimedia.org/wiki/File:Lawrence_Lessig_Headshot.jpg</small>
<small>Christopher Michel, “Tim O’Reilly”, CC BY 2.0, https://commons.wikimedia.org/wiki/File:Tim_O%27Reilly_-_2017_(38700700672)_(cropped).jpg</small>
<small>Sage Ross, CC BY-SA 2.0, https://commons.wikimedia.org/wiki/File:Aaron_Swartz_2_at_Boston_Wikipedia_Meetup,_2009-08-18.jpg</small>
<small>David Orban, CC:BY, Open Government Working Group, https://www.flickr.com/photos/davidorban/2095565103/in/album-72157603410393877/</small>
---
# Le mouvement de l'open data : du côté du web
[Echelle 5 étoiles](https://5stardata.info/fr/), Tim Berners-Lee, 2006
- ★ publiez vos données sur le Web (peu importe leur format) avec une licence ouverte
- ★★ publiez-les en tant que données structurées (par exemple, un document Excel au lieu d’une image scannée d’un tableau)
- ★★★ publiez-les dans un format ouvert et non-propriétaire (par exemple,
un CSV plutôt qu’un Excel)
- ★★★★ utilisez des URI pour désigner des choses dans vos données,
afin que les gens puissent faire des références à celles-ci
- ★★★★★ liez vos données à d’autres données
pour y ajouter du contexte
.center[
```{r echo=FALSE, out.height=150, out.width=350}
knitr::include_graphics("img/echelle5etoiles.png")
```
]
---
# Ouvrir les données, un enjeu économique
.pull-left[
```{r echo=FALSE, out.height=400, out.width=300}
knitr::include_graphics("img/ocde.png")
```
]
.pull-right[
2007 : Parution du rapport de l’OCDE, « Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics ». http://www.oecd.org/fr/science/inno/38500823.pdf
]
---
# Le mouvement de l'open data : répondre à une attente citoyenne
* [Open government partnership](https://www.opengovpartnership.org/), 2011, 78 pays
* « OGP’s vision is that more governments become sustainably more transparent, more accountable, and more responsive to their own citizens, with the ultimate goal of improving the quality of governance, as well as the quality of services that citizens receive. »
.center[![](./img/opengov.png)]
---
# Le mouvement de l'open data : en France
* Ouverture de [data.gouv.fr](https://www.data.gouv.fr/fr/) en 2011
* Création de la mission interministérielle [Etalab](https://www.etalab.gouv.fr/qui-sommes-nous) en 2013
* Pour une action publique transparente et collaborative : plan d’action national pour la France, 2015-2017, puis 2018-2020
* 21 engagements : engagement 18 : « Construire un écosystème de la science ouverte »
* **Partenariat pour un gouvernement ouvert** [2021-2023](https://www.modernisation.gouv.fr/transformer-laction-publique/partenariat-pour-un-gouvernement-ouvert)
.center[![](./img/datagouv.png)]
---
# La feuille de route du MESRI pour les données et les codes
.pull-left[
```{r echo=FALSE, out.height=400, out.width=300}
knitr::include_graphics("img/amdacMESRI.png")
```
]
.pull-right[
[Politique des données, des algorithmes et des codes sources](https://cache.media.enseignementsup-recherche.gouv.fr/file/politique_des_donnees/50/1/Strategie-donnees-algorithmes-codes-210922_1419501.pdf), 2021-2024.
* Structurer, ouvrir et partager les données de recherche - Action 6
* Suivre l'ouverture des données et des codes de la recherche : Baromètre de la science ouverte - Action 7
* Accompagner les chercheurs dans la gestion des données et le « FAIR by design » - Action 9
* Collecter, préserver et partager les codes sources – Software Heritage - Action 11
* Accélérer les demandes d'accès des chercheurs aux données publiques - Actions 18 & 9
* Favoriser l'accès des chercheurs aux données d'intérêt général - Action 20
* Mettre en place des identifiants uniques et pérennes - Actions 22 à 27
* Accompagner l’adoption de licences libres - Action 45
]
---
# La science ouverte en France
* Plan national pour la science ouverte, 2018 et 2021.
> « La France s’engage pour que les résultats de la recherche scientifique soient ouverts à tous, chercheurs, entreprises et citoyens, sans entrave, sans délai, sans paiement. »
.center[
```{r echo=FALSE, out.height=300, out.width=250}
knitr::include_graphics("img/pnso2.png")
```
]
---
# Le plan national pour la science ouverte 1, 2018
.center[
```{r echo=FALSE, out.height=250, out.width=200}
knitr::include_graphics("img/pnso1.jpg")
```
]
**Axe 2, structurer et ouvrir les données de la recherche**
* Rendre obligatoire la diffusion ouverte des données de recherche issues de programmes financés par appels à projets sur fonds publics.
* Créer la fonction d’administrateur des données et le réseau associé au sein des établissements.
* Créer les conditions et promouvoir l’adoption d’une politique de données ouvertes associées aux articles publiés par les chercheurs.
---
class:middle
# Le plan national pour la science ouverte 2, 2021
**Axe 2 : structurer, partager et ouvrir les données de la recherche**
* Mettre en œuvre l’obligation de diffusion des données de recherche financées sur fonds publics
* Créer Recherche Data Gouv, la plateforme nationale fédérée des données de recherche
* Promouvoir l’adoption d’une politique de données sur l’ensemble du cycle des données de la recherche, pour les rendre faciles à trouver, accessibles, intéropérables et réutilisables (FAIR)
**Axe 3 : ouvrir et promouvoir les codes sources produits par la recherche**
* Valoriser et soutenir la diffusion sous licence libre des codes sources issus de recherches financées sur fonds publics
* Mettre en valeur la production des codes sources de l’enseignement supérieur, de la recherche et de l’innovation
* Définir et promouvoir une politique en matière de logiciels libres
---
class: middle
# Quels bénéfices pour le producteur de données ?
* Une **conformité** avec les exigences des financeurs en faveur de la science ouverte
* Davantage de **transparence** dans le processus de recherche
* Une meilleure **visibilité** pour les chercheurs
* Davantage d’**impact** potentiel de la recherche
* Une plus grande **efficacité** (et une meilleure gestion des coûts de gestion)
* De meilleures possibilités de **collaboration**
* Davantage de **citations** :
* Colavizza, Giovanni, Iain Hrynaszkiewicz, Isla Staden, Kirstie Whitaker, et Barbara McGillivray. 2020. « The citation advantage of linking publications to research data ». PLOS ONE 15 (4): e0230416. https://doi.org/10.1371/journal.pone.0230416.
---
class: middle
# Pourquoi diffuser si largement ?
* Utilité sociale : un [exemple](https://madada.fr/demande/donnees_relatives_a_la_concentra)
* Utilité politique (informer le débat public)
* Utilité économique (volonté européenne d'une réutilisation par des entreprises)
* Retour sur investissement de la recherche publique (restituer aux citoyens le produit de ce qu'ils ont financé)
* Constitution d’un patrimoine scientifique nativement numérique
---
class: middle
# Les données de la recherche : définitions - 1
>"Enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche."
OECD. 2007. « OECD Principles and Guidelines for Access to Research Data from Public Funding ». https://www.oecd.org/sti/inno/38500813.pdf.
---
class: middle
# Les données de la recherche : définitions - 2
>« Research data means data in the form of facts, observations, images, computer program results, recordings, measurements or experiences on which an argument, theory, test or hypothesis, or another research output is based.
Data may be numerical, descriptive, visual or tactile. It may be raw, cleaned or processed, and may be held in any format or media. »
DANS, « What Is Research Data », 2017. https://www.ands.org.au/__data/assets/pdf_file/0006/731823/Whatis-research-data.pdf
---
class: middle
# Différents types de données ?
--
.center[
```{r echo=FALSE, out.height=300, out.width=600}
knitr::include_graphics("img/types-donnees.png")
```
]
<small>Source : Rivet, Alain, Marie-Laure Bachèlerie, Auriane Denis-Meyere, et Delphine Tisserand. 2018. « Traçabilité des activités de recherche et gestion des connaissances : Guide pratique de mise en place ». http://qualite-en-recherche.cnrs.fr/IMG/pdf/guide_tracabilite_activites_recherche_gestion_connaissances.pdf.</small>
---
# Différents types de données - 1
* **Données d’observation** capturées en temps réel : habituellement uniques, impossible à reproduire
* *Ex.: mesures sismiques, images d’une étoile, enquêtes sociologiques, fouilles archéologiques…*
* **Données d’expérimentation** : obtenues à partir d’équipements de laboratoire
souvent reproductibles, parfois coûteuses
* *Ex.: résultats de réactions chimiques, observations sur des individus en situation de test…*
* **Données computationnelles** : générées par des modèles informatiques
souvent reproductibles si le modèle est correctement documenté
* *Ex.: modélisation du changement climatique, « reproduction » du Big Bang, modèles économiques…*
<small>Source : Ancelin-Fabre, Justine. 2021. « Rédiger un plan de gestion pour ses données de recherche ». https://urfist.chartes.psl.eu/sites/default/files/docs/20210601_ancelin-fabre_pgd.pdf.</small>
---
# Différents types de données - 2
* **Records** (C. Borgman) : documents témoignant d’un phénomène ou d’une activité humaine, uniques ou non (=> "traces" dans la traduction française)
* *Ex.: fonds de photographies, documents d’archives, textes de loi, ouvrages littéraires…*
* **Données compilées ou dérivées** : issues du traitement de données brutes
souvent reproductibles mais coûteuses
* *Ex.: bases de données compilées, corpus textuel préparé pour le TDM…*
* **Données « de référence »** : validées par la communauté, réutilisables
* *Ex.: décodage du génome humain, certaines données astronomiques…*
<small>Source : Ancelin-Fabre, Justine. 2021. « Rédiger un plan de gestion pour ses données de recherche ». https://urfist.chartes.psl.eu/sites/default/files/docs/20210601_ancelin-fabre_pgd.pdf.</small>
---
class: middle
# Cerner le périmètre des données
Dans le cadre du plan de gestion des données, *on ne prendra pas en compte ces productions* :
* Analyses préliminaires et projets de documents scientifique
* Programmes de travaux futurs
* Examens par les pairs
* Communications personnelles avec des collègues
* Objets matériels
* **Publications scientifiques**
* Supports de formations
* Données administratives
*Attention, elles constituent des archives et certaines sont à conserver de façon pérenne.* (voir : Référentiel de gestion des archives de la recherche)
---
# Le cycle de vie des données - 1
*Un peu trop parfait pour être vrai...*
.center[
```{r echo=FALSE, out.height=400, out.width=500}
knitr::include_graphics("img/datalifecycle.png")
```
]
---
# Le cycle de vie des données - 2
*Plus souvent itératif*
.center[
```{r echo=FALSE, out.height=400, out.width=600}
knitr::include_graphics("img/datalifecycle2.png")
```
]
---
class: middle
# Pourquoi ouvrir les données ?
* 50 % des expériences sont considérées comme **non-reproductibles**.
* 80 % des données produites ces 20 dernières années seraient **perdues**.
* 93 % des établissements d’enseignement supérieur n’ont pas de démarche de plan de gestion des données de la recherche.
* 90 % des chercheurs interrogés dans le cadre d’un sondage européen disent effectuer de manière individuelle le stockage, l’archivage ou la transmission de leurs données.
* 33 % de ces mêmes chercheurs n’ont jamais entendu parler des plans de gestion de données ou estiment qu’ils n’en ont pas besoin.
* Plus de 80 % des données produites sont **stockées ailleurs que dans des entrepôts**.
*DATACC. « Gestion des données : une nouvelle exigence, de nouvelles compétences », 2020.* https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/gestion-des-donnees-une-nouvelle-exigence-de-nouvelles-competences/
---
class: middle
# Les données sont fragiles !
**Chaque année augmente de 17% le risque de non-disponibilité des données.**
.center[
```{r echo=FALSE, out.height=300, out.width=500}
knitr::include_graphics("img/perte-donnees.png")
```
]
<small>Vines et al., The Availability of Research Data Declines Rapidly with Article Age. Current Biology 24 , 94–97, January 6, 2014 https://doi.org/10.1016/j.cub.2013.11.014</small>
---
class: middle
# Un enjeu, préserver le patrimoine scientifique
.pull-left[
```{r echo=FALSE, out.height=300, out.width=200}
knitr::include_graphics("img/foucault.png")
```
]
.pull-right[
```{r echo=FALSE, out.height=300, out.width=200}
knitr::include_graphics("img/heimburger.png")
```
]
Sources :
* Fonds Michel Foucault. Notes de lecture et manuscrits. Notes de lecture des débuts, 1952-1955. Neurophysiologie Lagache & EEG. NAF 28730 (44 A). https://gallica.bnf.fr/ark:/12148/btv1b525128619/f12.item
* Heimburger, Franziska. « Gérer la documentation II - une approche possible utilisant Zotero ». La boîte à outils des historiens (blog), 2012. http://www.boiteaoutils.info/2012/11/gerer-la-documentation-ii-une-approcha/
---
class: middle
# En d'autres termes, faire de la curation de données
>« Les activités de curation de données permettent de faciliter la découverte et la récupération de données, de maintenir la qualité des données, de leur ajouter de la valeur et d'en fournir pour de futures réutilisations. Ce nouveau champ inclut la représentation, l'archivage, l'authentification, la gestion, la préservation, la récupération, et l'utilisation. »
* « Frequently Asked Questions about Data Curation ». s. d. Digital Humanities Data Curation (blog). Consulté le 3 octobre 2021. https://guide.dhcuration.org/faq/.
* Puren, Marie. 2021. « Créer son plan de gestion des données ». École thématique. Lille, France: MESH, Lille. https://hal.archives-ouvertes.fr/hal-03183724.
---
class: middle
.pull-left[
# Cadre européen de l'ouverture des données - 1
]
.pull-right[
```{r echo=FALSE, out.height=68, out.width=98}
knitr::include_graphics("img/europe.png")
```
]
[Directive européenne sur les données ouvertes et la réutilisation des informations du secteur public](https://eur-lex.europa.eu/eli/dir/2019/1024/oj/eng), juin 2019 (2019/1024)
>« Les informations du secteur public constituent une **source extraordinaire de données qui peuvent contribuer à améliorer le marché intérieur** et à développer de nouvelles applications pour les consommateurs et les personnes morales. L'utilisation intelligente de données, y compris leur traitement par des applications utilisant l'intelligence artificielle, peut avoir un **effet de transformation sur tous les secteurs de l'économie**. » (considérant 9)
---
class: middle
.pull-left[
# Cadre européen de l'ouverture des données - 2
]
.pull-right[
```{r echo=FALSE, out.height=68, out.width=98}
knitr::include_graphics("img/europe.png")
```
]
[Une stratégie européenne pour les données, communication de la commission au parlement](https://ec.europa.eu/info/sites/default/files/communication-european-strategy-data-19feb2020_fr.pdf), février 2020 (COM(2020) 66 final)
> « Outre la création de **neuf espaces européens communs des données**, les travaux se poursuivront sur le nuage européen pour la science ouverte (**EOSC**), qui offre un **accès ininterrompu et une réutilisation fiable des données de la recherche aux chercheurs européens, aux innovateurs, aux entreprises et aux citoyens**, grâce à un environnement distribué des données fiable et ouvert et à des services connexes. »
Ouverture d’EOSC au secteur privé à partir de 2024
---
# Cadre juridique français de l'ouverture des données
.pull-left[
```{r echo=FALSE, out.height=400, out.width=300}
knitr::include_graphics("img/guidejuridique.png")
```
]
.pull-right[
Becard, Nicolas, Céline Castets-Renard, Gauthier Chassang, Martin Dantant, Laurence Freyt-Caffin, Nathalie Gandon, Caroline Martin, et al. 2017. « **Ouverture des données de la recherche. Guide d’analyse du cadre juridique en France** », 45 p. https://doi.org/10.15454/1.481273124091092E12.
Cas pratiques en SHS : « **Ethique et droit** ». https://ethiquedroit.hypotheses.org/.
]
---
# Loi pour une République numérique, 2016 - 1
.center[
```{r echo=FALSE, out.height=100, out.width=100}
knitr::include_graphics("img/LPRN.png")
```
]
**Titre Ier : la circulation des données et du savoir : article 6**
Les administrations publient en ligne les documents administratifs suivants :
>« 1° Les documents qu'elles communiquent en application des procédures prévues au présent titre, ainsi que leurs versions mises à jour ;
>[...]
>« 3° Les bases de données, mises à jour de façon régulière, qu'elles produisent ou qu'elles reçoivent et qui ne font pas l'objet d'une diffusion publique par ailleurs ;
>« 4° Les **données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental**.
---
# Loi pour une République numérique, 2016 - 2
.center[
```{r echo=FALSE, out.height=100, out.width=100}
knitr::include_graphics("img/LPRN.png")
```
]
**Open research data : article 30**
>« II.- Dès lors que les données issues d'une activité de recherche **financée au moins pour moitié** par des dotations de l'Etat, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, **leur réutilisation est libre**.
>« III.- L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication.
---
class: middle
# Cadre juridique
✅ Open data : **principe de communication et de réutilisation libre et gratuite**
* En Europe : Directive PSI
* En France :
* Lois CADA, Valter et loi pour une République numérique
* Code des relations entre le public et l’administration
En pratique, tout dépend du type de données :
* ✅ Communication **obligatoire**
* Directive INSPIRE : géographie
* Convention d’Aarhus : environnement
---
# Cadre juridique
🔴 Communication **interdite** des données portant atteinte :
* A la défense et la politique étrangère de la France, aux délibérations du gouvernement, au pouvoir exécutif
* A la sûreté de l’État, la sécurité publique, à la sécurité des personnes , à la sécurité des biens de l’établissement et de ses systèmes d’informations
* Au secret professionnel (médical, etc.)
* Au secret industriel et commercial
🔶 Communication possible **sous conditions** de données :
* Protégées par le droit d’auteur ou autres droits de propriété intellectuelle
* Relatives à des personnes privées (données personnelles, vie privée)
* Soumises au secret statistique
* Liées à un contrat avec un tiers non soumis à une obligation de service public
* Présentant des risques pour la protection du potentiel scientifique et technique de la nation (« unité protégée » ou « Zone à régime restrictif »)
---
# Propriété intellectuelle
### Les données sont-elles protégées par le droit d’auteur ?
* ✅ **Oui** pour les « œuvres » même sans caractère artistique, si elles présentent un degré minimal d’« originalité »: textes, discours, photos, vidéos, musique, cartes, sculptures…
* ✅ **Oui** pour le code informatique
* 🔴 **Non** pour des informations purement factuelles (mesures, comptages…)
* 🔴 **Non** pour les œuvres tombées dans le domaine public (pour être précis il reste un droit moral, inaliénable)
*Le fait que la collecte des données ait demandé un investissement (humain, matériel, financier) n’est pas créateur de droit d’auteur.*
### Autres droits de propriété intellectuelle :
* Marques, dessins, modèles
* Brevets, éléments brevetés
* Droits des bases de données
---
class: middle
# A qui appartiennent vos productions ?
**A votre employeur**, dans la plupart des cas
* Ce qui est produit dans le cadre de nos mission est
considéré comme un document administratif (au sens de la loi Valter).
* *Attention* ! Pour les doctorants : si la thèse est
cofinancée ou réalisée en collaboration avec un
partenaire privé => il faut se reporter au contrat.
* Cas particulier : je suis **chercheur ou enseignant-chercheur** :
mes œuvres (écrits, cartes, photographies, plans, etc.) qui sont originales et donc soumises au droit d’auteur m’appartiennent (exception – loi DADVSI 2006-961). **Mais le reste appartient bien à mon employeur.**
<small>Morcrette, Nathalie, et Nathalie Gandon. 2016. « Cadre juridique des données de la recherche : Formation ». https://anfdonnees2016.sciencesconf.org/data/pages/Cadre_juridique.pdf.</small>
---
class: middle
# Principes d'ouverture des données
*« As open as possible, as closed as necessary. »*
**Un principe d’ouverture par défaut ;
Des limitations en fonction du type de données.**
Mise en œuvre : production de données **FAIR**
.center[
```{r echo=FALSE, out.height=200, out.width=600}
knitr::include_graphics("img/FAIR1.jpg")
```
]
.center[
<small>Logo FAIR : [SangyaPundir](https://commons.wikimedia.org/wiki/File:FAIR_data_principles.jpg). CC:BY-SA4.0.</small>
]
---
class: middle
# Principes FAIR
--
.center[
```{r echo=FALSE, out.height=350, out.width=550}
knitr::include_graphics("img/FAIR2.png")
```
Détail des principes FAIR : https://www.force11.org/group/fairgroup/fairprinciples
<small>Image : [ANDS](https://www.ands.org.au/working-with-data/fairdata/training). CC:BY4.0.</small>
]
---
# Données FAIR et données ouvertes
.center[
```{r echo=FALSE, out.height=350, out.width=550}
knitr::include_graphics("img/openvsfair.jpg")
```
]
Mons B, NeylonC,VelteropJ, Dumontier M, da Silva Santos LOB, Wilkinson MD. Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. Information Services & Use. 2017;37(1):49‑56.
https://doi.org/10.3233/ISU-170824
---
background-color: #bebebe
class: middle
# Et vos données ?
* Quelles sont vos pratiques pour les produire et les conserver ?
* Pourraient-ils intéresser d’autres chercheurs ou le grand public ?
* Avez-vous envisagé de les diffuser en complément du texte de votre thèse, de votre projet de recherche ?
* A quels freins ou difficultés avez-vous pensé ?
---
background-color: #bebebe
class: middle
# Pourquoi décrire et documenter des jeux de données ? - 1
## Exercice
*Voici des jeux de données déposés sur Zenodo. Lesquels êtes-vous en mesure de décrire ? Lesquels pourriez-vous réutiliser ?*
* https://github.com/carenes/urfist_bdx_DMP/blob/master/materiel/exercice_jeux-donnees.docx
---
background-color: #bebebe
class: middle
# Pourquoi décrire et documenter des jeux de données ? - 2
Trois jeux particulièrement contrastés
* Lomazzi, Vera. (2017). Supplementary materials for "Testing the goodness of the EVS gender role attitudes scale" [Data set]. Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique. Zenodo. http://doi.org/10.5281/zenodo.375612
* Biswas, Rahul, Cinabro, David, & Kessler, Rick. (2018). simlib_minion (Version 2) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.1145822
* Macario, A. (2013). Swath Bathymetry Pitman fracture zone [Data set]. Zenodo. http://doi.org/10.5281/zenodo.7515
---
class: center, inverse, middle
# 2. Le PGD en théorie : définition et modèles
---
class: middle
# Le PGD en quelques dates
* 1966 : esquisses de DMP dans le domaine de l’aéronautique
* 1973 : la NASA publie un rapport technique qui s’apparente à un DMP.
* 2007 : le Wellcome trust (Royaume-Uni), aujourd’hui membre du Plan S, requiert la mise en place de DMP pour les projets qu’il finance
* 2007 : lignes directrices de l’OCDE
* 2011 : mise en place de DMP par la National Science Foundation (Etats-Unis) pour les projets financés.
* 2014 : DMP pour les projets financés dans le cadre de H2020
* 2019 : l’ANR requiert la mise en place de DMP pour les projets qu’elle finance
Sources :
* DATACC. « Gestion des données : une nouvelle exigence, de nouvelles compétences », 2020. https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/gestion-des-donnees-une-nouvelle-exigence-de-nouvelles-competences/.
* Chronologie inspirée de : Smale, Nicholas, et al. « The History, Advocacy and Efficacy of Data Management Plans ». BioRxiv, octobre 2018. www.biorxiv.org, https://doi.org/10.1101/443499
---
class: middle
# Le plan de gestion des données : définition
>Un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Source : INIST-CNRS, [doranum](https://doranum.fr/plan-gestion-donnees-dmp/fiche-synthetique/)
Le DMP est un document **évolutif**, demandé, en général, à **trois moments** du projet.
---
class: middle
# Quand rédiger son plan de gestion des données ?
* Collecter des éléments **au plus tôt !**
* Dans les appels européens, la science ouverte devient un **critère d'excellence**, vous devrez témoigner de **bonnes pratiques**.
---
class: middle
# Checklist données dès la réponse à l'AAP - 1
**Expérience passée** :
* Avez-vous déjà déposé des données sur un entrepôt ?
* Avez-vous déjà un ORCID ou un autre identifiant chercheur ?
**Méthodologie prévue pour le projet** :
* Pensez aux principes **FAIR** pour le projet, par exemple :
* Résultats **Faciles à trouver, Accessibles, Intéropérables** : parmi vos livrables, prévoyez-vous le **partage** des données sur un entrepôt de confiance, l’ouverture des codes ?
* Résultats **Réutilisables** : quelle **documentation** allez-vous fournir pour que vos données et vos codes puissent être réutilisés ? Une publication de **data paper** à prévoir ?
* Si les données et codes ne peuvent être ouverts, mentionner qu’un DOI leur seront attribués pour que leur description soit Faciles à trouver
---
class: middle
# Checklist données dès la réponse à l'AAP - 2
**Pratiques envisagées** :
* Quels **types** de données prévoyez-vous de collecter ? Avez-vous l’intention de réutiliser des données existantes ?
* Recueillez-vous des **données personnelles** ou des données **sensibles** ? : si oui, anticiper les questions de sécurisation du stockage des données, prévoir un contact préalable avec le délégué à la protection des données (RGPD), le RSSI ou le fonctionnaire sécurité défense, ceci afin d’indiquer que ces questions ont été anticipées.
* **Partage** des données : avez-vous déjà ciblé un entrepôt pour y déposer vos publications ?
**Appui à la mise en œuvre** :
* Politique institutionnelle de l’établissement si elle existe
* Politique française, Plan national pour la science ouverte 2 (et projet français d’entrepôt Recherche.data.gouv.fr à venir)
* Services d'appui de l’établissement : cf. personnes ressources
---
# Le plan de gestion des données en bref
.center[
```{r echo=FALSE, out.height=450, out.width=800}
knitr::include_graphics("img/dmpboxes.png")
```
]
Source : Cocaud, Sylvie, et Dominique l’Hostis. “Pourquoi et comment rédiger un plan de gestion de données ?,” 2019. https://hal.inrae.fr/hal-02791507
---
class:middle
# Exigences des financeurs de la recherche pour les PGD
**ANR :**
* DMP obligatoire pour tout projet, non évalué
* Pas d’obligation d’ouverture des données
**Europe, Horizon Europe :**
* DMP obligatoire pour tout projet, évalué
* Critère d'excellence selon les appels, bonnes pratiques de gestion des données selon les principes FAIR
* Ouverture des données si leur régime juridique le permet
*Europe, H2020 :*
* *Si pilote, DMP obligatoire pour tout projet*
* *Si pilote, ouverture des données si leur régime juridique le permet*
---
class: middle
# Les agences françaises et la science ouverte
Signature d’une déclaration conjointe en faveur de la science ouverte
par un réseau d’agences françaises de financement de la recherche en 2020
* ANR
* ADEME
* ANSES
* INCa
* INSERM/ANRS
https://anr.fr/fileadmin/documents/2020/CP_Declaratation_SO_29062020_VDEF__.pdf
---
class: middle
# Le modèle de l'ANR - présentation
[Modèle](https://anr.fr/fileadmin/documents/2019/ANR-modele-PGD.pdf) suivant le cycle de vie des données
Informations générales
1. **Description** des données et collecte ou réutilisation des données
2. **Documentation** et qualité des données
3. **Stockage** et sauvegarde pendant le processus de recherche
4. Exigences légales et **éthiques**, codes de conduite
5. **Partage** des données et conservation à long terme
6. Responsabilités et **ressources** en matière de gestion de données
---
# Le modèle de l'ANR - Description et documentation
- Informations générales
- Renseignements administratifs
- **1. Description des données et collecte ou réutilisation de données**
- 1a. Comment de **nouvelles données** seront-elles recueillies ou produites et/ou comment des données préexistantes seront-elles réutilisées ?
- 1b. Quelles données (**types, formats et volumes** par ex.) seront collectées ou produites ?
- **2. Documentation et qualité des données**
- 2a. Quelles **métadonnées** et quelle **documentation** (par exemple méthodologie de collecte et mode d'organisation des données) accompagneront les données ?
- 2b. Quelles mesures de contrôle de la **qualité** des données seront mises en œuvre ?
---
# Le modèle de l'ANR - Stockage et exigences légales
- **3. Stockage et sauvegarde pendant le processus de recherche**
- 3a. Comment les données et les métadonnées seront-elles **stockées** et **sauvegardées** tout au long du processus de recherche ?
- 3b. Comment la **sécurité** des données et la protection des données **sensibles** seront-elles assurées tout au long du processus de recherche ?
- **4. Exigences légales et éthiques, codes de conduite**
- 4a. Si des données à **caractère personnel** sont traitées, comment le respect des dispositions de la législation sur les données à caractère personnel et sur la sécurité des données sera-t-il assuré ?
- 4b. Comment les autres questions juridiques, comme la titularité ou les droits de **propriété intellectuelle** sur les données, seront-elles abordées ? Quelle est la législation applicable en la matière ?
- 4c. Comment les éventuelles **questions éthiques** seront-elles prises en compte, les codes déontologiques respectés ?
---
# Le modèle de l'ANR - Partage et responsabilités
- **5. Partage des données et conservation à long terme**
- 5a. **Comment et quand** les données seront-elles partagées ? Y-a-t-il des restrictions au partage des données ou des raisons de définir un **embargo** ?
- 5b. Comment les données à conserver seront-elles sélectionnées et où seront-elles **préservées** sur le long terme (par ex. un entrepôt de données ou une archive) ?
- 5c. Quelles **méthodes** ou quels outils **logiciels** seront nécessaires pour accéder et utiliser les données ?
- 5d. Comment l'attribution d'un **identifiant** unique et pérenne (comme le DOI) sera-t-elle assurée pour chaque jeu de données ?
- **6. Responsabilités et ressources en matière de gestion des données**
- 6a. **Qui** (par exemple rôle, position et institution de rattachement) sera responsable de la gestion des données (c'est-à-dire le gestionnaire des données) ?
- 6b. Quelles seront les **ressources** (budget et temps alloués) dédiées à la gestion des données permettant de s'assurer que les données seront FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable)
---
class: middle
background-color: #bebebe
# Le modèle de l'ANR - exemples
LipInTB / Jean-François Cavalier. 2021. https://dmp.opidor.fr/plans/4624/export.pdf
IMPRINT / Jonathan Lenoir. 2020.
https://dmp.opidor.fr/plans/5082/export.pdf
Ou : https://dmp.opidor.fr/public_plans
**Exercice** : choisissez et lisez ce PGD au regard des questions du modèle de l'ANR, qu'en pensez vous ?
https://anr.fr/fileadmin/documents/2019/ANR-modele-PGD.pdf
---
class: middle
# Le modèle Horizon Europe - Data Summary
https://ec.europa.eu/info/funding-tenders/opportunities/docs/2021-2027/horizon/temp-form/report/data-management-plan-template_he_en.docx
## 1. Data Summary
* Will you **re-use** any existing data and what will you re-use it for? State the reasons if re-use of any existing data has been considered but discarded.
* What **types and formats** of data will the project generate or re-use?
* What is the **purpose** of the data generation or re-use and its relation to the objectives of the project?
* What is the **expected size** of the data that you intend to generate or re-use?
* What is the **origin/provenance** of the data, either generated or re-used?
* To whom might your data be useful (**'data utility'**), outside your project?
---
class: middle
# Le modèle Horizon Europe - Fair data : Findable
## 2. FAIR data
### 2.1. Making data **findable**, including provisions for metadata
* Will data be identified by a **persistent identifier**?
* Will **rich metadata** be provided to allow discovery? What metadata will be created? What disciplinary or general standards will be followed? In case metadata standards do not exist in your discipline, please outline what type of metadata will be created and how.
* Will search **keywords** be provided in the metadata to optimize the possibility for discovery and then potential re-use?
* Will metadata be offered in such a way that it can be harvested and indexed?
---
class: middle
# Le modèle Horizon Europe - Fair data : Accessible - 1
### 2.2. Making data **accessible** : **Repository**
* Will the data be deposited in a **trusted repository**?
* Have you explored appropriate arrangements with the identified repository where your data will be deposited?
* Does the repository ensure that the data is assigned an **identifier**? Will the repository resolve the identifier to a digital object?