Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Corpus descriptions as data papers? Q de la publication (pérenne) des pages de présentation des corpus #185

Open
alexis-michaud opened this issue Jan 4, 2022 · 2 comments
Assignees
Labels
Descriptions de corpus Pages de présentation des corpus documentation enhancement métadonnées Questions relatives aux métadonnées

Comments

@alexis-michaud
Copy link
Collaborator

alexis-michaud commented Jan 4, 2022

La page de présentation d'un corpus est un élément-clef pour l'utilisation du corpus (depuis les débuts du projet Pangloss).

  • Elle a vocation à être une référence centrale où trouver des explications concernant les conventions de notation.
  • Elle contient des informations (métadonnées) qui concernent toutes les ressources du corpus : sorte de "factorisation" de métadonnées concernant les conditions d'enquête, etc.
  • Elle peut contenir (en mode PRO) une bibliographie consistante.

D'où une question importante, qui à l'heure actuelle n'a pas encore de réponse : Comment assurer la publication (pérenne) des pages de présentation des corpus ?

Dans l'immédiat, un point qui paraît essentiel serait d'avoir un archivage pérenne de ce contenu (avec identifiant) et un système de versionnage (une version tous les ans, lorsqu'il y a eu des modifications ? ou un système de changement de version 'manuel' sur décision de l'auteur ?).

À moyen terme (ou dès que les moyens humains seront disponibles : savoir-faire éditorial), il pourrait être indiqué de "frapper un grand coup" (expression reprise à Michel Launey : nul bellicisme !) en considérant ces pages comme autant de data papers. Cela demanderait à fixer des objectifs élevés, et avoir un processus de labellisation, pour ne pas apposer l'étiquette de data paper sur un contenu qui ne satisfait pas à l'ensemble des exigences couramment associées avec cette notion éditoriale.

Un avantage de considérer la page de présentation comme une publication scientifique serait que cela encouragerait les déposant.e.s à y consacrer du temps et du soin, car elles & ils seraient assurées que ces efforts ne sont pas seulement sur le court terme (comme c'est la règle du genre pour les pages web) mais entrent dans le même cadre que des publications comme des communications dans des actes de colloques.

@alexis-michaud alexis-michaud added enhancement Descriptions de corpus Pages de présentation des corpus documentation métadonnées Questions relatives aux métadonnées labels Jan 4, 2022
@alexis-michaud
Copy link
Collaborator Author

Les pages de présentation ont vocation à être intégrées au livret créé (via LaTeX) comme sortie PDF pour consulter un corpus comme un livre mis en page. (En lien avec l'export demandé ici)

@alexis-michaud
Copy link
Collaborator Author

Entendu lors du colloque "Language Documentation & Archiving" de septembre 2024 à Berlin : réflexions des collègues du projet DoBeS au sujet de la préservation (et de l'enrichissement) des infos qui figurent dans les descriptions de corpus (sur le site, pas dans l'archive).
Le résumé : "integrating the website into the archive". Bien intéressant ! et en plus eux ont maintenant (ou auront bientôt) une expérience pratique du processus.
Vidéo ici.

Ce qui tend à aller dans le sens de l'intuition que cette tâche est porteuse / importante / "stratégique".

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Descriptions de corpus Pages de présentation des corpus documentation enhancement métadonnées Questions relatives aux métadonnées
Development

No branches or pull requests

2 participants