Skip to content
Jean-Baptiste-Camps edited this page Nov 4, 2017 · 1 revision

Bienvenue sur le wiki du corpus Geste.

Le but de ces pages est de présenter et documenter l'annotation linguistique des textes du corpus.

Référentiels

Les textes ont été annotés en lemmes, morpho-syntaxe et flexion, fondés sur les référentiels suivant:

  • lemme: entrées du dictionnaire de Tobler-Lommatzsch, avec quelques adaptations ;
  • étiquettes morpho-syntaxiques et flexionnelles: étiquettes Cattex2009_max avec quelques adaptations.

Chaîne d'annotation et de relecture

Les textes sont annotés automatiquement par un lemmatiseur (Pandora), avec des modèles entraînés sur les données déjà corrigées. Le processus de relecture suivi est ensuite le suivant :

  1. Relecture en contexte de l'ensemble des occurrences avec leur annotation ;
  2. Vérifications systématiques (feuilles XSLT, requêtes XQuery) ;
  3. Confrontation des annotations vérifiées avec les prédictions d'un modèle entraîné sur elles-mêmes.

Corpus Gold vs. Silver

Le corpus Gold est composé des textes dont l'annotation a été revue selon le processus précédent au moins par deux personnes différentes. Le corpus Silver est composé des textes qui n'ont été relus qu'une seule fois.