Rechercher des réponses ou parcourez notre base de connaissance
Mandat du projet « Archives du fonds RG10 »
Organisation du travail pour la production de données de vérité terrain (Ground Truth) dans les archives du fonds RG10
Contexte et mandat
Le présent projet consiste à préparer des données (transcriptions) afin d’entraîner de bons modèles de reconnaissance des écritures manuscrites, adaptées aux registres de courrier du Département des Affaires indiennes, durant la période allant d’environ 1815 à environ 1920. Ce sont environ 700 000 à 800 000 pages qui seront transcrites grâce à ces données d’entraînement. Pour atteindre un taux d’erreur satisfaisant (qui permettra aux chercheurs de consulter de façon adéquate ces archives), il faut que les données soient représentatives du corpus et qu’elles soient aussi précises que possible (que le texte transcrit soit bien identifié dans l’image et que la transcription soit exacte). Des échantillonnages de pages ont été effectués pour identifier des données représentatives, qui serviront à améliorer les performances de modèles déjà existants dans Transkribus en les rendant plus adaptées aux archives à transcrire.
Ce projet est piloté par le Réseau Canadien de documentation pour la Recherche (RCDR/CRKN), un organisme sans but lucratif responsable du dépôt numérique fiable canadien (où sont déposées les revues scientifiques en libre accès) et des plateformes de diffusion du patrimoine documentaire canadien Notre mémoire en ligne (www.canadiana.ca) et Héritage (www.heritage.canadiana.ca).
La transcription des archives de RG10 est un projet pilote, qui vise à déterminer la faisabilité (en terme de coût, de temps et d’infrastructure) de transcrire toutes les archives détenues par le RCDR (plus de 70 000 000 d’images). Le fonds RG10 a été ciblé pour faire l’objet de ce projet pilote étant donné son grand intérêt dans la recherche sur les Peuples autochtones et les Premières Nations au Canada.
Nature du travail à effectuer
Le travail s’effectue grâce au logiciel Transkribus. Les transcripteurs peuvent utiliser, à leur guise, le logiciel Transkribus Expert Client ou le logiciel Transkribus Lite 2.0.
Pour éviter que des erreurs se retrouvent dans des données d’entraînement, il est préférable d’appliquer la balise « Unclear » à un mot difficile à déchiffrer. L’algorithme d’entraînement du modèle écartera alors la ligne dans laquelle le mot est balisé de ses données d’entraînement.
Il est important de transcrire le texte tel qu’il apparaît sur le document d’archive. Il faut notamment
- éviter d’ajouter des caractères (par exemple dans les abréviations)
- respecter la ponctuation
- respecter les majuscules et minuscules (dans la mesure où il est possible de faire la distinction).
Lorsqu’un mot est tronqué sur deux lignes, on n’emploie pas le trait d’union, mais plutôt le caractère « not sign », accessible dans la barre de mise en forme qui apparaît au bas de l’écran de Transkribus (voir schéma ci-bas).
Ces données serviront exclusivement à entraîner des modèles de HTR. Aucun balisage automatisé des données, par exemple, n’est entrevue. Il n’est donc pas utile de baliser les entités nommées ni l’apparence du texte. Il ne sert à rien, par exemple, d’indiquer les lettres en exposants, des passages soulignés, des ajouts, d’identifier l’ordre de lecture des lignes. Seul l’ajout de la balise « Unclear » peut être pertinent, lorsque nécessaire.
Échantillon du corpus à traiter
Dans un premier temps, le projet consiste à transcrire environ 600 pages de données GT. Ces pages sont réparties dans les trois principaux fichiers suivants. Le travail à effectuer pour chacun de ces fichiers est indiqués sur la ligne suivante :
- Échantillon RG10 (DocID : 1482943) : 141 pages
- Sample (DocID : 1406514) : 987 pages
- GT_duplicated (DocID : 1409376) : 3396 pages
Travail à effectuer
- Échantillon RG10 : corriger les 141 pages du document;
- Sample : corriger les 300 pages sélectionnées dans ce document. Ces pages sont indiquées dans le fichier GoogleSheet de suivi du travail (Voici le lien du document Drive sur lequel nous pourrons choisir des pages à faire :
https://docs.google.com/spreadsheets/d/1C0O3M4qhA7YwzbMELDX4N0UkxZNfDL4l2b7_ZE-KFfg/edit?usp=sharing); - GT_duplicated : finir la correction des 278 premières pages déjà vérifiées par Read-Coop.
Ordre du travail
Le travail se fera dans l’ordre suivant :
- Des membres de l’équipe des Gardenotes vérifieront la segmentation du texte (Layout) pour s’assurer que celle-ci est bien faire. À moins d’un problème majeur, l’ordre de lecture ne sera pas corrigé, car celui-ci ne change rien à l’entraînement des modèles de HTR.
- Lorsque la segmentation aura été vérifiée, la personne responsable de cette tâche indique la date du jour à côté de son nom dans la section « Date » du champ « Segmentation ».
- Lorsqu’une date apparaît dans la segmentation, une seconde personne pourra effectuer la révision de la transcription obtenue grâce à la transcription par l’algorithme « The Text Titan 1 » (de type « transformer » plutôt que « PyLaia »)
- Lorsque la vérification de la transcription est faite, la personne responsable de cette tâche indiquera le statut « Done » dans le menu défilant de l’interface Transkribus (voir l’image 1). La personne indique aussi la date du jour à côté de son nom dans la section « Date » du champ « Correction 1 (Done) ».
- Lorsque le correcteur ne parvient pas à déchiffrer un mot, il ajoute la balise « Unclear » à ce mot (voir l’image 2).
- Lorsqu’une date apparaît dans la section « Correction 1 (Done) », une personne différente de celle qui a accompli la tâche n° 2 effectuera une seconde révision de la transcription
- Lorsque cette seconde vérification est complétée, la personne responsable de cette tâche indiquera le statut « Final » dans le menu défilant de l’interface Transkribus (voir l’image 1). La personne indique aussi la date du jour à côté de son nom dans la section « Date » du champ « Correction 2 (Final) ».
- Le 2e correcteur portera une attention particulière aux mots balisés « Unclear » et, s’il parvient à les déchiffrer, s’assurera d’enlever cette balise (voir l’image 3).
- Lorsqu’une date apparaît dans la section « Correction 2 (Final) », une troisième personne effectuera la troisième révision de la transcription :
- Lorsque cette troisième vérification est complétée, la personne responsable de cette tâche indiquera le statut « Ground Truth » dans le menu défilant de l’interface Transkribus (voir l’image 1). La personne indique aussi la date du jour à côté de son nom dans la section « Date » du champ « Révision (Ground Truth) ».
- Le suivi se fait dans le fichier partagé GoogleSheet intitulé « Organisation RG10 » (Voici le lien du document Drive sur lequel nous pourrons choisir des pages à faire :
https://docs.google.com/spreadsheets/d/1C0O3M4qhA7YwzbMELDX4N0UkxZNfDL4l2b7_ZE-KFfg/edit?usp=sharing)- Avant de commencer, indiquez votre nom dans la rubrique « Faite par » pour informer les autres des tâches que vous comptez effectuer pour les différents documents.
- Lorsque la tâche est complétée, indiquez la date du jour dans le champ « Date » à côté de votre nom. La date du jour peut être appliquée de façon automatique en utilisant la commande clavier « CTRL+ ; » (ou « command+; » sur Mac).
- Le document « Organisation RG10 » se présente ainsi :
Manuscrits | Segmentation | Transcription 1 (Done) | Transcription 2 (Final) | Révision (GT) | Remarques | |||||
ID Document | Titre du document | Page numéro | Faite par | Date | Faite par | Date | Faite par | Date | Faite par | |
|
|
|
|
|
|
|
|
|
|
|
Image 1 : Changer le statut de la page en utilisant le menu défilant tel qu’indiqué ci-dessous :
- 1ère correction : passer au statut « Done »
- 2ème correction : passer au statut « Final »
- Dernière vérification : « Ground Truth »
Image 2 : Appliquer la balise « Unclear » à un mot indéchiffrable
- Surligner le mot avec la souris
- Soit cliquer sur la balise dans la fenêtre associée à l’onglet « Metadata », sous-onglet « Textual »
- Soit utiliser le clic droit de la souris, qui ouvre le menu des balises