Rechercher des réponses ou parcourez notre base de connaissance
Projet Utrecht – Collection Port Royal des Champs
Mandat
Les archives d’Utrecht aux Pays-Bas ont fait appel aux Gardenotes pour transcrire le plus rigoureusement possible une centaine de pages provenant des manuscrits de l’abbaye de Port-Royal des Champs en France. Le but de ce projet est de tester un nouveau super modèle Transformer français de la coopérative Read-Coop. Les 100 pages transcrites seront évaluées d’abord en utilisant le modèle Titan 1, et ensuite en utilisant le nouveau modèle Transformer français. Le personnel de Read-Coop pourra ensuite analyser les résultats des deux modèles.
Règles de transcription
La transcription obtenue servira à tester deux modèles de Transkribus pour en vérifier leur performance. Des règles de transcription spécifiques doivent être suivies à cet effet.
Aucun balisage n’est requis dans ce projet sauf deux exceptions que vous trouverez plus bas. En général, si le modèle a généré une lettre ou un symbole correspondant au manuscrit, aucune intervention n’est nécessaire.
Plus précisément :
Abréviations : les abréviations sont transcrites en identifiant l’ensemble des lettres identifiables sur le manuscrit (exemple « pr. »).
Agglutinations / dissociations : nous laissons ce que le modèle a généré sans intervenir sur la liaison ou non de ces mots (exemple « le dit », « mondit », « tous jours », etc…).
Apostrophe : nous la transcrivons lorsqu’elle est présente. Nous n’intervenons pas lors de la présence ou l’absence d’une espace.
Casse (majuscule/minuscule) : nous ne faisons aucune intervention dans la mesure où le modèle a généré la bonne lettre.
Lettres en exposant : il n’est pas utile de mettre les lettres en exposant.
Rature : il n’est pas utile de raturer les mots lorsque ceux-ci sont rayés. Cependant, il faut s’assurer que les lettres raturées soient présentes dans la transcription.
Règles de balisage
Lettres superposées : il faut vérifier si le modèle a généré une lettre correspondant au manuscrit. Si ce n’est pas le cas, il faut faire la correction et mettre la balise Incertain [unclear] sur le mot.
Paraphe : le modèle génère le mot Paraphe sur cet élément. Il n’y a aucune intervention à faire.
Voici les deux balises qui sont nécessaires:
Incertain [unclear]
Cette balise servira à identifier les mots raturés dont certaines lettres sont illisibles. Elle servira également à enlever les lettres générées par le modèle qui ne sont pas présentes dans le manuscrit.
Exemple page 31, ligne 1-14
Le modèle a généré le texte suivant : ambitieux voudront
Il est demandé de transcrire « ambitieu » en enlevant la lettre « x » puisqu’elle n’est pas visible sur le manuscrit et d’ajouter la balise Incertain [unclear] sur le mot.
On note que le modèle n’a rien généré pour la rature. Dans le contexte du test, la rature n’est pas utile. Nous ne faisons aucune autre correction sur la ligne.
Sic [sic]
Cette balise servira à identifier une lettre générée dans un mot par le modèle et qui ne correspond pas à un mot de la langue française.
Exemple page 6, ligne 2-35
Le modèle a généré le texte suivant : Pour les Laigues
Le modèle a bien transcrit le « g » de Laigues même si nous savons que cela devrait être un « q » car le mot français est Laiques. Il est demandé de mettre la balise [sic] sur la lettre « g » de Laigues et de mettre la lettre « q » dans l’attribut correction de la balise.
Foire aux questions
Voici les réponses que nous avons reçues de M. Bram Jacobs, responsable de ce projet, aux questions posées.
Agglutinations / dissociations
Exemple page 33, ligne 2-8
Le modèle a généré le texte suivant : rachetes par Mond.
Question
Ici, devrions-nous laisser tel quel? Dans nos règles, nous inscririons « Mon d. » en laissant une espace entre « Mon » et « d. ».
Réponse
Laissez tel quel.
Exemple page 39, ligne 1-9
Le modèle a généré le texte suivant : a quoy les dits Sieurs
Question
Nos règles de transcription nous demandent d’enlever l’espace pour lesdits? Devons-nous le faire?
Réponse
Conservez l’espace.
Exemple page 85, ligne 2-21
Le modèle a généré le texte suivant : a la qu’elle on peut bien
Question
Nous avons ici un doublé, c’est-à-dire un mot séparé auquel on a mis un apostrophe. Nos règles nous demanderaient de mettre la balise [sic] en laissant le texte tel quel. Le modèle transcrit bien les lettres mais ce n’est pas la manière de l’écrire en français. Devrions-nous le corriger pour « laquelle » ?
Réponse
Conservez comme c’est transcrit, c’est-à-dire « la qu’elle ».
i / j
Exemple page 28, ligne 1-4
Le modèle a généré le texte suivant : et à l’information de commodo, vel incommodo
Question
Ici, les « j » sont transcrits par des « i », comme nous le faisons selon nos règles. On les laisse ainsi?
Réponse
Laissez le « i » comme le modèle l’a transcrit/selon vos règles.
Lettre barrée
Exemple page 33, ligne 2-14
Le modèle a généré le texte suivant : sort principal de qqqqe de 475 tt derente
Question
Ici, on a une lettre barrée, soit le « p » qui a été transcrit par « qqqqe ». Devons-nous simplement mettre la balise Incertain [unclear] sur ces lettres, ou mettre la lettre « p » ?
Réponse
Mettez la lettre « p ».
Lettre superposée
Exemple page 27, ligne 1-12
Le modèle a généré le texte suivant : qu’il
Question
Nous avons transcrit « que‘ils » alors que le sens de la phrase nous informe que c’est le mot « que » qui est bon et que le scripteur a remis un « e » par dessus le « i » initial. Est-ce la transcription que vous recherchez.
Réponse
Je pense que « qu’ils » sera mieux pour les tests.
Aux transcripteurs : Nous transcrivons « qu’ils » comme demandé mais nous mettrons la balise [sic] sur « qu‘ils » en indiquant « que » dans l’attribut correction de la balise.
Lettres raturées et une lettre en interligne
Exemple page 6, ligne 2-66
Le modèle a généré le texte suivant : participärent
Question
Est-ce cela que vous voulez avec la balise Incertain [unclear] sous le mot ?
Réponse
Oui, en effet, cette correction est meilleure!
Aux transcripteurs : Nous transcrivons « participassent » en mettant la balise [sic] sur le mot au complet en indiquant « participe » dans l’attribut correction. Notez que le « e » en interligne n’est pas ajouté dans la transcription puisque le modèle ne pouvait générer cette lettre.