Base de connaissance

Rechercher des réponses ou parcourez notre base de connaissance

Table des matières
< Tous les sujets
Imprimer

Projet Utrecht – Collection Port Royal des Champs

Mandat

Les archives d’Utrecht aux Pays-Bas ont fait appel aux Gardenotes pour transcrire le plus rigoureusement possible une centaine de pages provenant des manuscrits de l’abbaye de Port-Royal des Champs en France. Le but de ce projet est de tester un nouveau super modèle Transformer français de la coopérative Read-Coop. Les 100 pages transcrites seront évaluées d’abord en utilisant le modèle Titan 1, et ensuite en utilisant le nouveau modèle Transformer français. Le personnel de Read-Coop pourra ensuite analyser les résultats des deux modèles.

Règles de transcription

La transcription obtenue servira à tester deux modèles de Transkribus pour en vérifier leur performance. Des règles de transcription spécifiques doivent être suivies à cet effet.

Aucun balisage n’est requis dans ce projet sauf deux exceptions que vous trouverez plus bas. En général, si le modèle a généré une lettre ou un symbole correspondant au manuscrit, aucune intervention n’est nécessaire.

Plus précisément :

Abréviations : les abréviations sont transcrites en identifiant l’ensemble des lettres identifiables sur le manuscrit (exemple « pr. »).

Accents : lorsqu’il y a un accent sur une lettre dans le manuscrit et que Transkribus ne l’a pas généré, il faut ajouter cet accent selon votre bon jugement. Si Transkribus a généré un accent erroné (par exemple  « è » au lieu de « é »), if faut faire la correction. Si dans ce cas, l’accent n’est pas clair, il ne faut pas perdre de temps là-dessus et simplement laisser ce qui a été généré (par exemple un accent vers le haut sur la lettre « e » sur le manuscrit, ni à gauche, ni à droite). Évidemment, si il n’y a pas d’accent sur une lettre dans le manuscrit et que Transkribus en a ajouté un, il faut le retirer.

Agglutinations / dissociations : nous laissons ce que le modèle a généré sans intervenir sur la liaison ou non de ces mots (exemple « le dit », « mondit », « tous jours », etc…).

Apostille : nous devons garder ce que Transkribus a généré lorsqu’une apostille est placée dans le texte. S’il y a apostille et que Transkribus n’a rien généré, vérifiez si le logiciel a généré une ou des apostilles ailleurs sur cette page, et si oui, utilisez le même symbole d’apostille.

Apostrophe : nous la transcrivons lorsqu’elle est présente. Nous n’intervenons pas lors de la présence ou l’absence d’une espace. Il arrive parfois que le scripteur écrive un mot avec un seul signe qui pourrait être soit l’apostrophe, soit l’accent de la première lettre du mot (par exemple « cole »), où on ne voit pas clairement si le trait est entre les deux lettres ou un accent sur le « e »), il faut alors laisser ce que Transkribus a généré.

Casse (majuscule/minuscule) : nous ne faisons aucune intervention dans la mesure où le modèle a généré la bonne lettre.

Lettres en exposant : il n’est pas utile de mettre les lettres en exposant.

Livre tournois : lorsqu’il est clair que le scripteur a écrit ce qui ressemble à « lt » pour « livre tournois », il faut plutôt mettre le symbole ₶ (unicode  U+20B6).

Rature : il n’est pas utile de raturer les mots lorsque ceux-ci sont rayés. Cependant, il faut s’assurer que les lettres raturées soient présentes dans la transcription.

Troncature : Lorsqu’un mot est tronqué en fin de ligne (par exemple, « mai » à la fin de la ligne et « son » au début de la ligne suivante pour le mot « maison »), il faut suivre les instructions suivantes.

  • Il n’y a rien d’écrit dans le manuscrit et Transkribus a ajouté le symbole à la fin du mot, il n’y a rien a faire.
  • Il n’y a rien d’écrit dans le manuscrit et Transkribus n’a rien généré dans la transcription, il faut ajouter le symbole à la fin du mot.
  • Il y a un trait d’union – ou un signe égal = dans le manuscrit et Transkribus a ajouté le trait d’union ou le signe égal à la fin du mot, il n’y a rien à faire.
  • Il y a un trait d’union – ou un signe égal = dans le manuscrit et Transkribus n’a rien généré dans la transcription, il faut ajouter le trait d’union ou le signe égal à la fin du mot.
  • Si la deuxième partie du mot sur la ligne suivante commence par un trait d’union dans le manuscrit et que Transkribus l’a généré, il n’y a pas erreur. Il faut le laisser.
  • Si la deuxième partie du mot sur la ligne suivante commence par un trait d’union dans le manuscrit et que Transkribus ne l’a pas généré, on ne le rajoute pas.
 
Prenez note que les instructions ci-devant à propos des accents, de l’apostille et les troncatures s’appliquent évidemment que dans la mesure ou l’accent, l’apostille ou la troncature sont à l’intérieur de la mise en page de la ligne. S’ils sont à l’extérieur, il est tout à fait normal que Transkribus n’ait rien généré.
 

Règles de balisage

Lettres superposées : il faut vérifier si le modèle a généré une lettre correspondant au manuscrit. Si ce n’est pas le cas, il faut faire la correction et mettre la balise Incertain [unclear] sur le mot.

Paraphe : le modèle génère le mot Paraphe sur cet élément. Il n’y a aucune intervention à faire.

Voici les deux balises qui sont nécessaires:

Incertain [unclear]

Cette balise servira à identifier les mots raturés dont certaines lettres sont illisibles. Elle servira également à enlever les lettres générées par le modèle qui ne sont pas présentes dans le manuscrit.

Exemple page 31, ligne 1-14

Le modèle a généré le texte suivant : ambitieux voudront

Il est demandé de transcrire « ambitieu » en enlevant la lettre « x » puisqu’elle n’est pas visible sur le manuscrit et d’ajouter la balise Incertain [unclear] sur le mot.

On note que le modèle n’a rien généré pour la rature. Dans le contexte du test, la rature n’est pas utile. Nous ne faisons aucune autre correction sur la ligne.

Sic [sic]

Cette balise servira à identifier une lettre générée dans un mot par le modèle et qui ne correspond pas à un mot de la langue française.

Exemple page 6, ligne 2-35

Le modèle a généré le texte suivant : Pour les Laigues

Le modèle a bien transcrit le « g » de Laigues même si nous savons que cela devrait être un « q » car le mot français est « Laiques ». Il est demandé de mettre la balise [sic] sur la lettre « g » de Laigues et de mettre la lettre « q » dans l’attribut correction de la balise.

Foire aux questions

Voici les réponses que nous avons reçues de M. Bram Jacobs, responsable de ce projet, aux questions posées.

Agglutinations / dissociations

Exemple page 33, ligne 2-8

Le modèle a généré le texte suivant : rachetes par Mond.

Question

     Ici, devrions-nous laisser tel quel? Dans nos règles, nous inscririons « Mon d. » en laissant une espace entre « Mon » et « d. ».

Réponse

      Laissez tel quel.

Exemple page 39, ligne 1-9

Le modèle a généré le texte suivant : a quoy les dits Sieurs

Question

     Nos règles de transcription nous demandent d’enlever l’espace pour lesdits? Devons-nous le faire?

Réponse

     Conservez l’espace.

Exemple page 85, ligne 2-21

Le modèle a généré le texte suivant : a la qu’elle on peut bien

Question

     Nous avons ici un doublé, c’est-à-dire un mot séparé auquel on a mis une apostrophe. Nos règles nous demanderaient de mettre la balise [sic] en laissant le texte tel quel. Le modèle transcrit bien les lettres mais ce n’est pas la manière de l’écrire en français. Devrions-nous le corriger pour « laquelle » ?

Réponse

     Conservez comme c’est transcrit, c’est-à-dire « la qu’elle ».

i / j

Exemple page 28, ligne 1-4

Le modèle a généré le texte suivant : et à l’information de commodo, vel incommodo

Question

     Ici, les « j » sont transcrits par des « i », comme nous le faisons selon nos règles. On les laisse ainsi?

Réponse

     Laissez le « i » comme le modèle l’a transcrit/selon vos règles.

Lettre barrée

Exemple page 33, ligne 2-14

Le modèle a généré le texte suivant : sort principal de  qqqqe de 475 tt derente

Question

     Ici, on a une lettre barrée, soit le « p » qui a été transcrit par « qqqqe ». Devons-nous simplement mettre la balise Incertain [unclear] sur ces lettres, ou mettre la lettre « p » ?

Réponse

     Mettez la lettre « p ».

Lettre superposée

Exemple page 27, ligne 1-12

Le modèle a généré le texte suivant : qu’il

Question

     Nous avons transcrit « que‘ils » alors que le sens de la phrase nous informe que c’est le mot « que » qui est bon et que le scripteur a remis un « e » par dessus le « i » initial. Est-ce la transcription que vous recherchez.

Réponse

     Je pense que « qu’ils » sera mieux pour les tests.

Aux transcripteurs : Nous transcrivons « qu’ils » comme demandé mais nous mettrons la balise [sic] sur « qu‘ils » en indiquant « que » dans l’attribut correction de la balise.

Lettres raturées et une lettre en interligne

Exemple page 6, ligne 2-66

Le modèle a généré le texte suivant : participärent

Question

     Est-ce cela que vous voulez avec la balise Incertain [unclear] sous le mot ?

Réponse

     Oui, en effet, cette correction est meilleure!

Aux transcripteurs : Nous transcrivons « participassent » en mettant la balise [sic] sur le mot au complet en indiquant « participe » dans l’attribut correction. Notez que le « e » en interligne n’est pas ajouté dans la transcription puisque le modèle ne pouvait générer cette lettre.