Base de connaissance

Rechercher des réponses ou parcourez notre base de connaissance

Table des matières
< Tous les sujets
Imprimer

Projet Utrecht – Collection Port Royal des Champs

Mandat

Les archives d’Utrecht aux Pays-Bas ont fait appel aux Gardenotes pour transcrire le plus rigoureusement possible une centaine de pages provenant des manuscrits de l’abbaye de Port-Royal des Champs en France. Le but de ce projet est de tester un nouveau super modèle Transformer français de la coopérative Read-Coop. Les 100 pages transcrites seront évaluées d’abord en utilisant le modèle Titan 1, et ensuite en utilisant le nouveau modèle Transformer français. Le personnel de Read-Coop pourra ensuite analyser les résultats des deux modèles.

Règles de transcription

La transcription obtenue servira à tester deux modèles de Transkribus pour en vérifier leur performance. Des règles de transcription spécifiques doivent être suivies à cet effet.

Aucun balisage n’est requis dans ce projet sauf deux exceptions que vous trouverez plus bas. En général, si le modèle a généré une lettre ou un symbole correspondant au manuscrit, aucune intervention n’est nécessaire.

Plus précisément :

Abréviations : les abréviations sont transcrites en identifiant l’ensemble des lettres identifiables sur le manuscrit (exemple « pr. »).

Agglutinations / dissociations : nous laissons ce que le modèle a généré sans intervenir sur la liaison ou non de ces mots (exemple « le dit », « mondit », « tous jours », etc…).

Apostrophe : nous la transcrivons lorsqu’elle est présente. Nous n’intervenons pas lors de la présence ou l’absence d’une espace.

Casse (majuscule/minuscule) : nous ne faisons aucune intervention dans la mesure où le modèle a généré la bonne lettre.

Lettres en exposant : il n’est pas utile de mettre les lettres en exposant.

Rature : il n’est pas utile de raturer les mots lorsque ceux-ci sont rayés. Cependant, il faut s’assurer que les lettres raturées soient présentes dans la transcription.

Règles de balisage

Lettres superposées : il faut vérifier si le modèle a généré une lettre correspondant au manuscrit. Si ce n’est pas le cas, il faut faire la correction et mettre la balise Incertain [unclear] sur le mot.

Paraphe : le modèle génère le mot Paraphe sur cet élément. Il n’y a aucune intervention à faire.

Voici les deux balises qui sont nécessaires:

Incertain [unclear]

Cette balise servira à identifier les mots raturés dont certaines lettres sont illisibles. Elle servira également à enlever les lettres générées par le modèle qui ne sont pas présentes dans le manuscrit.

Exemple page 31, ligne 1-14

Le modèle a généré le texte suivant : ambitieux voudront

Il est demandé de transcrire « ambitieu » en enlevant la lettre « x » puisqu’elle n’est pas visible sur le manuscrit et d’ajouter la balise Incertain [unclear] sur le mot.

On note que le modèle n’a rien généré pour la rature. Dans le contexte du test, la rature n’est pas utile. Nous ne faisons aucune autre correction sur la ligne.

Sic [sic]

Cette balise servira à identifier une lettre générée dans un mot par le modèle et qui ne correspond pas à un mot de la langue française.

Exemple page 6, ligne 2-35

Le modèle a généré le texte suivant : Pour les Laigues

Le modèle a bien transcrit le « g » de Laigues même si nous savons que cela devrait être un « q » car le mot français est Laiques. Il est demandé de mettre la balise [sic] sur la lettre « g » de Laigues et de mettre la lettre « q » dans l’attribut correction de la balise.

Foire aux questions

Voici les réponses que nous avons reçues de M. Bram Jacobs, responsable de ce projet, aux questions posées.

Agglutinations / dissociations

Exemple page 33, ligne 2-8

Le modèle a généré le texte suivant : rachetes par Mond.

Question

     Ici, devrions-nous laisser tel quel? Dans nos règles, nous inscririons « Mon d. » en laissant une espace entre « Mon » et « d. ».

Réponse

      Laissez tel quel.

Exemple page 39, ligne 1-9

Le modèle a généré le texte suivant : a quoy les dits Sieurs

Question

     Nos règles de transcription nous demandent d’enlever l’espace pour lesdits? Devons-nous le faire?

Réponse

     Conservez l’espace.

Exemple page 85, ligne 2-21

Le modèle a généré le texte suivant : a la qu’elle on peut bien

Question

     Nous avons ici un doublé, c’est-à-dire un mot séparé auquel on a mis un apostrophe. Nos règles nous demanderaient de mettre la balise [sic] en laissant le texte tel quel. Le modèle transcrit bien les lettres mais ce n’est pas la manière de l’écrire en français. Devrions-nous le corriger pour « laquelle » ?

Réponse

     Conservez comme c’est transcrit, c’est-à-dire « la qu’elle ».

i / j

Exemple page 28, ligne 1-4

Le modèle a généré le texte suivant : et à l’information de commodo, vel incommodo

Question

     Ici, les « j » sont transcrits par des « i », comme nous le faisons selon nos règles. On les laisse ainsi?

Réponse

     Laissez le « i » comme le modèle l’a transcrit/selon vos règles.

Lettre barrée

Exemple page 33, ligne 2-14

Le modèle a généré le texte suivant : sort principal de  qqqqe de 475 tt derente

Question

     Ici, on a une lettre barrée, soit le « p » qui a été transcrit par « qqqqe ». Devons-nous simplement mettre la balise Incertain [unclear] sur ces lettres, ou mettre la lettre « p » ?

Réponse

     Mettez la lettre « p ».

Lettre superposée

Exemple page 27, ligne 1-12

Le modèle a généré le texte suivant : qu’il

Question

     Nous avons transcrit « que‘ils » alors que le sens de la phrase nous informe que c’est le mot « que » qui est bon et que le scripteur a remis un « e » par dessus le « i » initial. Est-ce la transcription que vous recherchez.

Réponse

     Je pense que « qu’ils » sera mieux pour les tests.

Aux transcripteurs : Nous transcrivons « qu’ils » comme demandé mais nous mettrons la balise [sic] sur « qu‘ils » en indiquant « que » dans l’attribut correction de la balise.

Lettres raturées et une lettre en interligne

Exemple page 6, ligne 2-66

Le modèle a généré le texte suivant : participärent

Question

     Est-ce cela que vous voulez avec la balise Incertain [unclear] sous le mot ?

Réponse

     Oui, en effet, cette correction est meilleure!

Aux transcripteurs : Nous transcrivons « participassent » en mettant la balise [sic] sur le mot au complet en indiquant « participe » dans l’attribut correction. Notez que le « e » en interligne n’est pas ajouté dans la transcription puisque le modèle ne pouvait générer cette lettre.