Axe transversal. Érudition et numérique (production de données, éditions multimodales, exploration de corpus)

Le laboratoire, dans la diversité de ses spécialités (histoire, archéologie, littératures anciennes), s’est fortement impliqué dans le Digital turn pris par les Humanités.

Responsables : Grégory Combalbert & Marie-Agnès Lucas-Avenel

L’axe transversal « Érudition et numérique », mis en place en collaboration avec le pôle Document numérique (PDN) de la MRSH, a trois orientations : (1) poursuivre et approfondir la réflexion pour la création de nouveaux outils performants et selon les recommandations du FAIR, au service de la recherche pour l’édition de sources anciennes ; (2) intensifier la formation pluridisciplinaire des jeunes chercheurs par la prolongation du séminaire « Érudition et numérique » dans une démarche à la fois théorique, méthodologique et pratique ; (3) valoriser les résultats de la recherche par leur diffusion en ligne, selon les recommandations de l’OpenSource, en autorisant et développant le libre accès par le plus grand nombre.

1. Le contexte et les enjeux

Les compétences du CRAHAM sont reconnues depuis plusieurs années dans le domaine du traitement numérique des sources anciennes. Réalisant des éditions critiques multisupports et multimodales, des bibliothèques virtuelles ou des bases de données, il a mené des travaux dans des programmes de recherche variés, labellisés au sein de la TGIR Huma-Num (CAHIER, COSME, MASA), ou au sein de l’Équipex Biblissima, dont il a été l’un des membres fondateurs. Il est porteur de projets nationaux, européens ou régionaux (en cours : ANR Actépi ou terminés récemment : programme Vexicaen, RIN Norécrit), ou s’inscrit dans des programmes de même échelle en tant que partenaire avec d’autres institutions, laboratoires ou équipes de recherches (Équipex+ Biblissima+, GDRI Zoomathia, RIN Cornum, RIN Normonde, projet inter-MSH e-CartaeLab impliquant plusieurs chercheurs du CRAHAM). Il participe activement aux réflexions qui assurent la réalisation de ces programmes en collaboration avec le PDN et les Presses uiversitaires de Caen (PUC).

Ces programmes, répartis dans les trois thèmes de l’actuel contrat, sont menés par un nombre important de membres du CRAHAM. Les recherches qui y sont menées concernent les différentes disciplines du laboratoire (archéologie, histoire, littératures anciennes et ecdotique) et utilisent des méthodes et des outils identiques ou comparables et interopérables. L’axe se veut donc un lieu de réflexion interdisciplinaire sur ces outils, les méthodes et les enjeux de leur utilisation. Cette réflexion, conduite dans le contexte du développement des humanités numériques, implique une démarche à la fois empirique et heuristique et peut permettre de faciliter ou de consolider les recherches sur l’objet d’étude, souvent aussi d’en initier de nouvelles, enfin d’assurer la meilleure diffusion possible des résultats auprès de publics larges et variés.

2. Programmes, réalisations et outils en collaboration avec le PDN

Tous les programmes et outils mentionnés ci-dessous sont conduits dès le début en très étroite collaboration avec le PDN. La réflexion sur le développement des solutions nécessaires au traitement des sources sera poursuivie. Les chercheurs de l’équipe continueront à travailler de manière active aux côtés du PDN pour la construction des outils et les environnements génériques et mutualisables au plus près des besoins des chercheurs, à partir des données produites par les chercheurs et grâce à des tests ou expérimentations menés collectivement.

De nombreux programmes inscrits dans le précédent quinquennal sont des programmes au long cours, qui sont poursuivis dans le nouveau contrat. D’autres sont des projets émergents. L’ensemble nécessite des financements, notamment en personnel. Un grand nombre de ceux qui sont déjà engagés a reçu des soutiens régionaux et nationaux.

Certains programmes ont été conçus de manière transversale, sans préjuger de la nature ou du genre des sources étudiées, et reposent sur la mutualisation des données et des outils conçus au sein de ces programmes, pour permettre des interrogations croisées sur différents types de textes ou corpus de textes.

D’autres visent à l’édition, à l’annotation et à la valorisation, par une publication en ligne ou multimodale, de sources dont la spécificité a amené à construire des environnements de travail adaptés (sources documentaires, littéraires, archéologiques et monétaires…), enrichis d’outils spécifiques construits par le PDN avec les chercheurs du CRAHAM, mais réutilisables pour des sources du même genre et accompagnés de leur documentation : celle-ci est consultable et téléchargeable sur le site du PDN. Les résultats aboutissent à la constitution de bases de données, de bibliothèques virtuelles ou d’éditions critiques, dont certaines sont multimodales.

Projets transversaux

Les Thesauri – Bases d’autorités du Pôle du Document Numérique : dans le cadre de l’Equipex Biblissima, le CRAHAM et le PDN ont mené une réflexion sur l’encodage en XML de bases de connaissances partagées pouvant servir à l’indexation. Grâce à l’environnement de travail créé par le PDN, les chercheurs créent et enrichissent des notices de noms de personnes, lieux, œuvres, noms de saints, pièces liturgiques, noms de poissons. Ces bases sont mises en ligne au printemps 2022.

  • Un nouveau thesaurus « matière », formé à partir de l’édition des textes de coutume et visant à regrouper l’ensemble du vocabulaire de ces textes, est à l’étude avec le soutien de Biblissima+.
  • e-personae : Le projet e-Personae vise à créer un environnement de travail complet adapté à la prosopographie afin, d’une part, d’accompagner le chercheur dans la constitution et l’exploitation de corpus de notices et, d’autre part, d’en permettre une publication bimodale (numérique et papier) au sein d’une collection dédiée aux Presses universitaires de Caen.

Le RIN Norécrit (2018-2021) a atteint plusieurs objectifs : proposer une édition numérique de sources normandes variées (actes épiscopaux, coutumiers, textes littéraires et liturgiques) et reconstituer des patrimoines écrits en partie disparus, permettant ainsi de mieux comprendre les modalités de production et d’usage de l’écrit dans la Normandie médiévale. Les éditions sont consultables sur le site dédié. La diversité des textes étudiés a fait l’objet d’une réflexion commune visant à développer un environnement modulaire en XML-TEI pour l’édition des sources anciennes, quelle que soit leur nature, afin d’alimenter un portail numérique commun : par exemple la tradition du texte, l’apparat critique, l’apparat génétique, etc. Ce module est potentiellement « factorisable » entre les différents types de sources si nécessaire. Cet outil permettra à terme une diffusion plus large de l’édition critique numérique dans la communauté scientifique, notamment au bénéfice de doctorants et d’étudiants de master. La conception de l’outil a été prise en charge par le PDN, avec le concours des chercheurs du CRAHAM et du GRHiS (Rouen) qui ont fourni toutes les données encodées nécessaires à l’expérimentation de l’outil, à laquelle ils ont largement participé. Cette réflexion est désormais poursuivie à plus grande échelle dans le cadre de l’Equipex+ Biblissima+.

L’Équipex+ « Biblissima+ : Observatoire des cultures écrites, de l’argile à l’imprimé » (2021-2029) : le CRAHAM est l’une des 15 équipes fondatrices de Biblissima+, infrastructure numérique multipolaire de recherche fondamentale et de service portée par le Campus Condorcet et consacrée à l’histoire de la transmission des textes anciens, inscrits sur tous supports, de l’Antiquité à la Renaissance en Orient comme en Occident. Le CRAHAM s’est engagé (1) à alimenter les référentiels Biblissima (personnes, lieux, oeuvres), au fur et à mesure de l’enrichissement des Thesauri et de l’étude des corpus monétaires, et (2) à participer activement aux travaux du cluster 5, pour la constitution d’un laboratoire d’édition et d’annotation scientifique de textes en TEI, en fournissant des textes variés encodés en TEI (textes documentaires, textes de la pratique, œuvres historiographiques, encyclopédiques, liturgiques, hagiographiques, poétiques). Ce cluster, coordonné par la MRSH avec l’aide de l’IRHT et du CESR de Tours, rassemble aussi des chercheurs d’HISoMA, du CIHAM ou encore du CJM et permettra de construire au niveau national un équipement structurant pour l’édition de textes anciens en TEI en s’appuyant sur les travaux des meilleurs spécialistes français et étrangers dans le domaine.

La Bibliothèque virtuelle du Mont Saint-Michel (V2) (https://emmsm.unicaen.fr/emmsm/bvmsm/accueil.html) donne accès à la collection de manuscrits et de volumes imprimés de l’ancienne abbaye du Mont Saint-Michel. À la fois catalogue numérique et réservoir de fac-similés, elle permet de rassembler et d’interroger des volumes dispersés dans plusieurs bibliothèques ou institutions de conservation. Cette base continue d’être enrichie au fur et à mesure de l’encodage plus fin des fiches catalographiques des manuscrits et imprimés. On prévoit également l’enrichissement des notices des manuscrits avec les résultats obtenus par les recherches menées sur les encres et les pigments par le Centre de recherche sur la conservation (CRC).

Le programme Ex monasterio Sancti Michaelis a été construit autour de la collection de manuscrits et d’imprimés en provenance de l’abbaye du Mont Saint-Michel conservée à Avranches. Il assure la mise en place d’un dispositif d’édition numérique, hébergé sur les serveurs de l’université de Caen Normandie, afin de réunir et mettre à la disposition des chercheurs et du public les documents utiles à l’histoire de la bibliothèque du Mont Saint-Michel : en plus des inventaires déjà publiés sur le site de Thecae, ont ainsi été publiés au printemps 2021, sur le portail Norécrit, des textes hagiographiques et liturgiques ainsi que des compilations médiévales : la collection mariale du manuscrit (montois) Vaticano, BAV, Vat. lat. 9668 et le corpus astronomique du manuscrit Avranches BM 235.

Sources documentaires, administratives et normatives

SCRIPTA (https://mrsh.unicaen.fr/scripta/), Site Caennais de Recherche Informatique et de Publication des Textes Anciens, est une base de données des chartes normandes des Xe-XIIIesiècles. Une prochaine étape prévoit une nouvelle version enrichie en XML-TEI avec le nouvel outil de mise en ligne de corpus TEI (MaX) actuellement en cours de développement à la MRSH de Caen. Cet enrichissement profitera aussi de l’interopérabilité entre les actes des évêques normands publiés dans e-Cartae et la base D’autres développements ultérieurs vont accompagner le projet SCRIPTA : index partagés entre différents corpus (les thesauri), intégration d’images numériques de chartes et de documents originaux (financement du consortium COSME), en liaison avec plusieurs centres d’archives en Normandie, en particulier les Archives départementales de la Seine-Maritime.

e-Cartae est un outil d’édition critique et de publication multimodale (papier et numérique) de corpus de chartes médiévales incluant un environnement de travail sous XMLMind-XMLEditor, dont l’enrichissement se poursuit en fonction des besoins, une interface de consultation augmentée des corpus, qui bénéficiera prochainement du moteur d’affichage MaX, et une méthodologie d’encodage. Développé dans le cadre d’un programme au long cours du CRAHAM en partenariat avec le PDN, il est ou a été utilisé par sept équipes de recherches différentes, dans l’ANR ACTÉPI et le projet e-CartaeLab (inter-MSH) et le RIN NORÉCRIT. Les corpus édités à l’aide d’e-Cartae intègrent la collection e-Cartae des Presses universitaires de Caen. Les actes des évêques d’Évreux (XIe siècle-1223) ont déjà été publiés et plusieurs autres corpus d’actes sont actuellement en cours d’édition ou de finalisation. Dans le cadre du quinquennal, on encouragera les travaux d’éditions critiques de sources diplomatiques médiévales, notamment par des travaux de Master et de doctorats.

Le projet ACTÉPI (ANR 2019-2023) a pour ambition le rassemblement, l’édition critique multimodale (numérique et papier), la valorisation et l’exploitation des actes écrits émis au nom des évêques dans une vingtaine de diocèses du nord de la France, entre le XIeet le XIIIe siècle. Le projet exploite l’outil e-cartae et permet l’accroissement des notices des thesauri noms de personnes et de lieux

e-CartaeLab (AAP inter-MSH 2020) est un nouvel outil complémentaire d’e-Cartae. Il s’agit d’un laboratoire numérique de textes, dont la réalisation est actuellement en cours. Cet outil, développé dans le cadre du projet homonyme, financé par le réseau inter-MSH, est une sorte de paillasse numérique, qui permettra le travail collaboratif en ligne de plusieurs éditeurs sur un même corpus, la visualisation en ligne par l’éditeur de son propre corpus avant publication (pour faciliter le travail de correction), ainsi que la consultation et l’interrogation transversales de tous les corpus faisant l’objet ou ayant fait l’objet d’une description au moins partielle en XML-TEI à l’aide de l’environnement d’e-Cartae en respectant une normalisation minimale préalablement fixée. Le moteur de recherche sera augmenté par rapport au site de consultation actuel des actes des évêques d’Évreux. Ce laboratoire est enfin destiné à valoriser plus rapidement la recherche en train de se faire autour des actes diplomatiques, indépendamment du processus d’édition matérielle des corpus d’actes. Cet outil est actuellement en cours de développement par le PDN en partenariat avec les chercheurs du CRAHAM et du CEPAM (Nice) impliqués dans le projet. e-CartaeLab voit aussi l’élargissement des corpus édités au moyen d’e-Cartae, au-delà des actes épiscopaux : plusieurs chartriers monastiques et cathédraux, normands et provençaux, sont actuellement en cours d’édition.

Sources littéraires, encyclopédiques et liturgiques

Le projet Ichtya vise à la mise en ligne progressive d’un corpus de traités latins d’ichtyologie, permettant d’apprécier le contenu du savoir zoologique véhiculé pendant l’Antiquité, le Moyen Âge et jusqu’au XVIesiècle. Il comprend des éditions critiques double support (papier et numérique) de traités latins d’icthyologie, la bibliothèque Ichtya, base de données rassemblant des textes latins, consacrés à l’ichtyologie et le thesaurus des poissons et animaux aquatiques (https://ichtya.unicaen.fr/lab/thesaurus/). Pendant ce quinquennal on donnera accès aux livres 6 et 7 du De natura rerum de Thomas de Cantimpré et à leur traduction française, ainsi qu’au livre 24 du De animalibus d’Albert le Grand. En outre la bibliographie Zotero, librement accessible, continue d’être régulièrement alimentée.

Le programme Dyrin a pour objet d’étude la connaissance de la faune du Grand Nord (régions arctique et subarctique), de l’époque carolingienne au XVIesiècle, à travers la transmission des savoirs zoologiques (encyclopédies, etc.) et des pratiques humaines (chasse, pêche, commerce des matières animales). Le projet vise à constituer une base bibliographique (sources, études, iconographie) relative à cette faune (ours polaire, morse, narval, baleines et autres animaux et monstres marins, mais aussi faucons gerfauts, rennes, élans, petits animaux à fourrure, etc.).

Le projet Geoffroi Malaterra consiste en la publication double support (papier et numérique) aux PUC de l’édition critique avec traduction française et commentaire scientifique de l’Histoire du Grand Comte Roger et de son frère Robert Guiscard. La réflexion a permis la construction d’un outil d’édition de source ancienne avec apparat critique.

Le projet Serlon de Bayeux vise à l’édition critique bimodale aux PUC des poèmes de Serlon de Bayeux avec une traduction trilingue (français, anglais et italien), réalisée à partir de l’ensemble de la tradition textuelle.

Sources archéologiques et monétaires

Le programme « Nummus » a pour but d’établir un inventaire des sources issues de chantiers archéologiques des périodes antique, médiévale et moderne, mises au jour dans un espace géographique centré sur l’actuelle Normandie, tout en s’ouvrant à d’autres régions du Nord de la France. Nummus est une base de données, conçue comme un outil innovant et évolutif, facilitant le traitement, la conservation, l’accès et l’interopérabilité des données de la recherche, en s’appuyant sur une structure XML EAD permettant l’encodage de chaque degré d’information et respectant les standards de la numismatique et de l’édition numérique. La conversion de la base en XML-TEI permettra d’affiner la description des monnaies et facilitera son interopérabilité avec des programmes nationaux (BNF) et internationaux (Nomisma.org) et l’European Coin Find Network (ECFN). Elle sera en outre enrichie de données archéologiques et documentaires encore dispersées et profitera de la mise en place d’un réseau de correspondants à l’échelle nationale – notamment dans la moitié nord de la France – et internationale (Allemagne, Danemark, etc.).

ITAM (RIN CORNUM) a pour but de dresser un inventaire des trouvailles de monnaies d’argent frappées du IVeau VIe siècle apr. J.-C. et découvertes dans les provinces nord-continentales de l’Empire romain (France au nord de la Loire, Belgique, Luxembourg, Pays-Bas et Allemagne jusqu’au Rhin). Ce corpus fera l’objet d’une édition numérique.

Le projet ARCHEAN (RIN CORNUM) vise à publier en ligne et pour la première fois les études archéologiques réalisées sur le site de Trainecourt, à Grentheville dans le Calvados. Le but est de rendre compte de l’évolution du travail scientifique, de la proposition initiale à la proposition vérifiée. Ce projet doit permettre aux archéologues d’acquérir une méthodologie et un outillage numérique de haut niveau, permettant la production de bases de connaissances interopérables et la valorisation large et ouverte des travaux scientifiques. Dans la poursuite du projet, on programme l’élaboration d’une ontologie adossée au thésaurus Pactols comprenant autant de corpus de mots-clés que de catégories d’objets indexés (structures, mobiliers, phases d’occupation, etc.), permettant l’interrogation de la base de documents, en tant que support de l’analyse scientifique. Cette base est destinée aux producteurs des données (les archéologues et autres spécialistes impliqués dans le versant archéologique du projet) et au grand public.

Dans le cadre du projet Archéomed, on continue d’indexer, sur la base de la revue Archéologie médiévale, les résultats de l’archéologie médiévale à partir du thésaurus Pactols et de les diffuser dans un format ouvert et interopérable. Ce travail est mené avec le soutien technique de l’infrastructure Métopes, du GDR Frantiq(Pactols) et OpenÉdition.

Les projets suivants sont en cours d’étude :

  • L’édition numérique du corpus des annales normandes médiévales (Saint-Wandrille, Le Bec, Jumièges).
  • Étude de faisabilité de la création, sur le modèle de la BVMSM, d’une plate-forme de bibliothèques virtuelles normandes (PBVM), bénédictines et cisterciennes, visant à assurer la mise en ligne d’un catalogue commun et interopérable. On souhaite commencer par l’étude des bibliothèques monastiques de Fécamps, Jumièges et Saint-Évroult.
  • Étude de faisabilité de la création d’une bibliothèque numérique des sources littéraires des mondes normands médiévaux (BNMNM) : il s’agira d’une bibliothèque thématique sur le modèle de la bibliothèque Icthya, mais regroupant des œuvres littéraires (historiographiques, poétiques, récits de voyages…).
  • Étude de faisabilité de la création d’un portail des Mondes normands médiévaux, donnant accès à l’ensemble des sources outillées et mises en ligne, afin de les rendre interrogeables simultanément, en y associant les carnets de recherche des Mondes normands médiévaux et la revue électronique Tabularia.

3. Formation aux humanités numériques liées aux sciences de l’érudition

Le séminaire « Érudition et numérique » créé au début de l’actuel quinquennal est prolongé dans le prochain contrat, afin de poursuivre les efforts engagés pour informer sur les travaux en cours menés tant au CRAHAM, qu’au sein d’autres équipes, en particulier en partenariat avec les grandes infrastructures de recherches comme Huma-Num et Biblissima+, former les étudiants aux outils de la recherche et approfondir la réflexion épistémologique autour de l’édition multimodale d’œuvres et documents divers ou de créations d’outils et de bases de données adaptés. Les expériences acquises au cours du précédent quinquennal grâce aux programmes menés sur des types de sources de plus en plus variées appellent en effet à poursuivre la formation à la recherche dans ce domaine.

En outre, la création à l’université de Caen de la licence humanités numériques en 2017 et, plus largement en France, de licences et Masters en SHS intégrant une sensibilisation aux outils numériques, incitent à adapter la formation à la recherche pour répondre aux attentes de ces nouveaux profils d’étudiants susceptibles d’être intéressés par des recherches en humanités numériques pour la structuration de données dans les sciences de l’érudition. En outre, le séminaire, inscrit dans le précédent quinquennal dans la maquette du Master « Histoire », devient aussi un élément constitutif du Master « Métiers du livre et de l’édition ». Il est en outre inscrit au volet formation du cluster 5 de Biblissima+.

Enfin, dans le cadre du SIDS (Système d’Information Documentaire Spatialisé) « Tapisserie de Bayeux » élaboré par le Pôle Document numérique de la MRSH, le GREYC et le CERTIC, des enseignants-chercheurs du CRAHAM encadrent des travaux de recherche appliquée d’étudiants du master Histoire (parcours patrimoine). Ces derniers visent notamment à alimenter une base bibliographique, à indexer les « objets » représentés et à créer des annotations documentaires.

4. Diffusion des données et résultats de la recherche

L’ensemble de ces programmes est mené avec le souci d’en assurer une diffusion fiable et ouverte à tous, conformément à la Loi pour une République Numérique (7 octobre 2016) et au Plan National pour la Science Ouverte (4 juillet 2018). Le CRAHAM entend soutenir la mise en ligne de ses publications et continuer à développer des programmes qui permettent d’accéder aux données de la recherche, pour une acquisition plus active, plus dynamique et ainsi plus démocratique du savoir.

Le CRAHAM entend maintenir son adhésion à la TGIR Huma-Num et aux consortiums, dans la mesure où ceux-ci sont prolongés ou amenés à évoluer dans leur structuration.

Il souhaite aussi continuer à diffuser ses travaux auprès de ses partenaires, en particulier les équipes fondatrices de Biblissima+, celles qui s’y associeront par le biais de ses AAP, ainsi que les institutions de conservation dont le nombre augmente dans le cadre des nouveaux projets de recherche pour la numérisation de manuscrits, les trouvailles monétaires et les recherches archéologiques et documentaires liées à celles-ci, leur mise en ligne et leur analyse (fonds patrimoniaux des Bibliothèques municipales de Rouen et d’Alençon dans le cadre du projet PBVM ; mise en place d’un réseau de correspondants pour la numismatique…). De même, l’ANR Actépi et le projet e-CartaeLab favorisent l’existence d’un réseau national d’équipes de recherche travaillant sur la diplomatique médiévale et l’édition critique numérique des chartes. Ils permettent la diffusion d’outils et de méthodes mises en place en partenariat entre le CRAHAM et le PDN et la mise en commun de l’exploitation des données produites.