Photo fichier CegeSoma © CegeSoma/Archives de l'Etat

Le projet ADOCHS déjà à mi-parcours !

Le 1er novembre 2016, le CegeSoma lançait, aux côtés de la Bibliothèque royale de Belgique (KBR), de la VUB et de l'ULB, le projet ADOCHS consacré à l'amélioration du processus de contrôle de qualité des collections patrimoniales numérisées. Après deux années d'implication dans le projet au CegeSoma, Anne Chardonnens nous quitte pour rejoindre l'équipe de l'ULB. Nous vous proposons de revenir avec elle sur le travail accompli jusqu'à présent. 

Peux-tu te présenter en quelques mots ?

Je suis doctorante en Sciences et Technologies de l'Information et de la Communication à l'Université libre de Bruxelles. Avant de prendre part au projet ADOCHS, j'ai d'abord travaillé pendant près d'un an sur le projet MADDLAIN. Ce projet visait à améliorer l'accès numérique aux collections, en étudiant les comportements et besoins des utilisateurs des Archives de l'Etat, du CegeSoma, et de la Bibliothèque royale.

Que signifie ADOCHS ?

Il s'agit d'un acronyme pour Auditing Digitization Outputs in the Cultural Heritage Sector. L'objectif est de développer de nouvelles méthodes pour analyser et améliorer la qualité des métadonnées et des images, dans le cadre des processus de numérisation. Je me charge du volet dédié aux métadonnées, tandis qu'un doctorant en 'Digital Mathematics' s'intéresse aux images.

Le CegeSoma est l'un des partenaires du projet ADOCHS ; en quoi ce projet peut-il être utile au Centre ?

Les collections du CegeSoma sont documentées à l'aide de métadonnées descriptives. Ce sont ces 'données sur les données' qui permettent ensuite aux utilisateurs d'effectuer des recherches dans le catalogue en ligne Pallas. Ainsi, les métadonnées contenant des titres, légendes ou mots-clés vont par exemple pouvoir aider un utilisateur à trouver ou retrouver l'une des 300.000 photographies conservées par le Centre. Or, il s'avère que la qualité de ces métadonnées est très inégale. Comme nous l'avions expliqué, les mots-clés utilisés pour décrire les collections présentent différents types de problèmes. Le projet ADOCHS représente donc une opportunité pour prendre le temps d'identifier ces problèmes et tester de nouvelles solutions, en vue d'offrir un meilleur accès aux collections.

Est-ce que cela signifie que tu passes tes journées à rectifier des mots-clés comportant l'une ou l'autre faute de frappe ?

Corriger manuellement des métadonnées qui sont inexactes, incomplètes ou incohérentes est une tâche très chronophage. C'est un travail de fourmi et il faudrait plusieurs personnes se consacrant chaque jour exclusivement à cela pour obtenir des résultats significatifs.
À la place, je privilégie donc des méthodes permettant d'automatiser tout ou partie du processus. Le logiciel libre OpenRefine permet par exemple de repérer très facilement la présence de doublons, de champs vides, de termes similaires comportant seulement une légère variation orthographique, et d'ensuite traiter plusieurs milliers d'occurrences en un seul clic.

Tu vas maintenant rejoindre l'ULB (un autre partenaire du projet ADOCHS), après avoir travaillé pendant deux ans au CegeSoma. Quel bilan tires-tu à mi-parcours ?

Les premiers mois m'ont permis de mieux comprendre l'institution, sa mission, son histoire, ses collections et son fonctionnement. C'était un contexte particulier avec la récente intégration au sein des Archives de l'Etat, l'entrée en service d'un nouveau directeur, le départ d'un informaticien de longue date qui connaissait tous les “secrets” de la base de données du Centre, et enfin, la perspective de migration des données vers le nouveau système de gestion des collections des Archives de l'Etat. Outre cette meilleure connaissance du contexte dans lequel s'inscrit le projet, mon travail au coeur de l'institution m'a également permis de mieux saisir les enjeux liés à la qualité des métadonnées, ces dernières étant par exemple au coeur d'autres projets, tels que EHRI ou UGESCO.

Après avoir pris connaissance de l'état de l'art, des besoins de l'institution et de ses utilisateurs (cf. par exemple les besoins des chercheurs), et effectué quelques analyses préliminaires, j'ai décidé de resserrer le périmètre de ma recherche autour des données d'autorité concernant des personnes physiques.

Dans le cas du CegeSoma, on retrouve ainsi un nombre important de noms de personnes dans les mots-clés utilisés pour indexer les documents. Mon travail a principalement consisté à explorer comment l'on peut tirer parti du “Web de données liées” (Linked Open Data) pour désambiguïser ces noms de personnes, les lier à d'autres collections dans le monde ou les enrichir à l'aide d'éléments contextuels issus de bases de connaissances telles que Wikidata. Mais ce n'est pas terminé, c'est un chantier en cours…

Comment s'annonce la suite ?

Je bénéficie actuellement d'une bourse de recherche EHRI qui me permet de séjourner au CDEC (Fondazione Centro Di Documentazione Ebraica Contemporanea) à Milan. J'y effectue des tests pour voir dans quelle mesure on pourrait relier une partie des collections du CegeSoma aux leurs, par le biais de leur liste d'autorité Personnes. C'est très enthousiasmant et me laisse entrevoir de nouvelles possibilités ! Il reste bien sûr encore beaucoup à faire et il serait illusoire de croire que tout pourra être “nettoyé” (malheureusement, on ne peut déduire miraculeusement l'identité d'une personne dont seul le prénom a été encodé, sans date ni aucune autre information complémentaire), mais c'est passionnant de pouvoir analyser les possibilités et limites de nouveaux outils à l'aide de données empiriques, en sachant que cela pourra directement bénéficier au personnel et utilisateurs finaux.