Onderzoekers gebruiken AI om de Vaticaanse geheime archieven te digitaliseren

De thuisbasis van ongeveer 35.000 volumes en met meer dan 80 km boekenplanken gevulde planken, de Vaticaanse geheime archieven zijn de thuisbasis van een van de belangrijkste historische collecties van de mensheid, met het oudste manuscript daterend uit de late 8e eeuw. Het probleem is dat het niet virtueel toegankelijk is, maar alleen beschikbaar is voor academici die naar het hoofdkantoor van de katholieke kerk kunnen verhuizen.

Een groep onderzoekers van de Roma Tre University en La Sapienza University, beide in de hoofdstad van Italië, willen daar verandering in brengen. Ze ontwikkelen een project genaamd In Codice Ratio, dat als doel heeft automatisch alle inhoud van de archieven te transcriberen die toegankelijk zijn voor het publiek.

Hiertoe werkt het team met een combinatie van kunstmatige intelligentie en optische karakterherkenning (OCR). Ze gebruiken een nieuwe techniek om de huidige OCR-kennis op handgeschreven teksten toe te passen door woorden in kleine stukjes te verdelen die afhankelijk zijn van de hoeveelheid inkt die in de regio wordt gebruikt. Hiermee kunt u elke letter afzonderlijk scheiden en van het papier een digitaal document maken.

Tekst screenshot.

Links de handgeschreven tekst; in het midden het juiste woord; en rechts, wat het programma heeft geïdentificeerd.

De kunstmatige intelligentie training die verantwoordelijk was voor het herkennen van deze stukjes tekst als letters van het Latijnse alfabet werd gedaan door Italiaanse middelbare scholieren. Ze beantwoordden verschillende vragenlijsten en identificeerden welke afbeeldingen de gewenste letters vertegenwoordigden.

Het resultaat van dit alles werd op de proef gesteld toen het team ze testte met behulp van ongeveer 18.000 pagina's brieven die in de archieven waren opgeslagen. Volgens de onderzoekers kon het programma 96% van de letters correct identificeren, waarbij een derde van de woorden ten minste één verkeerd karakter bevatte. Omdat deze technologie altijd leert dat de fouten worden geïdentificeerd, zullen deze cijfers waarschijnlijk alleen verbeteren bij toekomstige pogingen.

Op de In Codice Ray-website kunt u alle artikelen zien die zijn gepubliceerd met de zoekresultaten.

Onderzoekers gebruiken AI om Vaticaanse geheime bestanden te scannen via TecMundo