Forskere bruker AI for å digitalisere Vatikanets hemmelige arkiv

Hjem til rundt 35 000 bind og med over 80 km bokhyllefylte hyller, er Vatikanets hemmelige arkiv hjem til en av menneskehetens viktigste historiske samlinger, med det eldste manuskriptet fra slutten av 800-tallet. Problemet er at det ikke kan nås praktisk talt, og er bare tilgjengelig for akademikere som kan flytte til hovedkvarteret til den katolske kirken.

En gruppe forskere fra Roma Tre University og La Sapienza University, begge i hovedstaden i Italia, ønsker å endre det. De utvikler et prosjekt som heter In Codice Ratio, som har som mål å automatisk transkribere alt innhold fra arkivene som publikum kan få tilgang til.

For dette formål jobber teamet med en kombinasjon av kunstig intelligens og optisk karaktergjenkjenning (OCR). De bruker en ny teknikk for å kunne bruke gjeldende OCR-kunnskap til håndskrevne tekster ved å dele ordene i små biter som er avhengig av mengden blekk som brukes i regionen. Dette lar deg skille hver bokstav individuelt og gjøre papiret om til et digitalt dokument.

Tekstskjermbilde.

Til venstre den håndskrevne teksten; i midten, det rette ordet; og til høyre, hva programmet har identifisert.

Den kunstige intelligensopplæringen som var ansvarlig for å gjenkjenne disse tekstbitene som bokstaver i det latinske alfabetet, ble gjort av italienske elever på videregående skoler. De besvarte flere spørreskjemaer og identifiserte hvilke bilder som representerte de ønskede bokstavene.

Resultatet av alt dette ble satt på prøve da teamet foretok testene ved å bruke rundt 18 000 sider med brev lagret i arkivet. Ifølge forskerne klarte programmet å identifisere 96% av bokstavene, med en tredjedel av ordene som inneholdt minst en feil karakter. Fordi denne teknologien alltid får vite at feilene blir identifisert, vil antallet bare sannsynligvis forbedre seg ved fremtidige forsøk.

På nettstedet In Codice Ray kan du se alle artikler som er publisert med søkeresultatene.

Forskere bruker AI til å skanne Vatikanets hemmelige filer via TecMundo