Nell’intelligenza artificiale la chiave per digitalizzare il patrimonio gli Archivi segreti vaticani

I software OCR sono ottimi per trascrivere in digitale i testi stampati, ma ancora poco efficaci con i manoscritti. Un articolo dell’Atlantic, tradotto su Internazionale, descrive i risultati di un progetto che sembra avere creato i presupposti per superare questo ostacolo

Su Internazionale è stata pubblicata la traduzione in italiano di un articolo a firma di Sam Kean, pubblicato dalla testata statunitense The Atlantic, per descrivere il progetto di intelligenza artificiale col quale si sta provando ad automatizzare la digitalizzazione dei manoscritti custoditi presso l’Archivio segreto vaticano. Circa 85 chilometri di scaffali, si legge nell’articolo, contenenti documenti che risalgono a oltre dodici secoli fa, tra i quali “gemme come la bolla papale di scomunica di Martin Lutero e la richiesta d’aiuto che Maria Stuarda inviò a papa Sisto V prima di essere giustiziata”. Ad oggi, solo una minima  parte di questo patrimonio librario di enorme rilevanza è stata digitalizzata, e sono ancora di meno le pagine trascritte in testo informatico, pertanto navigabili con i più comuni strumenti di ricerca,

All’origine di ciò, le difficoltà riscontrate fin qui nel tentativo di utilizzare i normali software di riconoscimento ottico per analizzare i testi e tradurli in contenuti digitali all’atto della scansione delle pagine. Come si apprende dall’articolo, questo tipo di programmi lavora di solito scomponendo le parola in una serie di immagini, ciascuna corrispondente ad un singolo carattere, esaminando gli spazi tra le diverse lettere per riuscire a distinguere e creare le immagini. Quindi, con un secondo meccanismo, si passa dal confronto tra l’immagine realizzata e un archivio di caratteri per individuare, con il minimo margine di errore, la lettere corrispondente e realizzare la trascrizione informatica. Con i manoscritti contenuti nell’Archivio segreto vaticano, e più in generale con la grandissima maggioranza delle opere scritte a mano, tale approccio diventa però molto fallibile perché di norma non esistono veri e propri spazi vuoti tra le lettere, essendo queste le une legate alle altre, in una forma di scrittura fluida e continua.

Per ovviare a ciò, un gruppo ricercatori ha promosso un nuovo progetto che ha portato alla realizzazione del programma “In Codice Ratio”. Grazie a questo strumento, e al prezioso aiuto di un gruppo di studenti liceali, presto si potrebbe arrivare ad una cospicua e veloce trascrizione in digitale dei volumi custoditi nell’archivio vaticano e di tante altre collezioni di manoscritti fin qui rimaste escluse dalle sempre più frequenti iniziative di digitalizzazione.

In Codice Ratio - si legge nell’articolo dell’Atlantic tradotto su Internazionale - (propone) un nuovo approccio al riconoscimento ottico di testi manoscritti (...) grazie a un’innovazione chiamata scomposizione a mosaico. Questo processo (...) separa le parole non in lettere ma in segmenti più simili a tratti singoli di penna. L’ocr lo fa dividendo ogni parola in una serie di strisce verticali e orizzontali, cercando le porzioni più sottili, in cui si trova meno inchiostro (o meglio meno pixel). Il software poi incide le lettere in corrispondenza di queste giunzioni. Il risultato finale è una serie di tessere di mosaico.

Di per sé, le tessere di mosaico non sono particolarmente utili. Ma il software le può ricombinare in vari modi. Successivamente si preoccupa di capire quali gruppi di segni rappresentano delle vere lettere e quali no.

Per istruire il software i ricercatori si sono rivolti a una fonte d’aiuto insolita: gli studenti liceali. L’équipe ha arruolato studenti di 24 scuole italiane per costruire una base di dati che memorizza migliaia di esempi di caratteri estrapolati dai manoscritti. (...) Immagine dopo immagine, clic dopo clic, gli studenti hanno insegnato al software la forma di ciascuno dei 22 caratteri dell’alfabeto latino medievale

Per mettere a punto tutto il procedimento, il progetto si è dovuto avvalere dell’aiuto di esperti paleografi per la scelta degli esempi positivi e dei falsi amici. Agli studenti non erano richieste competenze di paleografia: dovevano solo trovare corrispondenze tra i diversi motivi visivi.

Terminato il compito degli studenti,il software ha cominciato ad assemblare porzioni di mosaico in modo indipendente, giudicando in autonomia quali lettere fossero presenti. Tuttavia assemblare tessere di mosaico, formando lettere plausibili, non è sufficiente. Il sistema ha bisogno di strumenti supplementari per sciogliere i nodi dei testi manoscritti…

Continua a leggere su Internazionale

Azioni sul documento

ultima modifica 2018-06-04T16:50:00+02:00
Questa pagina ti è stata utile?

Valuta il sito

Non hai trovato quello che cerchi ?

Piè di pagina