Vai al contenuto

Analisi del layout documentale

DESCRIZIONE RICERCA

Il nostro gruppo di ricerca unisce le competenze di studiosi di Computer Vision e di Storia della trasmissione dei testi per esplorare l’analisi del layout dei manoscritti latini. Alla base del progetto vi sono innovative sperimentazioni di un approccio di classificazione few-shot learning, basato sulle categorie semantiche di testo, paratesto, decorazione, sommari e titoli, con l’obiettivo di riconoscere ed estrarre le diverse classi con sempre maggiore precisione e permettere l’analisi di grandi quantità di materiale paratestuale nel suo senso più ampio.

La nostra sperimentazione collaborativa ha preso avvio dall’analisi dei manoscritti biblici, per i quali è stato sviluppato un nuovo dataset open access, che sarà ampliato ed esteso ai testi a stampa nell’ambito del progetto PRIN 2022 PNRR ‘DOBiPS – Data Oriented Biblical Paratext Studies’. Il finanziamento ministeriale permetterà la collaborazione tra i membri dell’Unità di ricerca di Udine (PI Emanuela Colombi; Gian Luca Foresti; Laura Pani; Laura Casella) e dell’Università di Cassino e del Lazio meridionale (Roberta Casavecchia; Alessandra Peri; Laboratorio LIBeR)

Ulteriori ampliamenti del dataset e implementazioni dell’algoritmo few-shot learning attualmente in corso d’opera sono dedicati a scritture in caratteri non latini (greco e arabo) e a manoscritti latini dal layout irregolare e personalizzato come quelli delle raccolte di sermoni, in collaborazione con il progetto PASSIM (Patristic Sermons in the Middle Ages) della Radboud Universiteit Nijmegen (PI Dr. Shari Boodts).

Strumenti e tecnologie:

  • Algoritmi di few-shot learning e classificazione semantica
  • Analisi automatica di layout e paratesto (testo, decorazioni, titoli, sommari)
  • Sviluppo e ampliamento di dataset open access di manoscritti
  • Supporto di Computer Vision e tecniche di pre-elaborazione delle immagini

POSSIBILI COINVOLGIMENTI NEL PROGETTO

  • Analisi e annotazione di manoscritti per l’ampliamento del dataset
  • Sperimentazione e testing di algoritmi di few-shot learning
  • Studio comparativo dei layout di manoscritti latini, greci e arabi

PROJECT TEAM