Il progetto Elaborazione Audio per il Patrimonio delle Lingue Minoritarie ha come obiettivo la preservazione, la tutela e la valorizzazione delle lingue di minoranza, considerate un patrimonio immateriale a rischio di estinzione. Particolare attenzione è dedicata alle isole linguistiche germaniche del Friuli Venezia Giulia, con la creazione di due archivi digitali: ArDLiS per il saurano parlato a Sauris e ArDLiT per il timavese parlato a Timau, sviluppati dal Laboratorio di Comunicazione e Linguistica del DIUM. Il progetto integra metodologie umanistiche e approcci informatici, sviluppando metodi di trascrizione e annotazione semiautomatici e automatici basati su corpus ridotti di dati trascritti manualmente. Tramite architetture neurali Transformer, come Wav2Vec2 e XLS-R pre-addestrati, è possibile costruire rappresentazioni generali del parlato multilingue e successivamente “fine-tunarle” (affinarle) per compiti specifici, come trascrizione automatica, traduzione o sintesi vocale. Nel caso del saurano, il corpus comprende circa due ore di parlato controllato da sei parlanti. I risultati ottenuti contribuiscono alla tutela delle lingue minoritarie, allo sviluppo di strumenti linguistici digitali e all’avanzamento della ricerca nel riconoscimento vocale automatico (ASR), inclusa la valutazione di corpus di piccole dimensioni e l’ottimizzazione degli iperparametri dei modelli.
Strumenti e tecnologie:
Architetture neurali Transformer per modelli multilingue di testo e parlato (Wav2Vec2, XLS-R)
API HuggingFace per integrazione e sperimentazione dei modelli
Metodi semiautomatici e automatici di trascrizione e annotazione del parlato
Corpus di parlato controllato per addestramento e validazione
Fine-tuning di modelli generali per compiti specifici (trascrizione, traduzione, sintesi vocale)
POSSIBILI COINVOLGIMENTI NEL PROGETTO
Analisi e trascrizione di registrazioni vocali per arricchire il corpus
Sperimentazione e ottimizzazione di modelli ASR
Creazione di strumenti e metodi per la valorizzazione digitale del patrimonio linguistico
Collaborazioni interdisciplinari tra linguistica, informatica e Digital Dumanities