Elaborazioni audio per il patrimonio delle lingue minoritarie

DESCRIZIONE RICERCA

Il progetto Elaborazione Audio per il Patrimonio delle Lingue Minoritarie ha come obiettivo la preservazione, la tutela e la valorizzazione delle lingue di minoranza, considerate un patrimonio immateriale a rischio di estinzione. Particolare attenzione è dedicata alle isole linguistiche germaniche del Friuli Venezia Giulia, con la creazione di due archivi digitali: ArDLiS per il saurano parlato a Sauris e ArDLiT per il timavese parlato a Timau, sviluppati dal Laboratorio di Comunicazione e Linguistica del DIUM.
Il progetto integra metodologie umanistiche e approcci informatici, sviluppando metodi di trascrizione e annotazione semiautomatici e automatici basati su corpus ridotti di dati trascritti manualmente. Tramite architetture neurali Transformer, come Wav2Vec2 e XLS-R pre-addestrati, è possibile costruire rappresentazioni generali del parlato multilingue e successivamente “fine-tunarle” (affinarle) per compiti specifici, come trascrizione automatica, traduzione o sintesi vocale. Nel caso del saurano, il corpus comprende circa due ore di parlato controllato da sei parlanti.
I risultati ottenuti contribuiscono alla tutela delle lingue minoritarie, allo sviluppo di strumenti linguistici digitali e all’avanzamento della ricerca nel riconoscimento vocale automatico (ASR), inclusa la valutazione di corpus di piccole dimensioni e l’ottimizzazione degli iperparametri dei modelli.

Strumenti e tecnologie:

Architetture neurali Transformer per modelli multilingue di testo e parlato (Wav2Vec2, XLS-R)
API HuggingFace per integrazione e sperimentazione dei modelli
Metodi semiautomatici e automatici di trascrizione e annotazione del parlato
Corpus di parlato controllato per addestramento e validazione
Fine-tuning di modelli generali per compiti specifici (trascrizione, traduzione, sintesi vocale)

POSSIBILI COINVOLGIMENTI NEL PROGETTO

Analisi e trascrizione di registrazioni vocali per arricchire il corpus
Sperimentazione e ottimizzazione di modelli ASR
Creazione di strumenti e metodi per la valorizzazione digitale del patrimonio linguistico
Collaborazioni interdisciplinari tra linguistica, informatica e Digital Dumanities

PROJECT TEAM

Raffaella Bombi

Francesco Costantini

Federico Fontana

Diego Sidraschi

Andrea Gulli

Francesco Zuin

Emanuela Li Destri