Intervista...

Carlo Eugeni

Insegnante di Francese presso la Facoltà di Lettere e Filosofia dell'Università di Macerata. È traduttore, interprete, sottotitolatore e respeaker professionista. Membro del Comitato scientifico dell’"International Seminar on Real-Time Intralingual Subtitling", nonché membro del Scientific Committee e dell’Education Committee dell'organizzazione internazionale di resocontisti Intersteno. È Accademico della multimedialità della scrittura e della comunicazione presso l’Accademia Aliprandi.

_________________________________________


1) Carlo Eugeni, innanzitutto grazie per la tua disponibilità nel sottoporti a questa intervista in cui ti do del “Tu” come tu stesso mi hai richiesto.  Parto subito con le domande che vorrei sottoporti per chiarire alcuni argomenti che a noi resocontisti ci stanno a cuore in quest’ultimo periodo. Quali e quanti software attualmente esistono per il riconoscimento del parlato e qual è secondo te il migliore oggi esistente?

Esistono diversi software di riconoscimento del parlato e tutti utilizzano lo stesso tipo di algoritmo. Tuttavia una prima grande suddivisione è tra software speaker dependent e software speaker independent. Per software speaker dependent si intende un software che riconosce solo una determinata persona, che dovrà, per far riconoscere il proprio eloquio dal motore, creare quello che viene chiamato ‘profilo vocale’ (un campione della propria voce che legge determinate parole) che costituirà la base del processo di dettatura. A parità di competenze il risultato sarà praticamente identico a quello della stenotipia. Se questo tipo di software viene fatto usare da una persona senza che questa abbia creato un proprio profilo vocale, il risultato sarà abbastanza deludente. Esistono vari software speaker dependent. I più diffusi nel commercio sono ViaVoice, Dragon NaturallySpeaking e SpeechMagic. Al contrario un software speaker independent non necessita che l’utente crei un proprio profilo vocale perché questo lo riconosca. Questo tipo di software può essere usato da qualsiasi operatore e offre, in modalità respeaking, prestazioni simili a quelle dei software speaker dependent. In trascrizione automatica senza operatore i risultati saranno, in condizioni acustiche decenti, comunque accettabili. Per il momento in Italia l’unico in commercio che io conosca è FlyScribe della PerVoice.

 

2) Da tempo si paventa l’idea di applicare un sistema di riconoscimento del parlato atto a verbalizzare un intero processo penale. Tu cosa ne pensi di questo progetto e come un sistema del genere potrebbe essere applicato in un’aula di giustizia?

Per quel che ne so, il Ministero intende promuovere la ricerca sul riconoscimento automatico del parlato a fianco dell’uso ormai collaudato della stenotipia. Quindi intende agire in linea con quello che dovrebbe essere, secondo me, il ruolo dello Stato, cioè promuovere la ricerca. Per questo motivo, io penso che lo Stato faccia bene a promuovere nuove tecnologie. Questo però non significa che lo Stato debba abolire una tecnica per un’altra senza che prima non abbia valutato i pro e i contro. Inoltre, perché una qualsiasi politica vada a buon fine, lo Stato dovrebbe abolire ogni ambiguità sulla terminologia adottata per evitare ogni speculazione. Quanto al cittadino, se questi accetta le condizioni di vita che il progresso tecnologico ha permesso, dall’invenzione della ruota all’i-pad, è giusto che accetti tale progresso in tutti gli ambiti. Quindi, nei confronti dei ritrovati della tecnologia, non dovrebbe avere un atteggiamento di paura, ma di sana diffidenza, cioè a dire cercando di trovare un compromesso tra accettazione supina di qualsiasi cosa la tecnologia ci proponga e il rifiuto altrettanto incondizionato di qualsiasi cosa non si conosca. Tornando alla domanda, bisogna sottolineare, come voi sapete bene perché lo vivete sulle vostre spalle, che il lavoro degli operatori che attualmente si occupano di verbalizzazione giudiziaria è molto pesante ed è ormai sottopagato, condizioni queste che da sempre hanno orientato le persone e le imprese a cercare soluzioni tecnologiche più efficienti (si pensi per esempio al lavoro di miniera sostituito da macchine automatiche o semiautomatiche). Nel caso specifico, lo Stato dovrebbe prima stabilire che cosa intende per “verbalizzazione” perché sull’ambiguità che questa comporta (resocontazione, trascrizione, stesura in prima bozza o che altro ancora ?) si giocano i destini di tanti bandi pubblici. Dopodiché dovrebbe valutare, prove alla mano, se i risultati ottenuti da entrambe le tecniche siano soddisfacenti. E da quello che mi risulta, una sperimentazione in questo senso è stata già fatta con esiti giudicati soddisfacenti. A questo punto, dovrebbe entrare in gioco il fattore economico e determinare l’orientamento verso l’una o l’altra tecnica.

Premesso tutto questo, se lo Stato continuerà a misurare la qualità del verbale sulla base di quanto si fa già ora, allora il riconoscimento del parlato può essere applicato in due modi, entrambi efficaci:

i. il software di riconoscimento automatico del parlato speaker independent trascrive il file e un revisore lo corregge in tempo reale o a posteriori. Questo processo è detto live editing ed è verso questa direzione che la tecnologia dovrebbe puntare per raggiungere l’obiettivo dell’innovazione tecnologica;

ii. un verbalizzatore (d’ora in poi chiamato respeaker) detta a un software di riconoscimento del parlato (non ha molta importanza se speaker dependent o speaker independent) quello che normalmente scrive lo stenotipista e la macchina riconosce la sua voce. Questo processo è detto respeaking.

A queste due modalità se ne aggiunge una terza, la trascrizione automatica, che però necessità di una premessa. In particolare se lo Stato rivedrà la sua idea di verbale, passando da quella di testo scritto (digitale o addirittura stampato) a quella di testo audiovisivo automaticamente indicizzato, si potrà, in alcuni casi, andare oltre il live editing e fare a meno addirittura della revisione umana. Il testo trascritto automaticamente e sincronizzato con l’audio originale consentirà una ricerca “full text” al magistrato. In questo modo, il dato che conta è quello ascoltato dalla viva voce del teste, che, per definizione, rappresenta il massimo livello di fedeltà possibile.

 

3) Ritieni che un sistema di riconoscimento del parlato possa sostituire l’uso della stenotipia in qualsiasi settore dove è possibile verbalizzare? E nel caso ciò accadesse la professionalità acquisita con gli anni da un operatore stenotipista o verbalizzatore/dattilografo come dovrebbe affiancarsi a tale tecnologia?

Io ritengo che tutti siano d’accordo nel sostenere che i vantaggi sulla dattilografia della stenotipia siano evidenti a tutti. Visto che respeaking e live editing permettono gli stessi risultati della stenotipia, il “confronto” va fatto tra respeaking, live editing e stenotipia (lasciamo per ora da parte la trascrizione automatica che è certamente meno performante delle altre tre modalità, ma è sicuramente più economica stenotipia, respeaking e live editing, che si differenziano esclusivamente per l’aspetto operativo (come si lavora, in quanti e quanto sono d’ingombro) e quello economico (tenendo conto dei tempi di formazione e del costo degli strumenti). Quindi, se la nozione di verbale non dovesse cambiare, mi pare ovvio che la scelta, se si deve necessariamente scegliere, vada fatta tra stenotipia, respeaking e live editing, che permettono di ottenere assolutamente i medesimi risultati se a “guidare la macchina” c’è un pilota professionista.  

Non raramente sento infatti opporre, inconsapevolmente o demagogicamente, stenotipisti di lungo corso a respeaker di primo pelo senza alcuna esperienza nel settore della verbalizzazione. Così facendo si rischia di ingenerare una guerra sterile, ma tristemente italiana, tra fazioni opposte che trovano la loro identità attorno a categorie insignificanti. Quel che è peggio, ci perde senz’altro, perché la tecnologia non ha mai aspettato nessuno. Pertanto, per quanto banale possa sembrare, mi sento di dover sottolineare che la professionalità acquisita nel settore da un professionista sia certamente un vantaggio. Ma anche che la tecnica non fa il professionista. E che il dibattito ruota attorno alla tecnica, non alla professionalità. Di conseguenza, penso sia molto più intelligente che il verbalizzatore che lavorasse da anni con la dattilografia o la stenotipia passi al respeaking o al live editing, senza per forza di cose abbandonare la tecnica acquisita ampliando così i propri strumenti di lavoro, piuttosto che difenda a spada tratta una tecnica che rischia di diventare obsoleta (la mera dattilografia già lo è perché è più lenta della stenotipia, del respeaking e del live editing e non permette la trascrizione in tempo reale, se non a costo di grandi tagli, oltre a richiedere più tempo per produrre quanto producono stenotipisti, respeaker e live editor). Riformulando un vecchio detto, mi sento di concludere questa risposta sostenendo che se il professionista non va al respeaking o al live editing, un altro ci andrà al posto suo, rubandogli il lavoro e acquisendo con il tempo quella professionalità che non gli viene, ribadisco, dalla tecnica che usa, ma solo dall’esperienza.

 

4) Diventare operatori esperti nell’uso di un qualsiasi programma di riconoscimento del parlato aiuta ad essere capaci nell’utilizzo di altri programmi similari? Ti faccio un esempio per meglio farti comprendere la mia domanda: se ipoteticamente il Ministero di Grazia e Giustizia dovesse imporre un certo tipo di software di riconoscimento del parlato, qualora io ne sapessi invece utilizzare un altro, ciò comporterebbe dei problemi nell’usare il software specificatamente indicatomi?

Ogni software di riconoscimento del parlato ha le sue specifiche funzionalità e una sua interfaccia, diverse da quelle degli altri. Ma le competenze di base per usarli sono le stesse. Quindi mi sento di rassicurare su questo aspetto. Tuttavia respeaking e live editing richiedono professionalità diverse essendo tecniche diverse.

 

5) In presenza di forme dialettali, difetti di pronuncia, cadenze diverse nel parlato degli extracomunitari o comunque stranieri che non si sanno esprimere perfettamente nella nostra lingua, il riconoscimento del parlato oggi più all’avanguardia è in grado di superare queste difficoltà o la strada è ancora tutta in salita?

Premesso che nessuno può trascrivere una lingua che non conosce e che per legge il processo richiede l’uso della lingua italiana (salvo alcune eccezioni), in linea generale i software di riconoscimento del parlato non sono litteratim (non trascrivono le singole lettere), ma verbatim (trascrivono le parole) e non richiedono che si parli in dizione, ma è sufficiente che una percentuale minima di suoni identificanti una parola siano pronunciati e la parola verrà riconosciuta correttamente (non ci sono quindi errori dovuti a scorretta battitura o ignoranza). Ovviamente però dipende dalle parole. Le parole più lunghe sono più facilmente riconosciute dei monosillabi. Inoltre per essere riconosciuta, ogni singola parola deve essere presente nella memoria del software altrimenti questi trascriverà un omofono o una serie di omofoni al loro posto. In altre parole, ogni parola deve essere “conosciuta” dal software, perché questi la possa “riconoscere”.

Comunque, in caso di inflessione regionale, ma con pronuncia corretta delle parole, il riconoscimento non ne risente. Quanto ai difetti di pronuncia, se il difetto di pronuncia non comporta la produzione di una parola diversa (come per esempio nel caso di “care”, pronunciato “cave”), il riconoscimento non ne risente. La parola verrà riconosciuta correttamente. Per lo stesso motivo, il software non trascrive il dialetto. Per esempio, se uno dice “nuttata”, il software scriverà “nottata” o qualcosa di simile come “buttata”. Quanto alla grammatica, il software riconosce le parole e non corregge eventuali errori. Se uno dice “io vorrei che lui ci sarebbe”, il software scrive la frase così com’è stata detta.

 

6) Nel caso in cui un magistrato richieda la bozza immediata, attualmente è da considerarsi più attendibile quella elaborata da un software di riconoscimento del parlato quella verbalizzata da un operatore che scrive in real time?

Se la bozza è scritta da uno stenotipista o dettata da un respeaker o prodotta in live editing, a parità di competenze da parte degli operatori, il risultato è lo stesso. Se la trascrizione è fatta in automatico direttamente dal software senza passare per un operatore, la qualità sarà necessariamente inferiore rispetto a quella di una bozza in prima stesura fatta da un verbalizzatore. Tuttavia, la qualità della bozza scritta da un verbalizzatore tenderà a deteriorarsi con il passare delle ore senza per forza diventare peggiore di quella della trascrizione automatica. La trascrizione automatica, dal canto suo, non subisce “deterioramenti” della qualità e della produttività essendo entrambe affidate a una macchina. Va inoltre sottolineato che il sistema di trascrizione automatica consente comunque di “registrare” quei tratti di parlato che non sono stati correttamente trascritti e, quindi, garantisce comunque la massima fedeltà. Un ulteriore vantaggio che permette il software di trascrizione automatica senza operatore è, nel caso di una bozza in differita, che la trascrizione può essere fatta in tempi più ridotti rispetto anche alla trascrizione in tempo reale. Cioè, la macchina prende il file e lo riconosce in un tempo anche di molto inferiore alla sua durata.

 

7) I file sonori che vengono elaborati, in output hanno una estensione particolare o il software del riconoscimento del parlato si appoggia alle estensioni più note quali mp3 o wav?

Il software di riconoscimento del parlato non fa grandi distinzioni tra le estensioni. E comunque qualsiasi caso di mancata compatibilità è facilmente risolvibile a livello di programmazione.

 

8) Spesso in fase di registrazione può capitare che si verifichino sbalzi di energia elettrica, anche della durata di mezzo secondo, e che venga compromessa la continuità della ripresa fonografica non più in fase REC. In casi come questo i software del riconoscimento del parlato hanno un sistema di allarme che, nel momento in cui avviene tale anomalia, avvisano il fonico o il tecnico di udienza?

Il problema della continuità della ripresa non ha nulla a che vedere con i sistemi di riconoscimento del parlato, semmai con il sistema di registrazione che deve essere adeguatamente protetto da questi inconvenienti. Questa opzione si può facilmente aggiungere, ma non è una funzione del software.

 

9) Concludo con una domanda doverosa dal mio punto di vista: spesso nel settore della resocontazione sentire parlare di software di riconoscimento del parlato è motivo di ansia e preoccupazione in quanto fa paura il classico concetto della “macchina che sostituisce l’uomo”, ti senti di rassicurare un po’ gli animi sotto questo punto di vista?

Certamente sì. Non bisogna avere paura dell’evoluzione tecnologica perché, come tutti i ritrovati della ricerca, questa non è malvagia. Solo il suo utilizzo può esserlo. Nel caso specifico, il riconoscimento del parlato è un nuovo strumento in mano ai resocontisti, ai trascrittori, a tutti coloro che fanno della ripresa del parlato il loro lavoro. Addirittura l’introduzione più massiccia del riconoscimento del parlato potrebbe ottimisticamente aumentare la richiesta di trascrizioni, allargando così il mercato anche ai privati che potrebbero essere interessati ad avere la trascrizione del parlato in casi come riunioni, conferenze, telefonate. È il caso concreto, per esempio, di una importante banca internazionale che, recentemente, mi ha chiesto di formare verbalizzatori in tempo reale per i loro consigli di amministrazione. Ovviamente, se nel pubblico la qualità potrebbe non essere un fattore vincolante, nel privato lo è di certo. A quel punto, sarà il risultato finale a decidere le sorti degli attuali operatori del settore. E finché ci saranno persone (e ce ne sono tante!) che non parlano in maniera chiara, lineare e grammaticalmente corretta, senza errori a livello fonetico e frastico, la presenza dell’operatore sarà imprescindibile per avere un buon prodotto di facile consultazione.

In breve, il mio consiglio agli stenotipisti, per quello che può valere, è di non temere l’avvento del riconoscimento del parlato; di formarsi al suo uso il prima possibile aumentando così le frecce al loro arco e valorizzando le loro competenze per evitare di essere surclassati da novizi formati al respeaking (cosa peraltro che ricorda l’introduzione della stenotipia elettronica); e di puntare ad allargare gli ambiti di intervento della verbalizzazione anche al settore privato.