L’intelligenza artificiale nello speaker recognition. Funzionalità, problematiche e tecniche principali

1 year ago 416

Articolo di Michelangelo Di Stefano e Gaetano Lo Presti.

Lo speech processing
L’approccio della comunità scientifica verso i metodi SR auto e semiautomatici
I disturbi acustici e il rapporto segnale/rumore inferiore a 10 dB
Il rapporto di verosimiglianza (Likelihood Ratio LR)
Acquisizione e Pretrattamento dei files audio
Speaker recognition
Stabilità dei parametri nello speaker recognition
Metodi automatici di riconoscimento del parlatore

Lo speech processing

Per comprendere l’ambito (sia esso forense, per esigenze di intelligence, di sicurezza o commerciali) in cui si è concentrata la ricerca e lo sviluppo di intelligenza artificiale in Italia da Pragma Etimos nel settore del riconoscimento del parlatore, è necessario, preliminarmente, introdurre il concetto di speech processing, da intendersi quale settore di studio delle scienze informatiche che si occupa dell’elaborazione di informazioni vocali e delle tecnologie alle stesse correlate.

Da una focale di intelligence, lo SP ingloba uno strumento operativo a cui gli organismi di sicurezza ricorrono, in generale, ormai da diversi anni, nell’attività di monitoraggio di macroaree geografiche di comunicazione per esigenze di sicurezza internazionale, procedendo all’ispezione di fonti aperte sul web con l’utilizzo di software[1] di analisi semantica[2] con tecnologie TAL[3], interessandosi allo Speech Processing (che tratta l’ elaborazione del parlato) e al Natural Language Processing (che tratta l’ elaborazione del testo)[4]; e, ancora, impiegando protocolli di analisi semantica approfondita, definiti Intelligence Data Mining[5], finalizzati all’individuazione di informazioni nascoste[6].

In ambito allo speech processing, si distinguono[7]:

“[…] speech recognition: le informazioni acustiche (a mò di esempio, i comandi vocali impartiti ad una macchina, come un pc o un telefono) vengono convertite in informazioni di tipo linguistico, descrivibile attraverso trascrizione in un formato di testo o comprese dal sistema informatico.
speech synthesis: consiste nella capacità di un determinato sistema di elaborazione dati, in grado di sintetizzare, quindi simulare, la voce umana con tutte le possibili inflessioni ed aspetti prosodici.
speech understanding: concerne la comprensione semantica delle frasi che compongono il “parlato”, con l’ausilio di speciali algoritmi di intelligenza artificiale e di reti neurali dedicati.
speaker recognition: si interessa al riconoscimento del parlatore ( l’impronta vocale è, sotto il profilo biometrico, univoca come quella digitale) con l’impiego di algoritmi di analisi numerica dei segnali (ad es. la trasformata di Fourier)[8].
vocal dialog: attraverso il v.d. è possibile riprodurre in un sistema informatico le caratteristiche dialogiche fra due parlanti. Un calcolatore si occuperà al riconoscimento dell’interlocutore, all’ identificazione delle singole parole ed alla comprensione del lessico nel suo insieme. Il sistema dovrà poi saper elaborare una risposta, a sua volta tradotta da un sintetizzatore vocale […]”.

Tra le principali problematiche dello speech processing che possono incidere nel contesto che stiamo esponendo, sono da individuarsi quelle dovute alle c.d “variabilità” e, in particolare:

· “[…] variabilità acustica: i fonemi sono soggetti alla c.d. coarticulation effect, differenziandosi in base al contesto di pronuncia, producendo effetti acustici diversi tra loro. In buona sostanza, l’impronta sonora è fortemente condizionata dall’ambiente di produzione del suono (più avanti sarà fatto specifico riferimento ad alcune di queste criticità trattando il fading, muffling, riverbero ambientale e rumori di fondo);
variabilità del parlato: i suoni sono pesantemente condizionati dallo stato emozionale del parlante, ed emessi con tonalità diverse. Un esempio calzante è quello dei frequenti condizionamenti fisiologici che, in condizione stressorie ed emozionali, modificano il pattern abituale e, in particolare, quello vocale, determinando delle forme di microtremore (rilevabili con i c.d. voice stress analyzer);
variabilità del parlante: i sistemi di riconoscimento vocale devono essere rodati al fine di riuscire a riconoscere l’impronta vocale di un parlante;
variabilità linguistica: con riguardo al significato, il relativo riconoscimento è condizionato dal fatto che concetti analoghi possono trovare esplicazione attraverso frasi diverse, ed ancora differente interpretazione;
variabilità fonetica: una stessa parola trova rappresentazione fonetica differente, diversificandosi nella pronuncia a seconda della provenienza geografica del soggetto parlante […]”[9].

L’approccio della comunità scientifica verso i metodi SR auto e semiautomatici

L’impiego di metodi automatici o semi automatici di riconoscimento del parlatore è oggetto di studio scientifico ormai dagli anni ’90 del secolo scorso, come documentato nel corso del 5° convegno dell’Associazione Italiana di Scienze della Voce tenutosi a Zurigo, ove il tema dello speaker recognition è stato diffusamente esplorato, e di cui si riporta un succinto estratto: “[…] L’identificazione è il risultato secondario di un processo di discriminazione di una voce. Se due entità devono essere discriminate attraverso i loro attributi allora queste, se differenti, devono differire nei loro attributi. Così, se due persone vengono discriminate e riconosciute attraverso la loro voce allora devono differenziarsi ed essere riconosciute attraverso la loro voce. La voce, così intesa, è un oggetto multidimensionale e come tale deve essere trattato. Riteniamo che solo la competenza di un esperto possa aiutare a scegliere la dimensione più adeguata e la composizione delle differenti dimensioni. Non tutte le caratteristiche, infatti, aggiungono informazione al processo di comparazione, e non tutte le caratteristiche hanno lo stesso peso (statistico) e lo stesso carico informativo. Questo lavoro non ha le pretese di modificare le condizioni generali delle comparazioni foniche (SR) ma solo di verificare sperimentalmente il peso di ogni singola variabile e soprattutto di valutare la variabilità inter e intraparlante in funzione degli stili di parlato e dei canali di registrazione. I risultati ottenuti in questo lavoro si differenziano in base ai parametri e alle variabili considerate. Considerando le variabili definite statiche, i risultati ottenuti dimostrano che la modalità della voce influenza consistentemente i valori della frequenza fondamentale (parametro considerato molto importante nelle comparazioni foniche) […]”[10].

Il rapporto di verosimiglianza (Likelihood Ratio LR)

La questione era stata analizzata dal più importante esperto della comunità scientifica italiana, il compianto ingegnere Andrea Paoloni che, in uno dei suoi ultimi contributi per la letteratura sul tema, aveva annotato:

“[…] L’identificazione delle persone nell’ambito giudiziario è compito del tribunale. Ne consegue che l’esperto non deve esprimersi in termini di identificazione positiva o negativa, ma in termini di rapporto di verisimiglianza. Purtroppo l’attualità ci porta ad esprimere preoccupazione per le modalità utilizzate da alcuni esperti nello svolgimento del compito loro demandato, sia per quanto riguarda la scelta del metodo di identificazione, sia per la presentazione delle conclusioni raggiunte. Sarebbe di grande utilità fare chiarezza su come la consulenza di riconoscimento del parlante debba essere svolta e come i risultati debbano essere presentati.

Le prove scientifiche rivestono un ruolo sempre più importante nel processo penale. Ne consegue il rischio che il termine “scientifico” possa fare pensare che il risultato ottenuto attraverso l’espletamento della prova scientifica, abbia la caratteristica della verità. Le prove scientifiche sono soggette, come tutte le altre tipologie di prova, ad errore.

Per alcune di esse tuttavia esiste un metodo codificato e ampiamente validato (uno standard), seguendo il quale l’errore rimane confinato in un ambito ristretto e soprattutto noto. Prendiamo ad esempio l’impronta digitale: il confronto è soggetto a precise norme da rispettare affinché il confronto sia valido con errore definito. La Cassazione, con la sentenza n. 10567 del 13 novembre 1985 (Sezione 2, Pres. Savina, Rel. Della Penna), ha stabilito che l’identità dei due impronte è ritenuta prova solo “attraverso l’esistenza di almeno 16-17 punti caratteristici uguali per forma e posizione” e che “siano state trovate almeno 16 corrispondenze tra le impronte a confronto”. Le corrispondenze vengono evidenziate nelle due impronte nell’ambito della consulenza.

La probabilità che esista un’impronta con le stesse caratteristiche appartenente a un altro individuo è da ritenersi pressoché trascurabile. Naturalmente anche per questa prova esistono problemi legati alla possibilità di realizzare false impronte tramite calco e alla inutilizzabilità dell’impronta in quanto corrotta o disponibile in frammento troppo piccolo. Un’altra tecnologia, quella del DNA, è altrettanto definita nelle modalità di analisi (misura delle polimerasi) e nelle modalità di identificazione basate sulla statistica Bayesiana volta a definire un rapporto di verisimiglianza (Likelihood Ratio, LR).

L’approccio Bayesiano, riassumibile nella nota formula:

riscritta in termini di rapporto di scommessa (odds): O(A/B) = LR x O(A) ci dice che la probabilità a posteriori (dopo l’esperimento) è data dalla probabilità a priori (prima dell’esperimento) moltiplicata per il rapporto di verisimiglianza (LR). Ora il problema non è solamente il calcolo di LR, ma anche la stima della probabilità a priori. In alcuni casi, come per il DNA, dove LR è molto elevato, la probabilità a priori ha un peso limitato, nel senso che basta presupporre che una qualsiasi persona (compreso il sospettato) sia il possibile possessore del DNA (1/intera popolazione mondiale) per giungere a probabilità di identificazione rilevanti […]”[11].

I disturbi acustici e il rapporto segnale/rumore inferiore a 10 dB

Una criticità rilevante in materia di manipolazione di un reperto fonico riguarda la sua qualità audiofonica e l’esistenza di disturbi di segnale che, per varie ragioni, possano pregiudicarne la complessiva intellegibilità.

Anche l’ambiente in cui vengono effettuate le registrazioni influisce sul segnale. In particolare, i rumori si distinguono in due tipologie principali: la prima classifica i rumori c.d. “additivi” e la seconda quelli “convolutivi”.

Gli additivi sono dei rumori generati da sorgenti indipendenti che vanno a sommarsi con il segnale fonico di interesse investigativo; mentre quelli definiti di tipo “convolutivo”, sono a loro volta delle riflessioni o risonanze che vanno ad interagire in modo dinamico con la struttura del segnale, come nel caso del riverbero ambientale e dell’eco.

I rumori fin qui descritti, che rendono spesso inintelligibile o parzialmente interpretabile il segnale fonico registrato, possono essere attenuati da varie tecniche[12] di “speech enhancement”. [13]

Il parametro di base che deve generalmente essere assunto a riferimento in un contesto forense, quale caposaldo della comunità scientifica internazionale[14], concerne il rapporto tra il reperto fonico di interesse – sia esso un parlato o un determinato rumore come uno sparo, lo scarrellamento di un arma, la conta di banconote, ecc. – ed i rumori ivi presenti, ritenendo idonea la qualità sonora del reperto laddove sia riscontrata una dinamica del frammento di interesse forense maggiore del rumore di almeno 10 dB (il decibel è una misura del rapporto tra intensità dei due segnali S/R).

Nei metodi automatici di riconoscimento del parlatore, specialmente in quelli basati sull’applicazione di modelli di Machine Learning, la “pulizia” dei dati inseriti sia in fase di addestramento che in quella di riconoscimento è fondamentale all’ottenimento di risultati significativi e affidabili.

Per compensare tutti i fattori di disturbo precedentemente descritti, una componente importante del processo diviene quindi il cosiddetto “pretrattamento” dei files audio.

L’intero funzionamento del processo è basato sull’estrazione di informazioni rilevanti ed intrinsecamente rappresentative della voce umana: ogni forma di disturbo nei files originali – quali ad esempio rumori di fondo, corruzione o scarsa qualità del file audio o multiple voci sovrapposte – comporterebbe imprecisioni ed errori nei dati estratti.

Al fine di avere un sistema il più possibile flessibile e adatto anche in “casi limite” e condizioni di registrazione non ideali, la piattaforma usata dovrà essere munita, quindi, di una serie di strumenti realizzati appositamente per migliorare la qualità degli audio in input e renderli il più possibile adatti all’utilizzo.

È importante notare che l’applicazione di alcune tecniche può comportare una perdita di informazioni o modifiche nel contenuto originale, quindi è essenziale bilanciare attentamente l’obiettivo di migliorare la qualità dell’audio con la conservazione delle informazioni essenziali.

Un effort considerevole di ricerca e sviluppo è, ovviamente, necessario per identificare l’equilibrio ottimale di configurazioni per ogni procedura in modo da garantire il massimo risultato con il minimo rischio di perdita di informazioni, permettendo comunque al tecnico forense di attivarle e disattivarle singolarmente per trovare la propria configurazione ottimale.

Speaker Recognition

Una frequente questione forense oggetto di quesito concerne l’esatta identificazione delle singole voci captate sia che si tratti di attività di comparazione intra, oppure inter parlatore di tipo tecnico.

Un dettaglio, questo, che diverrà oggetto del primario interesse del giudice e delle parti nel corso del dibattimento, allorquando esaminato l’investigatore sull’attività da questi svolta, la domanda più frequente verterà sulle modalità di identificazione dei parlanti intercettati; tematica questa che, gioco forza, sarà oggetto di valutazione implicita da parte del perito incaricato nel dibattimento alle trascrizioni di quelle intercettazioni.

“[…] E’ da considerare, quindi, che a prescindere dal contenuto del quesito formulato dal giudice, il perito, dovrà sempre e comunque assumersi l’onere di “identificare”, o quanto meno riconoscere, le voci presenti in ogni reperto fonico analizzato, seppur con una annotazione anonima di tipo alfa numerica, come ad esempio il distinguo tra: “uomo 1 ed uomo 2”.

Ciò potrebbe comportare, in taluni casi, assunzioni di responsabilità notevoli, atte a confutare o meno risultanze degli investigatori o eccezioni delle difese.[15]

Lo scenario tecnico, da una prospettiva così complessa, determinerebbe conseguentemente l’esigenza di più approfondite indagini tecnico-scientifiche da affidare ad esperti particolarmente qualificati.

Tra queste figurano le assunzioni di saggi fonici utili alla comparazione di una serie di fonemi con quelli oggetto di vertenza giudiziaria, effettuando un confronto parametrico delle formanti (cioè frequenze di risonanza generate dalle cavità sopralaringali) relative alle singole vocali ivi contenuterf, al fine di evidenziare le caratteristiche sonore delle voci dei rispettivi parlatori; si tratta, cioè di una modalità di identificazione di tipo biometrico, seppur ben differente dalle altre forme note in campo investigativo, come ad esempio quelle digitali o dell’iride.

A prescindere dal tipo di metodologia utilizzata secondo criteri statistici di tipo probabilistico[16] o decisionale, la comunità internazionale ritiene che, mediamente, il reperto fonico oggetto di comparazione S/R debba essere ricompreso in una disponibilità temporale oscillante tra i 12 secondi (in Italia) ed i 30 secondi (secondo gli esperti francesi).

Gli applicativi di tipo semi automatico ed automatico impiegati nelle attività investigative d’elite ed in ambito forense, sono ormai da tempo sperimentati ed adottati dalle polizie scientifiche e dagli organismi d’intelligence di diversi paesi.

Le principali tecniche: analisi fonetico-linguistica.

Analizziamo brevemente le peculiarità della voce che sono oggetto d’esame, menzionando aspetti:

– Fonetici: acquisiti con l’educazione e consolidati nel tempo, caratterizzano le persone per le modalità dei processi di articolazione e collegamento dei suoni.

– Semantico-Lessicali: incidono sull’identità e il significato del messaggio pronunciato in relazione ai suoni emessi o alla scelta di vocaboli operata,(forniscono informazioni di carattere prevalentemente socio-linguistico, con riferimento alla zona geografica di appartenenza ed al livello culturale raggiunto dal soggetto. Particolari interiezioni possono invece avere valenza identificativa, in funzione della rarità delle medesime;

– Prosodici: riguardano l’andamento (temporale e intonativo) dell’esposizione frastica, possono essere connessi con il carattere della persona e/o con l’ambiente di sviluppo/lavoro.

– Foniatrici: riguardano le modalità di emissione acustica dei suoni dovute alle condizioni morfo-fisiologiche della parte superiore dell’apparato respiratorio.

L’esame fonetico-linguistico, pertanto, prevede l’analisi delle elencate peculiarità (in particolare dei primi tre punti) che produrranno una sorta di ‘carta d’identità’ del parlatore. La disamina dei parametri comporta tempi lunghi di rilevazione e richiede un adeguato livello di preparazione, nonché di esperienza, dell’operatore […][17].

Stabilità dei parametri nello speaker recognition

Interessante sull’argomento è l’abstract di due esperti dell’Università della Calabria:

“[…] Un sistema di riconoscimento del parlatore ha lo scopo primario di identificare una persona attraverso la sua voce. Deve, innanzi tutto, ricercare quelle informazioni quanto più oggettive possibili presenti nella voce umana ed analizzare la produzione di un parlatore senza interessarsi della sfera semantica, della produzione linguistica[18], o della costruzione sintattica e morfologica.

La voce è molto più di una semplice sequenza di suoni, è intrinsecamente complessa e gran parte della sua complessità è legata ai rapporti tra le singole variabili che operano al suo interno come ad esempio il senso, il significato, le intenzioni, le emozioni, lo stato di salute, lo stato sociale, il livello di autostima, il livello di scolarizzazione ecc.

Sui metodi utilizzati per lo speaker recognition in Italia e nel mondo, la letteratura è veramente abbondante (si veda Romito–Galatà (2006) per l’Italia e P. Rose (2002) per il resto). In generale, esistono tre grandi famiglie di metodi di SR: uditivo-percettivi, parametrici e completamente automatici […][19].

8. Metodi automatici di riconoscimento del parlatore

L’identificazione automatica del parlatore, anche nota come Automatic Speaker Identification (ASI), è un processo mediante il quale un sistema informatico o un algoritmo viene utilizzato per riconoscere e determinare l’identità di una persona basandosi sulla sua voce.

Il funzionamento di un sistema di identificazione del parlatore si basa sulla caratterizzazione delle specifiche proprietà vocali e delle caratteristiche uniche di una persona quando parla.

Queste caratteristiche possono includere parametri come il tono della voce, il timbro, il ritmo, la frequenza fondamentale, l’accento, il modo di articolazione e altri aspetti della pronuncia.

Rispetto ai metodi tradizionali di identificazione precedentemente descritti, questo nuovo approccio presenta diversi vantaggi:

Precisione e affidabilità: uno dei principali vantaggi dell’ASI è la sua elevata precisione. Gli algoritmi di apprendimento automatico possono analizzare con precisione le caratteristiche vocali uniche di una persona e identificarle in modo coerente, riducendo al minimo gli errori umani.
Velocità ed efficienza: l’ASI è estremamente veloce ed efficiente nel riconoscere i parlatori.

Può processare grandi quantità di dati vocali in tempo reale o quasi reale, rendendolo ideale per applicazioni in tempo reale come l’autenticazione vocale.

Scalabilità: i sistemi di ASI possono essere facilmente scalati per includere un numero crescente di parlatori.

Possono gestire un vasto database di modelli di riferimento vocali, consentendo l’identificazione di un gran numero di individui.

L’ approccio ASI al riconoscimento del parlatore prevede principalmente due fasi: una di addestramento del sistema e una di identificazione.

Durante la fase di addestramento del sistema, vengono utilizzati campioni audio contenenti la voce di diverse persone, registrati in condizioni varie (ad esempio, in diversi contesti o ambienti).

Questi campioni vengono utilizzati per creare un modello di riferimento per ciascun parlatore, in modo che il sistema possa imparare a riconoscere le specifiche caratteristiche vocali di ogni individuo.

Successivamente, quando il sistema viene utilizzato per l’identificazione del parlatore, gli viene fornito un nuovo campione audio contenente la voce di una persona sconosciuta.

Il sistema confronta le caratteristiche vocali di questo campione con i modelli di riferimento memorizzati durante la fase di addestramento e tenta di identificare il parlatore corrispondente.

Se la voce è stata precedentemente registrata e presente nel sistema, l’identificazione avrà successo.

L’ASI risulta, quindi, essere una tecnologia innovativa che sta rivoluzionato il modo in cui riconosciamo le persone attraverso la voce.

Grazie alla sua precisione, velocità ed efficienza, è ampiamente utilizzata in una varietà di applicazioni, dalla sicurezza all’autenticazione vocale e alla trascrizione automatica.

La sua capacità di ridurre gli errori umani e la sua scalabilità lo rendono una risorsa preziosa in molte industrie.

Tuttavia, è importante utilizzare questa tecnologia in modo responsabile, rispettando la privacy e garantendo la sicurezza dei dati vocali delle persone.

Questo è un primo focus sul tema dell’ Automatic Speaker Identification nella ricerca e sperimentazione italiana che Pragma Etimos e i suoi partners stanno sviluppando, le cui applicazioni nel panorama delle tecnologie applicate alle intelligenze artificiali potrebbero, da qui a breve, non solo addivenire all’identificazione di un parlante nel contraddittorio processuale, ma trovare applicazione nell’ Internet delle cose (I.O.T.), dai comandi domotici, alla Cyber Protection, alla strong authentication biometrica, all’apertura di sistemi di sicurezza, fino all’attuazione di comandi operativi per esigenze militari e per la messa in sicurezza di armi da fuoco.

[1] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, di Andrea Melegari, n.2/2006.

[2] www.saperi.forumpa.it, Obama e Romney analizzati col web semantico. Il primo parla di governo e lavoro, l’altro di presidenza e tasse. Entrambi di persone e sanità, pubblicato il 5.10.2012.

[3] Trattamento Automatico della Lingua.

[4] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, cit.

[5] Rispetto alle tecnologie tradizionali (a keyword e statistiche), che possono solo cercare di indovinare il senso di un testo, i SW di analisi semantica approfondita leggono ed interpretano tutta la conoscenza potenzialmente interessante e identificano in automatico le relazioni concettuali fra le varie informazioni. Individuano all’interno dei documenti i concetti più rilevanti, le entità, gli eventi e specifiche informazioni utili per l’analisi, individuando i dati principali, in qualunque modo siano espressi.

[6] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, cit.

[7] www.ghostcomputerclub.it, Introduzione allo speech processing, di G. Pellegrinetti, settembre 2001.

[8] Ivi.

[9] Di Stefano M., Le trascrizioni nel processo penale. Manuale dei periti, consulenti e polizia giudiziaria, Città del Sole editore, Reggio Calabria (2023), pag. 50 e ss.

[10] Romito L., Lio R., Perri P. F., Giordano S., Stabilità dei Parametri nello Speaker Recognition: la variabilità intra e inter parlatore F0, durata e articulation rate. Atti del convegno “5° Convegno AISV”, Università di Zurigo, 4-6 febbraio 2009, a cura di S. Schimd, M. Schwarzenbach, D. Studer, EDK, Torriana 2010, vol. 5, pag. 667 e ss.

[11] Paoloni A., Sul riconoscimento del parlante in ambito forense, in Sicurezza e Giustizia, 15.1.2015.

[12] Lim J.S., Oppenheim A. V., Enhancement and Bandwidth Compression of Noisy Speech, in Proceeding of the IEEE, (1979), vol. 67, n.12.

[13] Bastari A., in www.univpm.it, abstract, (2012).

[14] Paoloni A., Note sul riconoscimento del parlante nelle applicazioni forensi con particolare riferimento al metodo parametrico IDEM, Rivista Italiana di Acustica, Vol. 27 n. 3-4.

[15] Gazzetta del Sud, cronaca di Reggio Calabria, Quella voce a bordo auto non è di Condemi, pubblicato il 5 dicembre 2013.

[16] Teorema di Bayes.

[17] Di Stefano M., Aspetti sociocomunicativi della ‘Ndrangheta. Le intercettazioni nelle scienze forensi, Cittò del sole editore, Reggio calabria (2017), pag. 385 e ss.

[18] Questo soprattutto perché oggi sempre più l’esperto si trova a dover trattare segnali sonori intercettati di breve durata. Ovviamente, qualunque analisi linguistica che tende al riconoscimento del parlatore fallisce in partenza.

[19] Romito L. Lio R., Stabilità dei parametri nello speaker recognition: la variabilità intra e inter parlatore, Laboratorio di Fonetica Università della Calabria, abstract, Microsoft Word – Romito_Lio_sommario.rtf (aisv.it)

Read Entire Article