Microsoft ha creato un tool che imita la voce di chiunque

1 year ago 177

di Alexandre Milli, 10 gennaio 2023, 14:0010 gennaio 2023, 14:00

Microsoft ha presentato VALL-E, un nuovo modello di Intelligenza Artificiale di sintesi vocale in grado di simulare la voce di una persona.

VALL-E simula la voce di chiunque

Microsoft continua a investire nella ricerca dell’Intelligenza Artificiale annunciando di aver messo a punto un sistema di sintesi vocale basato sull’intelligenza artificiale, in grado di riprodurre la voce e il tono di una persona basandosi su un campione audio di appena tre secondi. A differenza dei sintetizzatori vocali tradizionali VALL-E analizza e sintetizza la voce di una persona, suddividendola in componenti chiamati “token” grazie alla tecnologia EnCodec e una libreria audio utilizzando questi i dati per fare degli abbinamenti tra ciò che conosce e lo spezzone di voce da simulare.

Introduciamo un approccio di modellazione del linguaggio per la sintesi vocale (TTS). Nello specifico, addestriamo un modello di linguaggio di codec neurale (chiamato VALL-E) utilizzando codici discreti derivati da un modello di codec audio neurale standard e consideriamo TTS come un’attività di modellazione del linguaggio condizionale piuttosto che una regressione continua del segnale come nel lavoro precedente. Durante la fase di pre-formazione, aumentiamo i dati di formazione TTS a 60.000 ore di parlato in inglese, che è centinaia di volte più grande dei sistemi esistenti. VALL-E emerge capacità di apprendimento nel contesto e può essere utilizzato per sintetizzare discorsi personalizzati di alta qualità con una registrazione registrata di soli 3 secondi di un oratore invisibile come suggerimento acustico. I risultati dell’esperimento mostrano che VALL-E supera in modo significativo il sistema TTS zero-shot all’avanguardia in termini di naturalezza del parlato e somiglianza del parlante. Inoltre, troviamo che VALL-E potrebbe preservare l’emozione di chi parla e l’ambiente acustico del prompt acustico in sintesi.

Potete ascoltare una demo dell’imitazione realizzata con VALL-E in una serie di esempi che si basano su spezzoni di parlato dai quali l’AI ne simula perfettamente il timbro e il tono della voce.

Cosa ne pensate dell’evoluzione dell’AI in ambito di sintesi vocale? Ditecelo nei commenti.

Articolo di Windows Blog Italia
Fonte | ArsTechnica

Tag //

Read Entire Article