ElevenLabs lancia Turbo 2.5, un modello AI di sintesi vocale veloce

6 months ago 248

La società software di soluzioni di intelligenza artificiale, ElevenLabs, ha annunciato Turbo 2.5, un modello di sintesi vocale a bassa latenza in grado di funzionare con ben 32 lingue, tra le queli spicca anche l'italiano.

Grazie a Turbo 2.5, aziende di terze parti possono ora sviluppare agenti conversazionali basati su modelli di linguaggio avanzati, integrarli in dispositivi hardware come occhiali intelligenti in grado di leggere testi, o utilizzarli nei videogiochi per dare vita ai personaggi.

Stando a quanto fa sapere la società nel suo blog ufficiale, con Turbo 2.5 l'italiano, il francese, lo spagnolo, il mandarino e altre 27 lingue sono diventate tre volte più veloci, mentre l'inglese ha guadagnato un ulteriore incremento del 25% in termini di velocità. Per iniziare a utilizzare l'API di Turbo 2.5 nei propri prodotti e servizi, gli sviluppatori possono visitare la pagina API di ElevenLabs (in FONTE), mentre le aziende possono ottenere l'accesso a volumi maggiori contattando il reparto vendite.

All'inizio del mese, ElevenLabs aveva lanciato l'API Voice Isolator per sviluppatori terzi. Come suggerisce il nome, questo strumento utilizza l'intelligenza artificiale per rimuovere il rumore di fondo dalle clip audio, isolando i dialoghi puliti.

In una dimostrazione di Voice Isolator, è stato creato un sito web utilizzando Claude di Anthropic, che consente agli utenti di fornire un link di YouTube. L'API Voice Isolator viene quindi utilizzata per eliminare il rumore di fondo. L'applicazione dimostrativa inserisce poi l'audio in un file sulla pagina, che può essere ascoltato direttamente dal browser. Naturalmente, l'API verrà utilizzata da sviluppatori terzi in molti modi creativi, proprio come l'API del modello Turbo 2.5 troverà applicazione in una vasta gamma di contesti.

Negli ultimi giorni, ElevenLabs ha annunciato diverse partnership. Una con AMGI Studios per creare personaggi interattivi e un'altra con Thoughtly che utilizzerà la tecnologia ElevenLabs per creare call center basati sull'intelligenza artificiale. L'azienda ha inoltre annunciato nuovi miglioramenti al suo Voiceover / Dubbing Studio.

Anche OpenAI sta lavorando a nuove applicazioni AI di stamp vocale, e tra queste è notizia recente che sta offrendo un accesso limitato a una piattaforma di generazione di testo-voce chiamata Voice Engine. OpenAI afferma di aver iniziato a sviluppare Voice Engine alla fine del 2022 e che la tecnologia ha già fornito voci preimpostate per l'API di sintesi vocale e la funzione di lettura ad alta voce di ChatGPT.

La generazione di testo-voce con l'intelligenza artificiale è un'area in continua evoluzione. Mentre la maggior parte delle realtà si concentra sulla creazione di suoni strumentali, in pochi si sono specializzati sulla generazione vocale, in parte a causa di questioni legate a doppio filo alle licenze.

Read Entire Article