Tutti i prezzi sono validi al momento della pubblicazione. Se fai click o acquisti qualcosa, potremmo ricevere un compenso.
OpenAI sta offrendo un accesso limitato a una piattaforma di generazione di testo-voce chiamata Voice Engine, in grado di creare una voce sintetica basata su una clip brevissima della voce di una persona, si parla infatti di soli 15 secondi. La voce generata dall'AI può leggere ad alta voce testi su comando, nella stessa lingua del parlato o in diverse altre lingue.
Le aziende che hanno accesso a questa tecnologia includono la società di tecnologia educativa Age of Learning, la piattaforma di narrazione visiva HeyGen, il produttore di software sanitario Dimagi, il creatore di app di comunicazione AI Livox e il sistema sanitario Lifespan.
Negli esempi pubblicati da OpenAI (in FONTE), è possibile ascoltare come Age of Learning abbia utilizzato la tecnologia per generare contenuti pre-registrati di voice-over e per leggere "risposte personalizzate in tempo reale" agli studenti, scritte da GPT-4.
OpenAI afferma di aver iniziato a sviluppare Voice Engine alla fine del 2022 e che la tecnologia ha già fornito voci preimpostate per l'API di sintesi vocale e la funzione di lettura ad alta voce di ChatGPT. In un'intervista con TechCrunch, Jeff Harris, un membro del team di prodotto di OpenAI per Voice Engine, ha affermato che il modello è stato addestrato su "un mix di dati concessi in licenza e disponibili pubblicamente". OpenAI ha comunicato che il modello sarà disponibile solo per pochi sviluppatori in questa prima fase.
La generazione di testo-voce con l'intelligenza artificiale è un'area in continua evoluzione. Mentre la maggior parte delle realtà si concentra sulla creazione di suoni strumentali, in pochi si sono specializzati sulla generazione vocale, in parte a causa di questioni legate a doppio filo alle licenze. Alcuni nomi in questo settore includono società come Podcastle e ElevenLabs, che forniscono tecnologia di clonazione vocale con intelligenza artificiale e strumenti di generazione di suoni naturali.
Secondo OpenAI, i suoi partner hanno concordato di rispettare le sue politiche che vietano di utilizzare Voice Generation per impersonare altri esseri umani viventi senza il loro consenso. OpenAI ha inoltre aggiunto un sistema di watermarking alle clip audio per tracciarne l'origine e monitorare attivamente come vengono utilizzate.
OpenAI ha suggerito diverse azioni che potrebbero limitare i rischi associati a strumenti come questi, tra cui l'eliminazione graduale dell'autenticazione vocale per accedere ai conti bancari, politiche per proteggere l'uso delle voci delle persone nell'IA, una maggiore educazione sui deepfake con intelligenza artificiale e lo sviluppo di sistemi di tracciamento dei contenuti AI.