Come il passaggio dalla fotografia al cinema, è ormai chiaro che il prossimo obbiettivo delle aziende che lavorano nel campo dell'intelligenza artificiale generativa è la creazione di contenuti video.
Ma se arrivare ai primi filmati ha richiesto più di cinquant'anni (dal 1826, nascita della fotografia, al 1878 con il primo filmato), con l'IA si ragiona in mesi, e l'ultima azienda ad annunciare una soluzione di questo tipo è Stability AI, il creatore del popolare modello di creazione di immagini Stable Diffusion.
Lanciato un paio di giorni fa, Stable Video Diffusion è uno strumento IA open source basato proprio sul modello omonimo di cui sopra, ed è stato rilasciato sotto forma di due modelli, SVD e SVD-XT. SVD trasforma le immagini fisse in video a 576×1024 pixel da 14 fotogrammi, mentre SVD-XT, che utilizza la stessa architettura, aumenta i frame a 24. Entrambi possono generare video tra 3 e 30 fotogrammi al secondo.
Secondo un articolo pubblicato a corredo dell'annuncio, SVD e SVD-XT sono stati inizialmente addestrati su un set di dati di milioni di video e poi ottimizzati su un set molto più piccolo tra le centinaia di migliaia e circa un milione di clip.
Non è chiaro da dove provengano quei video (secondo il documento da set di dati di ricerca pubblica), ma Stability ha già una serie di cause legate all'utilizzo illecito delle immagini per addestrare i suoi modelli, quindi ci auguriamo che abbia preso le precauzioni necessarie.
Ma come funzionano e come sono questi video? La generazione dei video richiede semplicemente un prompt di testo e, proprio come il primo filmato della storia, la durata (come tutti quelli attualmente creati dall'IA) è al momento breve, di quattro secondi, ma di qualità abbastanza elevata. O comunque paragonabile a quelli di Meta, Google e AI Runway.
I limiti sono nel contenuto: ci deve essere un movimento della "telecamera" o comunque dell'inquadratura, non possono mostrare del testo leggibile e i volti possono presentare distorsioni.
Ma se volete sapere come provarlo, preparatevi a una delusione. Stability infatti dichiara che, come accaduto per la prima versione di Stable Diffusion, Stable Video Diffusion è disponibile solo per scopi di ricerca.
Questo significa che si può accedere al modello solo attraverso una lista d'attesa accessibile dopo aver compilato un form in cui si dichiara l'appartenenza a un certo tipo di istituzioni e l'intenzione di creare contenuti per "strumenti educativi o creativi", "progettazione e altri processi artistici" e similari. Ma soprattutto non per creare intenzionalmente "rappresentazioni fattuali o vere di persone o eventi".
La tecnologia è sicuramente entusiasmante, e Stability AI intende implementarla a casi d'uso come la generazione di visualizzazioni a 360 gradi di oggetti, oltre a sviluppare altri modelli e uno strumento text-to-video che mostri suggerimenti di testo ai modelli sul web. L'obiettivo finale sembra essere la commercializzazione, e Stability, che sta bruciando milioni di dollari, intende applicare questo strumento alla pubblicità, all'intrattenimento, all'istruzione e molto altro.
Ma ci sono anche preoccupazioni. Problemi legati al copyright a parte, la storia ci insegna che questi modelli appariranno presto anche sul dark web, e non è difficile immaginare che lo strumento possa essere utilizzato per creare deepfake, visto che non sembrano esserci filtri integrati di contenuti.
Il prossimo futuro ci darà una risposta, quindi per il momento ci limitiamo a mostrarvi il video di presentazione.