OpenAI continua a lavorare su Sora, la sua IA generativa per i video, capace di creare brevi filmati a partire da semplici prompt. Dopo averla annunciata lo scorso 16 febbraio, OpenAI ha continuato a pubblicare diverse clip sui social, per mostrare al pubblico le potenzialità del nuovo servizio, che per il momento, lo ricordiamo, non è ancora accessibile. E come avrete già capito, alcuni di questi filmati sono davvero impressionanti.
Prompt: "an older man with gray hair and glasses devours a delicious cheese burger. the bun is speckled with sesame seeds, fresh lettuce, a slice of cheese, and a golden brown beef patty. his eyes are closed in enjoyment as he takes a bite. he wears a red jacket and appears to be sitting inside a fast food restaurant".
Sarà merito anche dello slow motion o della semplicità in sé, ma questo è uno di quei video generati dalla IA che a colpo d'occhio è impossibile distinguere da uno vero.
L'impugnatura delle mani sull'hamburger, i movimenti della bocca: mancano giusto un po' di briciole, ma a meno di non andare a cercarlo è difficile vedere il falso.
Prompt: "A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives".
Qui è già più evidente: le ombre ogni tanto vanno per conto loro, i movimenti della macchina sembrano quelli di un videogioco, però i riflessi e l'atmosfera comunque ingannano, e se la pensate magari come un b-roll, un clip di intermezzo inserita in un qualcosa di più ampio, è difficile che l'occhio dello spettatore non venga ingannato. Il prompt poi era davvero molto semplice, ma nonostante questo il risultato è credibile.
Un altro modo affascinante di usare Sora è quello di partire da dei video già esistenti, non per forza da un input testuale. Nell'esempio qui sotto, Sora ha combinato i due video in alto e in basso, producendo quello che trovate nel mezzo: una transizione uniforme che dal primo filmato ti porta nel secondo.
Bellissimo il momento in cui il drone diventa una farfalla, e tutto attorno a lui comincia a cambiare (nota a margine: anche le clip sorgente erano generate da Sora).
Un'altra fonte di input per Sora possono essere le immagini. In questo caso abbiamo un'immagine statica, generata (ovviamente) da DALL-E 3, che Sora ha animato in un modo tutto sommato credibile, per quanto in questo caso sia facile scorgere qualcosa che non va qua e là. È comunque impressionante il fatto che tutto sia partito da una semplice immagine, per di più non "autentica" di per sé.
Chiariamo le cose: Sora è ancora piena di difetti, imprecisioni, ed esattamente come le IA generative testuali tende a inventare cose che non esistono per soddisfare i suoi prompt. Qui sotto vi potete fare un'idea di alcuni di questi limiti, ma tenete conto che non a caso si tratta di un modello che non è disponibile al grande pubblico, e se pensate che fino a un anno fa la generazione di video tramite IA non avrebbe mai ingannato nessuno, mentre adesso siamo già a questo livello, immaginatevi a che punto saremo tra qualche anno.
Per fortuna OpenAI ha diversi "paletti", sia su ChatGPT che su DALL*E, e Sora non farà eccezione. Ci preoccupano magari un po' di più delle decine di alternative che nel frattempo fioriranno, che renderanno il problema dei deepfake sempre più attuale; e se pensate che stiamo esagerando, leggete questo articolo di The Verge su come le prossime elezioni americane potrebbero già essere a rischio (non che il passato sia cristallino).