Sora di OpenAI: cos'è e come funziona l'AI che crea video dal testo

7 months ago 205

cos'è e come funziona l'AI che crea video dal testo

A una prima occhiata, potreste pensare che non ci sia nulla di strano in questi video. Potrebbero sembrare spot pubblicitari, video musicali o semplici clip, ma dietro non ci sono cameraman, attori e registi. C'è l'intelligenza artificiale: tutto quello che vedete non esiste, ma è realistico in maniera sbalorditiva.

Stiamo parlando dell'ultimo prodotto dei creatori di DALL-E e ChatGPT: vediamo cos'è Sora di OpenAI e come funziona l'IA per creare video.

Creare video a partire da una descrizione sembrava fantascienza fino a pochi mesi fa, ma adesso con Sora è realtà. L'ultima creazione di OpenAI è in grado di impressionare con la sua capacità di produrre video realistici.

Tutto quello che bisogna fare è fornirgli un'immagine statica o una breve descrizione e premere Invio. Il modello AI potrà generare fino a un minuto di un video incredibilmente realistico.

Il tutto in tempi che i ricercatori che l'hanno provato hanno descritto come "andare a prendersi un burrito".

Il che dovrebbe significare poco, in tempi cinematografici.

Andiamo quindi a scoprire i dettagli su Sora, tenendo presente che nel momento in cui scriviamo non è ancora disponibile. OpenAI l'ha infatti rilasciato a un gruppo selezionato di artisti e hacker, ma gli esempi pubblicati hanno sconvolto gli appassionati. E non solo.

Indice

Cos'è Sora di OpenAI

Sora è un modello di intelligenza artificiale in grado di generare video completi a partire da testo. Basta inserire un prompt o un'immagine e il servizio genererà un video corrispondente alla descrizione.

OpenAI ha annunciato lo strumento il 15 febbraio e da allora tutti i social sono stati invasi dai video creati da OpenAI o da chi l'ha provato. Questo perché Sora non è ancora disponibile al pubblico.

Quello che si sa però è che Sora è in grado di creare video della durata massima di 1 minuto e ad altissima risoluzione. Non solo, ma i video risultano estremamente convincenti. Sia per quanto riguarda le inquadrature che le espressioni delle persone fino ai riflessi per passare alle leggi della fisica.

Anche i tempi di generazione sembrano ridotti. I ricercatori che l'hanno provato hanno affermato che per creare un video è necessario il tempo "per prendere un burrito". Immaginiamo nell'ordine della decina di minuti? Non è chiarissimo, ma sembra poco.

Open AI insiste molto sul fatto che stanno insegnando all'AI come comprendere e simulare il mondo fisico. Questo consente al modello non solo di comprendere cosa sta chiedendo l'utente, ma come gli oggetti interagiscono tra loro.

Come funziona Sora

In sostanza, Sora funziona come qualsiasi generatore di immagini AI, solo con molti più passaggi. I generatori di immagini AI utilizzano un metodo noto come modello di diffusione, che è appunto quello sfruttato da Sora.

La tecnica prevede di partire da un video che non presenta immagini ma un rumore di fondo, e gradualmente prende forma. Questo può avvenire perché al modello sono stati mostrati dei video con un testo di accompagnamento.

In questo testo viene spiegato al modello cosa succede nel video. Il che consente allo strumento AI di associare un'immagine a quello che accade. Ma non solo. Sora è anche in grado di generare un video anche da un'immagine, o riempire i fotogrammi di un video esistente.

Le novità di Sora: diffusione + trasformatore

Sora presenta diverse novità. La prima è la capacità di prendere in considerazione diversi fotogrammi contemporaneamente. Questo assicura che un soggetto rimanga lo stesso anche quando è temporaneamente fuori dal video. Per il cambio di inquadratura per esempio.

Inoltre il modello combina l'uso di un modello di diffusione con un'architettura di un trasformatore, come utilizzata da GPT.

OpenAI infatti conferma che il modello si basa sulle ricerche effettuate con DALL-E e ChatGPT.

L'architettura di un trasformatore permette di ottenere un migliore ridimensionamento. E infatti un modello di trasformatore simile a GPT è ottimo per determinare il layout dei fotogrammi video. Il modello di diffusione, invece, consente di creare i dettagli.

Normalmente, nei modelli di diffusione le immagini sono suddivise in "patch" rettangolari più piccole. Per i video, queste patch sono tridimensionali perché persistono nel tempo. Le patch possono essere pensate come l'equivalente di "token" nei grandi modelli linguistici. Sono quindi una componente di un insieme di immagini. La parte del trasformatore del modello organizza le patch e la parte di diffusione del modello genera il contenuto per ogni patch.

C'è poi un trucco per rendere la generazione di video computazionalmente fattibile. Il processo di creazione di patch utilizza una fase di riduzione della dimensionalità.

In questo modo il calcolo non deve avvenire su ogni singolo pixel per ogni singolo fotogramma.

Infine, Sora ha le stesse capacità di DALL-E e ChatGPT di seguire le istruzioni nella descrizione in maniera estremamente efficace.

Provare Sora

Se vi state chiedendo come si usa Sora, sappiate che nel momento in cui scriviamo non è possibile provarlo. OpenAI ha infatti aperto la sperimentazione solo a un piccolo numero di ricercatori e artisti, oltre e hacker chiamati "Red team".

Ricercatori e artisti sono coinvolti nel testare lo strumento per utilizzi positivi. Gli hacker invece stanno cercando possibili applicazioni dannose. Questa non è una procedura insolita da parte di OpenAI, che è sempre molto cauta nel rilasciare i propri modelli al pubblico.

È molto probabile che, superati i test, Sora diventi disponibile al pubblico in un futuro piuttosto prossimo (si pensa entro il 2024). Tuttavia, vista la sua potenza non è difficile immaginare che sia rilasciato solo a pagamento.

Esempi di Sora

Dai video che sono stati rilasciati finora, Sora sembra essere avanti anni luce rispetto a qualsiasi cosa abbiamo visto prima. Solo un anno fa, i primi tentativi di generazione di video con l'AI erano francamente imbarazzanti, come quello qui sotto.

Adesso, con Sora è cambiato tutto. Ecco alcuni di quelli più impressionanti.

Questo è uno dei più famosi, che mostra una donna camminare per le strade di Tokyo. Ecco il prompt utilizzato: "A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about".

Il video sotto invece è stato creato usando il seguente prompt: "A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view".

Qui sotto potete vedere una collezione di video pubblicata direttamente da OpenAI per mostrare le potenzialità di Sora.

A questi video ne sono seguiti altri, creati da studi di produzione professionali. Qui potete vederne una raccolta veramente incredibile, che danno le dimensioni di cosa è effettivamente capace questo strumento.

Quali sono i limiti di Sora

La stessa OpenAI nota le numerose limitazioni della versione attuale di Sora. Il modello, per quanto incredibile, non ha una comprensione implicita della fisica. Questo vuol dire che alcune regole fisiche del "mondo reale" potrebbero non essere sempre rispettate.

Un esempio di questo è che il modello non capisce causa ed effetto. Ad esempio, nel video seguente il prompt chiede l'esplosione di una rete dopo il canestro, ma come vedete non tutto va per il verso giusto. Prompt: "Basketball through hoop then explodes".

In questo video un dalmata che passa tra due finestre sembra galleggiare in aria.

Inoltre non è chiaro quanto sia affidabile Sora.

Quanti di questi video sono stati fatti prima di ottenere i risultati desiderati? Pensate a quante immagini dovete creare prima di ottenere quella che volete, e immaginate cosa potrebbe essere per i video.

Infine OpenAI non ha chiarito quali video ha usato per allenare il suo modello, il che ripropone la questione dei diritti d'autore. Brian Merchant, giornalista tecnologico, ha identificato almeno un caso. In un articolo, afferma che una clip di Sora sembra essere molto simile a un video probabilmente contenuto nel suo set di dati.

Quali sono i rischi di Sora

Come potete immaginare, Sora ha suscitato molte reazioni. Di stupore, ma anche di preoccupazione. Che il modello avrà un impatto sulla "settima arte" (la cinematografia), sembra scontato.

Ma si fermerà lì? È difficile valutare la portata di questo strumento. Ma se pensiamo alle polemiche sulle immagini generate dall'IA, possiamo farci un'idea di cosa possa fare un video.

Realismo = deepfake e disinformazione?

Sora è in grado di creare contenuti estremamente realistici, il che può portare a deepfake nelle mani sbagliate. Ovvero utilizzare personaggi famosi per creare situazioni non reali. Possiamo immaginare video promozionali per elezioni, o per favorire la diffusione di certe idee.

Quindi disinformazione, come paventato da Eske Montoya Martinez van Egerschot. La ricercatrice, Chief AI Governance and Ethics Officer di DigiDiplomacy, ha esplorato in un articolo l'impatto dell'IA sulle elezioni. E lo stesso ha fatto Bruce Schneier.

Contenuti dannosi

Un altro rischio riguarda la generazione di contenuti dannosi. Questi possono essere azioni violente oppure sessualmente esplicite, o contenuti per fomentare odio o attività illegali. Come proteggere i minori dalla fruizione di questi contenuti? Come avvisare che si tratta di finzione?

Pregiudizi e stereotipi

Ci siamo già passati. I contenuti creati da modelli di intelligenza artificiale generativa dipende fortemente dai dati su cui sono stati addestrati.

Questo significa che i pregiudizi culturali o gli stereotipi nei dati di allenamento possono portare agli stessi problemi nei video. Insomma, problemi "vecchi", ma che si ripresentano in una nuova veste.

Quando esce Sora

Come abbiamo già anticipato, Sora al momento è in fase di test e non è disponibile per gli utenti. OpenAI non ha annunciato date di un rilascio, ma i vari osservatori sono convinti che molto probabilmente avverrà nel 2024.

Read Entire Article