SORA non ucciderà il Cinema!

di Mateusz Miroslaw Lis

L’11 maggio 2024 è stato pubblicato sul canale YouTube di OpenAI il cortometraggio Deflated (2024) sequel al tanto discusso air head (2024), il primo corto “interamente” generato del modello text-to-video SORA della stessa OpenAI. Il protagonista di entrambi i corti è un uomo con la testa a forma di palloncino giallo, come quelli delle feste di compleanno. Entrambi i video seguono in maniera pseudo-documentaristica la sua vita, le sue difficoltà, i suoi sogni. La trovata curiosa del palloncino giallo, che ha sicuramente aiutato nel rendere virale air head, potrebbe essere considerata una scelta artistica, magari per aumentare l’immedesimazione del pubblico nel protagonista; essa però è frutto di un puro e semplice limite della tecnologia utilizzata.

air head (2024)

Sarà capitato ormai a tutti di vedere qualche immagine generata da questi modelli di IA generativa. É altrettanto probabile che tra tutte queste immagini sintetiche che iniziano a circolare (e inquinare!) le rete sia capitato di vedere qualche mano mal disegnata, qualche volto distorto, qualche dettaglio fuori posto. Queste imprecisioni dei sistemi generativi (dette “allucinazioni” in gergo tecnico) sono uno dei tanti fenomeni che assediano e riducono le reali capacità produttive degli attuali modelli di IA. Chi effettivamente utilizza e conosce questi strumenti deve fare sempre più i conti con l’aspetto più negativo del nuovo paradigma generativo: la sua imprevedibilità. Lasciando perdere i guru del prompting e dell’IA che promettono utopie produttive a botte di “top 10 prompt da usare su ChatGPT”, la lenta e metodica integrazione di questi tools nei workflow di studi grafici o case di produzione audiovisiva trova ad oggi molteplici ostacoli che ne riducono l’efficacia. Il palloncino giallo di air head e di Deflated è figlio proprio di questi problemi di allucinazione e imprevedibilità.

Giocando con un qualsiasi sistema generativo di immagini, ben presto ci si accorge che anche la task più semplice, come posizionare un personaggio in una determinata composizione o mantenere la coerenza tra una generazione e la successiva, risulta parecchio difficile. Sebbene poi esistano pratiche di prompting e sistemi aggiuntivi come ControlNet e i LoRA per superare queste difficoltà, la loro integrazione trasforma il semplice atto di scrivere un prompt in un workflow dedicato, affine ai complessi processi di post-produzione di un blockbuster. Se si vogliono ottenere dei risultati coerenti e di qualità, non c’è prompt che regga. A quel punto però forse costerebbe di meno assumere un disegnatore o un fotografo. Questo fraintendimento circa le reali potenzialità dei sistemi generativi non fa che peggiorare, quando si considerano i modelli per la generazione di video. Per quanto gli investimenti e i tecnici del settore cerchino di nasconderlo, gli attuali modelli text-to-video non sono ancora in grado di produrre risultati di qualità. Anche modelli come SORA, sebbene migliori di molti altri, continuano a produrre artefatti e allucinazioni. Specialmente nella generazione di volti e dettagli umani non c’è modo di mantenere una coerenza e una qualità sufficiente: ecco quindi spiegato Palloncino Giallo.
A uno sguardo più attento, ci si accorge ben presto che le produzioni di questi primi esperimenti generativi risentono di notevoli omissioni da parte dei provider di IA, interessati prevalentemente nel presentare i loro prodotti come perfetti e rivoluzionari. Scopriamo quindi che airhead è stato vittima di una post-produzione molto impegnativa per correggere le imprecisioni del girato prodotto da SORA e che il rapporto tra clip generate dal modello e clip effettivamente utilizzate nel film finale arriva addirittura a 300:1. Considerando infine che la generazione per ciascun minuto di video richiede circa 15 minuti, ci troviamo di fronte a un tempo di produzione di circa 102 ore per tutto air head, della durata finale di appena 1 minuto e 22 secondi (e si parla solo del tempo per ottenere il girato sintetico!).
Qualunque siano i miglioramenti nella computazione del tutto, se questi sono gli effettivi ordini di grandezza (purtroppo siamo vincolati a stime non ufficiali), con gli attuali costi di produzione tradizionale, sarebbe stato molto più economico, almeno in termini di tempo, produrre air head con i mezzi classici del cinema tradizionale. I modelli generativi non solo richiedono molte più iterazioni per ottenere i risultati richiesti ma sono anche vincolati a certe tipologie di formati (SORA produce video in H264) totalmente inutilizzabili nelle abituali produzioni cinematografiche. Su questi output quindi (già scarsi in qualità) non è neanche possibile seguire i processi standard di post-produzione come il color grading o altri tipi di correzioni.

L’attuale hype attorno all’IA generativa sta lentamente erodendo il dissenso anche degli utenti più tradizionalisti. Le promesse circa i guadagni di produttività sbloccati da questi strumenti sono totalmente disancorate dalle reali potenzialità della tecnologia, almeno per quanto riguarda l’audiovisivo. Con i limiti di oggi non c’è alcun incentivo economico per fiondarsi su produzioni full-IA. Ad esempio, se anche l’uso di SORA e modelli affini fosse gratuito, nessun produttore sano di mente impiegherebbe un prompter per oltre 6.750 ore, quelle che servirebbero per produrre il girato di un lungometraggio di 90 minuti, ovvero 843 giorni di lavoro (facendolo lavorare solo per 8 ore al giorno). E se anche lo facesse, il prodotto non sarebbe comunque della qualità auspicata. Tra tutte queste criticità si salva forse l’utilizzo ibrido in produzioni veramente indipendenti, dove per qualche clip di particolare difficoltà tecnica (magari “un ponte in fiamme”) il costo di realizzazione resta comunque eccessivo rispetto a qualche ora di generazione sintetica.

Quello che né le case di produzione né le aziende di IA riescono a capire è che non saranno i modelli generativi text-to-qualcosa a determinare i guadagni tanto promessi, bensì quel variegato ecosistema di piccoli modelli IA che si occupano di linearizzare e ottimizzare le numerose e noiose task già presenti nei workflow di produzione. Tra queste troviamo i modelli di riduzione del rumore, quelli per l’upscaling, le mappe di profondità e il relighting; tutto quello che ha a che vedere con il motion capture! il casting! il location scouting! la logistica! la distribuzione!

Tutte cose profondamente noiose da spiegare e sicuramente anche da vendere.

Deflated (2024)