Ai e Vj: un nuovo approccio alle club visuals

Nel maggio 1980 Merrill Aldighieri venne invitata a proiettare un video all’interno del nightclub ‘Hurrah’ di New York. Nelle sue intenzioni il video non doveva essere un semplice elemento di “accompagnamento” alla musica, ma sarebbe dovuto esserne parte integrante. Per raggiungere tale risultato Aldighieri pensò di adottare un approccio analogo a quello del Disc Jockey (DJ): produrre una serie di brevi clip che lei stessa avrebbe “mixato” in diretta esattamente come un DJ fa con i suoi dischi. La proiezione, in questo modo, avrebbe fortemente caratterizzato l’atmosfera del locale: non sarebbe stata solo un “arredo”, bensì un elemento centrale. L’idea apparentemente bizzarra si rivelò un vero e proprio colpo di genio: la serata al club  ’Hurrah’ fu un successo e Merril Aldighieri divenne inconsapevolmente la prima Visual Jockey (VJ) di un nightclub della storia.

credits: http://thewildreed.blogspot.com/2021/02/he-was-bigger-than-life-very.html
Merrill Aldighieri nel 1986 (fotografata da John A. Mozzer).

L’eco dell’evento giunse alla famosa Music Television Network la quale ebbe un ruolo fondamentale nel diffondere l’idea di Aldighieri. Fu così che nei decenni successivi, grazie alla diffusione sempre più capillare delle discoteche da un lato, e allo sviluppo tecnologico dall’altro (la grande rivoluzione digitale che aveva reso l’attività di video-editing più accessibile da ogni punto di vista) l’esperimento di Merril Aldighieri fu imitato e riproposto sino a diventare una consuetudine della club-culture. Negli anni 2000, pertanto, il mestiere del V-J è diventato popolare e alla portata dei meno esperti.

credits: https://commons.wikimedia.org/wiki/File:VJing_with_PureData_at_Zoo_Geneva.jpg
Il mestiere del “Vj”

Se la digitalizzazione ha senza ombra di dubbio stravolto il mondo, il recente avvento dell’intelligenza artificiale (AI) sembra presagire uno scenario altrettanto rivoluzionario.  Solo nei prossimi anni scopriremo se l’impatto di questa innovazione tecnologica sarà tale, quel che è certo è che negli ultimi sei mesi quella che sembrava materia per libri di fantascienza è divenuta attualità. Essa viene utilizzata in differenti contesti alcuni dei quali hanno già una chiara applicazione lavorativa (chat GPT, diagnostica/terapia medica, etc.), altri ancora vincolati ad un mondo più ludico (generazione di immagini dalla semplicemente descrizione, replicazione di voci “famose”, etc.)

Oggi vorrei raccontarvi di una sua applicazione  ancora poco conosciuta ma che potrebbe potenzialmente innovare in maniera sostanziale il mestiere del VJ: la generazione di video tramite AI. Tuttavia è opportuno prima fare una precisazione: attualmente sono stati diffusi al grande pubblico software di elaborazione digitale di immagini, non di video. Per ora la generazione di video passa per forza di cose da quella delle immagini; dunque, per non complicare la spiegazione è importante prima conoscere le basi di quest’ultima. L’Intelligenza artificiale permette di realizzare contenuti grafici a partire dalla semplice descrizione testuale di tali contenuti, tale input testuale (detto prompt) indica l’oggetto da realizzare (per esempio: un fiore), ma anche lo stile dell’immagine, vale a dire: un fiore cartoonesco, un fiore alla van-gogh, un fiore fotorealistico… Va da sè che sarà possibile utilizzare l’AI per creare sia immagini che tendono ad uno sbalorditivo fotorealismo sia per generare immagini più ‘creative e artistiche’. 

credits: Francesco Cerisano
Esempio di generazione di immagini attraverso input testuali

La generazione di video, invece, rappresenta una feature, come dire, secondaria, di questi software: l’AI è stata istruita a generare immagini a partire da un input testuale, ma la potenza di calcolo e la conseguente rapidità con cui il software permette di generare immagini in un numero sufficiente da poterle poi trattare come fossero dei ‘frame’ di un video, cioé giustapponendo l’una all’altra. L’animazione così generata è, per fare un paragone certamente eccessivo, qualcosa di più simile ad un video realizzato con la tecnica dello stop-motion, sebbene ovviamente dipenda dall’intenzione artistiche del creativo quale tipo di animazione realizzare a partire dalle immagini generate dall’AI. L’effetto  è dovuto al fatto che ogni frame della clip cambia in maniera percettibile ma non fastidiosa dando vita ad una sorta di “surrealismo onirico”. Infatti, lo spettatore sembra esperire la strana sensazione che si ha durante i sogni, nei quali ci troviamo di fronte ad una realtà distorta: che appare realistica ad un occhio meno attento ma mostra la sua natura psichedelica se analizzata più attentamente.

Credits: Francesco Cerisano
Esempio di generazione video attraverso prompt testuali

La generazione d’immagine e video per mezzo di un tool testuale semplifica notevolmente molti processi: processi che prima richiedevano giorni di lavoro, come la modellazione 3D, vengono completati in poche ore consentendo all’utente di concentrarsi su altri aspetti per la realizzazione di un prodotto progettualmente più complesso. A questo punto posso spiegare cosa intendo per “nuovo approccio alle club visuals”, che poi è il titolo del presente articolo. Intendo la “personalizzazione” del prodotto, cioé un livello progettuale più complesso, che conferisce al prodotto un valore aggiunto e che è fattibile per la notevole contrazione dei tempi di lavoro permessi dall’AI. Posso realizzare visual “su misura” avendo come soggetto non solo il “tema” della serata, ma gli stessi artisti che si esibiscono. Se prima dell’avvento dell’AI una tale personalizzazione era impensabile, ora non solo è fattibile ma è anche estremamente veloce ed efficace.

C’è tuttavia un piccolo dettaglio, volutamente omesso precedentemente, ma che ora necessario per spiegare come si può raggiungere la “personalizzazione” di cui vi sto parlando. L’utente utilizzatore dell’AI può contribuire allo sviluppo di tale macchina insegnandole a riconoscere e quindi riprodurre nuove cose (learning). Ad esempio, è possibile insegnare alla macchina il proprio volto, così che lei possa realizzare infinite versioni di se stessi e questa operazione, con una scheda video da 12GB di VRAM (il dettaglio più rilevante quando si parla di specifiche per l’AI), richiede appena 20 minuti.

Come funziona nella pratica il learning? L’utente dà in pasto alla macchina alcune foto della persona in questione e attraverso una serie di impostazioni l’AI imparerà a relazionare il volto di tale persona ad una parola assegnata che, se inserita nel prompt, riprodurrà tale volto. Un altro aspetto molto sorprendente del learning, che è stato essenziale per il mio lavoro, riguarda la qualità dell’output, che risulta elevata pur inserendo nell’input immagini di bassa qualità. Ciò permette di non essere obbligati a creare delle immagini “ad hoc” per il learning potendo attingere al vastissimo database di internet.

credits: Mattia Anastasi
Esempio di Learning (in foto Orlando Tagliolini “DJ MEX” fotografato da Mattia Anastasi)

E’ tuttavia indispensabile sottolineare, infine, che il valore aggiunto conferito dall’AI è raggiungibile solo quando l’utente utilizza correttamente questo complesso strumento. In altri termini, vi deve essere pur sempre un pensiero progettuale umano che la macchina non sarà mai in grado di sostituire. Premesso ciò, vi voglio raccontare della mia ultima esperienza da VJ alla serata (organizzata da FRESco. al Combo Social Club) in cui ho adottato questa nuova concezione. Ho cominciato proprio con il learning dei volti andando a rovistare nei profili Instagram dei DJ che si esibivano. Poi ho deciso che tipo di estetica volevo raggiungere optando per una old computer graphics immersa nella visione pop del mondo degli hackers. Ho quindi deciso di realizzare come visual principale il semplice modello del volto 3D dei vari artisti, utilizzando come input un video di partenza in modo da ottenere una coerenza maggiore e un risultato più simile al mio concept mentale. 

credits: Francesco Cerisano
Due frame estrapolati dall’input e dall’output

Successivamente ho “mixato” la visual con altri video realizzati con e senza AI ed immersi in un tono verde che amalgama il tutto perfettamente. Ho quindi realizzato 3 video di 45m in poco più di 24 ore che, per il tipo di prodotto realizzato, è indubbiamente impressionante. (per vedere più contenuti @wwwerhealthy )

credits: Francesco Cerisano
Utilizzare AI come strumento e non come fine…