Lezione 05 · ~14 min di lettura

Applicazioni: Musica e Arti Visive

Il Transformer è stato inventato per tradurre dal francese all'inglese. In cinque anni ha iniziato a scrivere quartetti d'archi e a dipingere nello stile di Hokusai. Stessa macchina.

Una volta accettato che qualunque cosa può essere trasformata in una sequenza di token, il Transformer diventa una sorta di motore universale di pattern. Musica? Una sequenza di note. Un'immagine? Una griglia di patch letta dall'alto in basso, da sinistra a destra. Un video? Una sequenza di fotogrammi di patch. L'architettura non cambia quasi mai; cambia solo il tokenizer.

Caso 1 — Musica

Modelli come MusicLM, Suno e l'open-source MusicGen di Meta generano audio direttamente. Usano un modello separato (un codec neurale) per comprimere l'audio grezzo in token audio discreti — circa cinquanta al secondo — e poi lasciano che un Transformer preveda il token successivo, esattamente come GPT prevede la parola successiva.

Per la musica simbolica (MIDI), un modello come Music Transformer (Magenta, 2018) tokenizza gli eventi come NOTE_ON, NOTE_OFF, TIME_SHIFT. Stessa idea, vocabolario più piccolo.

L'attenzione a lungo raggio è ciò che fa la differenza fra un loop di quattro battute e un brano con strofe e ritornello. Il modello si riferisce davvero al tema d'apertura quando scrive il bridge. Ascolta per crederci.

Ascolta

Esempi di MusicLM ↗

Google Research — campioni text-to-music

Leggi

Music Transformer ↗

Magenta — musica simbolica long-form con attenzione

Caso 2 — Immagini

I modelli di immagini si dividono in due famiglie. Quelli a diffusione (Stable Diffusion, Midjourney) partono dal rumore puro e lo raffinano gradualmente; la rete che rimuove il rumore al loro centro è, oggi, quasi sempre un Transformer. I modelli autoregressivi (Parti, il primo DALL·E) lavorano esattamente come GPT: generano una patch di immagine alla volta, in ordine di lettura.

In entrambi i casi è all'opera lo stesso meccanismo di attenzione con cui hai giocato nella Lezione 02. Quando il modello disegna un occhio nell'angolo di un ritratto, l'attenzione gli permette di ricordare il colore dell'altro occhio che ha già disegnato.

Domande critiche

Questi strumenti sono stati addestrati su enormi archivi di arte e musica fatte da esseri umani — di solito raccolti senza permesso esplicito. Come praticante creativo dovresti saper articolare, con argomenti, la tua posizione su:

Di chi è un'immagine generata il cui stile è inconfondibilmente quello di qualcun altro?
Usare un modello generativo nella tua opera finale è diverso dal campionare un disco? Dal ricalcare una foto?
Se un modello produce uno studio per pianoforte decoroso in tre secondi, qual è il valore di passare tre settimane a scriverne uno tu stesso?
Quale territorio artistico viene aperto da questi strumenti, prima inaccessibile?

Progetto finale

Realizza un breve artefatto generativo — un brano musicale di trenta secondi, una singola immagine, o un breve testo generato accompagnato da un'immagine. Consegnalo insieme a: tutti i prompt usati, tre scelte artistiche compiute, e una riflessione di un paragrafo sul fatto che il risultato sia o meno "tuo".

La risposta interessante non è quasi mai sì o no.

← Lezione 04 — Architettura Lezione 06 — ACE-Step →