Il meccanismo di Attenzione
Una sola equazione, una sola idea: ogni token può chiedere a ogni altro token, “quanto sei rilevante per me?”
Prima del 2017 i modelli sequenziali leggevano il testo come lo leggi tu: una parola alla volta, cercando di ricordare quanto era venuto prima. Erano lenti e dimenticavano in fretta. Il Transformer ha buttato via quell'idea e l'ha sostituita con qualcosa di quasi imbarazzantemente semplice — far guardare ogni parola a tutte le altre, contemporaneamente.
Query, Key, Value
Per ogni token il modello produce tre vettori: una query (cosa sto cercando?), una key (cosa rappresento io?) e un value (quale informazione contribuirei?). Per decidere quanta attenzione il token A deve dare al token B, calcoliamo il prodotto scalare fra la query di A e la key di B. Numero grande = molta attenzione.
Questi pesi vengono normalizzati con una softmax così sommano a 1, e poi usati per mescolare tutti i vettori value. L'output di ogni token è una combinazione pesata delle informazioni di tutti gli altri.
"Multi-head" significa solo che facciamo questa operazione più volte in parallelo con diverse proiezioni Q/K/V apprese, così il modello può tracciare diversi tipi di relazione contemporaneamente (sintassi, significato, posizione…).
Provalo tu
Il sandbox qui sotto è una versione giocattolo — i pesi sono scelti a mano, non appresi. Ma l'interazione è reale: scegli una parola come query e guarda su quali altre si appoggia.
Clicca una parola per renderla la query. La sfumatura mostra quanto fortemente quella parola presta attenzione a ogni altra — più scuro significa più attenzione.
Ora fallo sul serio
Il widget qui sotto è il Transformer Explainer dal vivo di Cho et al. (Polo Club of Data Science, Georgia Tech), integrato direttamente nella lezione. Scrivi una frase breve nel prompt, poi clicca su un token per vedere accendersi i veri pesi di attenzione appresi da GPT-2 attraverso tutte e dodici le teste di attenzione.
Prova la frase "L'artista ha dipinto la tela perché lei". Nota quali teste prestano attenzione a lei e a quale parola precedente lo collegano. Quel riferimento incrociato fra token è esattamente il modo in cui un modello "sa" a chi si riferisce un pronome.
Fonte e crediti completi: poloclub.github.io/transformer-explainer.
Letture parallele consigliate
Per fissare l'idea con due punti di vista molto diversi:
Perché conta per l'arte
In un modello musicale, l'attenzione permette a una nota generata di guardare indietro al ritornello di trenta secondi prima e restare in tonalità. In un modello di immagini, permette alla pennellata nell'angolo di accorgersi della luce al centro. Senza attenzione a lungo raggio, l'arte generativa si sfalda dopo pochi secondi o pochi centimetri.