Lezione 03 · ~15 min di lettura

Il meccanismo di Attenzione

Una sola equazione, una sola idea: ogni token può chiedere a ogni altro token, “quanto sei rilevante per me?”

Prima del 2017 i modelli sequenziali leggevano il testo come lo leggi tu: una parola alla volta, cercando di ricordare quanto era venuto prima. Erano lenti e dimenticavano in fretta. Il Transformer ha buttato via quell'idea e l'ha sostituita con qualcosa di quasi imbarazzantemente semplice — far guardare ogni parola a tutte le altre, contemporaneamente.

Query, Key, Value

Per ogni token il modello produce tre vettori: una query (cosa sto cercando?), una key (cosa rappresento io?) e un value (quale informazione contribuirei?). Per decidere quanta attenzione il token A deve dare al token B, calcoliamo il prodotto scalare fra la query di A e la key di B. Numero grande = molta attenzione.

Questi pesi vengono normalizzati con una softmax così sommano a 1, e poi usati per mescolare tutti i vettori value. L'output di ogni token è una combinazione pesata delle informazioni di tutti gli altri.

"Multi-head" significa solo che facciamo questa operazione più volte in parallelo con diverse proiezioni Q/K/V apprese, così il modello può tracciare diversi tipi di relazione contemporaneamente (sintassi, significato, posizione…).

Provalo tu

Il sandbox qui sotto è una versione giocattolo — i pesi sono scelti a mano, non appresi. Ma l'interazione è reale: scegli una parola come query e guarda su quali altre si appoggia.

Provalo · sandbox di self-attention

Clicca una parola per renderla la query. La sfumatura mostra quanto fortemente quella parola presta attenzione a ogni altra — più scuro significa più attenzione.

QUERY

dorme

CONTESTO PRINCIPALE

gatto, tappeto

Ora fallo sul serio

Il widget qui sotto è il Transformer Explainer dal vivo di Cho et al. (Polo Club of Data Science, Georgia Tech), integrato direttamente nella lezione. Scrivi una frase breve nel prompt, poi clicca su un token per vedere accendersi i veri pesi di attenzione appresi da GPT-2 attraverso tutte e dodici le teste di attenzione.

IncorporatoProva a cliccare un token, poi espandi il blocco di self-attention multi-head.Apri in una nuova scheda ↗© Cho, Kim, Karpekov, Helbling, Wang, Lee, Hoover & Chau — Polo Club of Data Science, Georgia Tech (IEEE VIS 2024). Incorporato a scopo didattico secondo la licenza MIT del progetto.

Prova la frase "L'artista ha dipinto la tela perché lei". Nota quali teste prestano attenzione a lei e a quale parola precedente lo collegano. Quel riferimento incrociato fra token è esattamente il modo in cui un modello "sa" a chi si riferisce un pronome.

Fonte e crediti completi: poloclub.github.io/transformer-explainer.

Letture parallele consigliate

Per fissare l'idea con due punti di vista molto diversi:

Diagrammi

The Illustrated Transformer ↗

Jay Alammar — sezioni "Self-Attention in Detail" e "Matrix Calculation of Self-Attention".

3D interattivo

LLM Visualization ↗

Brendan Bycroft — naviga tra le matrici Q, K, V mentre vengono calcolate dentro nano-GPT.

Perché conta per l'arte

In un modello musicale, l'attenzione permette a una nota generata di guardare indietro al ritornello di trenta secondi prima e restare in tonalità. In un modello di immagini, permette alla pennellata nell'angolo di accorgersi della luce al centro. Senza attenzione a lungo raggio, l'arte generativa si sfalda dopo pochi secondi o pochi centimetri.

← Lezione 02 — Fondamenti Lezione 04 — Architettura →