Lezione 04 · ~10 min · interattiva

Dentro il Transformer

Un tour 3D, click-per-ispezionare, dell'architettura proposta in “Attention Is All You Need” — gli stessi mattoni che alimentano GPT, Suno e Stable Diffusion.

Il diagramma qui sotto è l'intera architettura proposta nel paper originale del 2017. Trascina per ruotare, scrolla per zoomare, clicca un blocco per leggerne la funzione. Due stack: l' encoder legge l'input, il decoder scrive l'output. I moderni modelli di chatbot (la famiglia GPT) usano solo il lato decoder — i modelli di traduzione come l'originale usano entrambi.

trascina per ruotare · scrolla per zoomare · clicca un blocco

Leggere il diagramma

In basso l'input, in alto l'output. L'informazione fluisce verso l'alto attraverso ogni stack. La freccia diagonale tra i due stack è la cross-attention: il decoder, mentre scrive, può guardare indietro all'output completamente elaborato dall'encoder. È così che un modello di traduzione tiene a mente il senso della frase di partenza mentre sceglie le parole nella lingua di destinazione.

Ogni blocco viene ripetuto N volte — sei nel paper originale, novantasei in GPT-3. Più strati danno al modello più possibilità di raffinare la sua rappresentazione di ogni token. È in parte per questo che modelli più grandi spesso funzionano meglio: pensano più a lungo.

Confronta con il modello dal vivo

Il nostro modello 3D mostra l'architettura come uno schema pulito. Per vedere numeri reali — pesi di attenzione veri, probabilità vere, su un vero GPT-2 — qui sotto è incorporato il Transformer Explainer di Cho et al. (Polo Club, Georgia Tech). Seguilo blocco per blocco: trova lo step di embedding, la self-attention multi-head e la softmax finale che sceglie il token successivo.

IncorporatoGPT-2 in esecuzione dentro il browser. Confronta ogni blocco qui con lo stesso blocco nel diagramma 3D sopra.Apri in una nuova scheda ↗© Cho, Kim, Karpekov, Helbling, Wang, Lee, Hoover & Chau — Polo Club of Data Science, Georgia Tech (IEEE VIS 2024). Incorporato a scopo didattico secondo la licenza MIT del progetto.

Una terza prospettiva: il Transformer in 3D, calcolo per calcolo

Brendan Bycroft ha realizzato una visualizzazione 3D in cui si vede materialmente l'esecuzione di un LLM: matrici di pesi, vettori di attivazione, prodotti scalari, tutto reso navigabile. È un complemento eccellente al nostro diagramma astratto perché mostra cosa succede ai numeri quando il modello processa un token.

Lettura di accompagnamento

Per la spiegazione testuale di ogni singolo blocco, il riferimento canonico in lingua inglese resta The Illustrated Transformer di Jay Alammar. Confronta i suoi diagrammi con i blocchi del modello 3D qui sopra: vedrai che parlano della stessa cosa.

Esercizio

Su un foglio di carta, ridisegna l'architettura a memoria ed etichetta ogni blocco con una frase tua che ne spieghi la funzione.