Lezione 04 · ~10 min · interattiva

Dentro il Transformer

Un tour 3D, click-per-ispezionare, dell'architettura proposta in “Attention Is All You Need” — gli stessi mattoni che alimentano GPT, Suno e Stable Diffusion.

Il diagramma qui sotto è l'intera architettura proposta nel paper originale del 2017. Trascina per ruotare, scrolla per zoomare, clicca un blocco per leggerne la funzione. Due stack: l' encoder legge l'input, il decoder scrive l'output. I moderni modelli di chatbot (la famiglia GPT) usano solo il lato decoder — i modelli di traduzione come l'originale usano entrambi.

trascina per ruotare · scrolla per zoomare · clicca un blocco

Leggere il diagramma

In basso l'input, in alto l'output. L'informazione fluisce verso l'alto attraverso ogni stack. La freccia diagonale tra i due stack è la cross-attention: il decoder, mentre scrive, può guardare indietro all'output completamente elaborato dall'encoder. È così che un modello di traduzione tiene a mente il senso della frase di partenza mentre sceglie le parole nella lingua di destinazione.

Ogni blocco viene ripetuto N volte — sei nel paper originale, novantasei in GPT-3. Più strati danno al modello più possibilità di raffinare la sua rappresentazione di ogni token. È in parte per questo che modelli più grandi spesso funzionano meglio: pensano più a lungo.

Confronta con il modello dal vivo

Il nostro modello 3D mostra l'architettura come uno schema pulito. Per vedere numeri reali — pesi di attenzione veri, probabilità vere, su un vero GPT-2 — qui sotto è incorporato il Transformer Explainer di Cho et al. (Polo Club, Georgia Tech). Seguilo blocco per blocco: trova lo step di embedding, la self-attention multi-head e la softmax finale che sceglie il token successivo.

IncorporatoGPT-2 in esecuzione dentro il browser. Confronta ogni blocco qui con lo stesso blocco nel diagramma 3D sopra.Apri in una nuova scheda ↗© Cho, Kim, Karpekov, Helbling, Wang, Lee, Hoover & Chau — Polo Club of Data Science, Georgia Tech (IEEE VIS 2024). Incorporato a scopo didattico secondo la licenza MIT del progetto.

Una terza prospettiva: il Transformer in 3D, calcolo per calcolo

Brendan Bycroft ha realizzato una visualizzazione 3D in cui si vede materialmente l'esecuzione di un LLM: matrici di pesi, vettori di attivazione, prodotti scalari, tutto reso navigabile. È un complemento eccellente al nostro diagramma astratto perché mostra cosa succede ai numeri quando il modello processa un token.

Apri LLM Visualization di Brendan Bycroft ↗

Lettura di accompagnamento

Per la spiegazione testuale di ogni singolo blocco, il riferimento canonico in lingua inglese resta The Illustrated Transformer di Jay Alammar. Confronta i suoi diagrammi con i blocchi del modello 3D qui sopra: vedrai che parlano della stessa cosa.

Esercizio

Su un foglio di carta, ridisegna l'architettura a memoria ed etichetta ogni blocco con una frase tua che ne spieghi la funzione.

← Lezione 03 — Attenzione Lezione 05 — Arti creative →