Dentro il Transformer
Un tour 3D, click-per-ispezionare, dell'architettura proposta in “Attention Is All You Need” — gli stessi mattoni che alimentano GPT, Suno e Stable Diffusion.
Il diagramma qui sotto è l'intera architettura proposta nel paper originale del 2017. Trascina per ruotare, scrolla per zoomare, clicca un blocco per leggerne la funzione. Due stack: l' encoder legge l'input, il decoder scrive l'output. I moderni modelli di chatbot (la famiglia GPT) usano solo il lato decoder — i modelli di traduzione come l'originale usano entrambi.
Leggere il diagramma
In basso l'input, in alto l'output. L'informazione fluisce verso l'alto attraverso ogni stack. La freccia diagonale tra i due stack è la cross-attention: il decoder, mentre scrive, può guardare indietro all'output completamente elaborato dall'encoder. È così che un modello di traduzione tiene a mente il senso della frase di partenza mentre sceglie le parole nella lingua di destinazione.
Ogni blocco viene ripetuto N volte — sei nel paper originale, novantasei in GPT-3. Più strati danno al modello più possibilità di raffinare la sua rappresentazione di ogni token. È in parte per questo che modelli più grandi spesso funzionano meglio: pensano più a lungo.
Confronta con il modello dal vivo
Il nostro modello 3D mostra l'architettura come uno schema pulito. Per vedere numeri reali — pesi di attenzione veri, probabilità vere, su un vero GPT-2 — qui sotto è incorporato il Transformer Explainer di Cho et al. (Polo Club, Georgia Tech). Seguilo blocco per blocco: trova lo step di embedding, la self-attention multi-head e la softmax finale che sceglie il token successivo.
Una terza prospettiva: il Transformer in 3D, calcolo per calcolo
Brendan Bycroft ha realizzato una visualizzazione 3D in cui si vede materialmente l'esecuzione di un LLM: matrici di pesi, vettori di attivazione, prodotti scalari, tutto reso navigabile. È un complemento eccellente al nostro diagramma astratto perché mostra cosa succede ai numeri quando il modello processa un token.
Lettura di accompagnamento
Per la spiegazione testuale di ogni singolo blocco, il riferimento canonico in lingua inglese resta The Illustrated Transformer di Jay Alammar. Confronta i suoi diagrammi con i blocchi del modello 3D qui sopra: vedrai che parlano della stessa cosa.
Esercizio
Su un foglio di carta, ridisegna l'architettura a memoria ed etichetta ogni blocco con una frase tua che ne spieghi la funzione.