Fondamenti: cos'è un Modello Linguistico?
Prima di aprire il cofano di un Transformer, mettiamoci d'accordo su cosa fanno davvero questi modelli — e cosa non fanno.
Un modello linguistico è, in fondo, un ottimo indovino. Data una sequenza di pezzi — parole, sillabe, persino note musicali — stima la probabilità di ciò che viene dopo. Tutto qui. La rivoluzione degli ultimi anni nasce dall'aver portato questa singola capacità a scale assurde.
Quando scrivi "il gatto è salito sul…" in un modello come GPT, esso non "cerca" cosa segue. Calcola una probabilità su tutto il suo vocabolario e ne sceglie una. Forse tetto. Forse tavolo. Forse tastiera, se ha letto abbastanza battute da programmatori.
I token sono gli atomi
I modelli non vedono lettere o parole — vedono token. Un token può essere una parola intera ("piano"), un suo pezzo ("in", "dimentic", "abile") o un singolo carattere. Il vocabolario è fisso, spesso intorno alle 50.000 voci, e ogni input viene affettato in pezzi presi da quella lista.
15 token · Nota come le parole lunghe come indimenticabili vengano divise in pezzi più piccoli. I tokenizer veri (BPE, SentencePiece) imparano queste divisioni da un enorme corpus di testo.
Perché i sotto-pezzi (subword)? Così il modello non incontra mai una parola che non sa rappresentare. Anche un nome inventato come "florbax" può essere tokenizzato come flor + bax.
Dai token ai vettori
Ogni token viene convertito in una lista di numeri — un vettore — chiamato embedding. Puoi pensarlo come una coordinata in uno spazio a moltissime dimensioni (spesso 768 o 1024). Parole con significati simili finiscono vicine in questo spazio. L'esempio classico: re − uomo + donna ≈ regina.
Lo stesso trucco vale per musica e immagini
Un piano roll può essere tokenizzato come triple (altezza, durata, intensità). Un'immagine può essere tagliata in patch da 16×16 pixel e ogni patch trattata come un token. Quando tutto diventa una sequenza di vettori, la stessa architettura funziona.
Addestramento: previsione, miliardi di volte
Gli LLM moderni si addestrano nascondendo il prossimo token in testi reali e chiedendo al modello di indovinarlo. Le risposte sbagliate vengono penalizzate, quelle giuste rinforzate. Ripeti per migliaia di miliardi di token tra internet, libri e codice e compare una capacità emergente: il modello inizia a produrre testo non solo plausibile parola per parola, ma coerente attraverso interi paragrafi.
Quella capacità — la coerenza a lungo raggio — è ciò che spiegheremo nella prossima lezione. Il trucco che la rende possibile si chiama attenzione.
Per approfondire
- The Illustrated Transformer di Jay Alammar — la spiegazione visiva più letta al mondo, ottima per fissare embedding e flusso dei dati.
- LLM Visualization di Brendan Bycroft — ricostruzione 3D dell'intera esecuzione di nano-GPT/GPT-2/GPT-3, token per token.