Lezione 02 · ~12 min di lettura

Fondamenti: cos'è un Modello Linguistico?

Prima di aprire il cofano di un Transformer, mettiamoci d'accordo su cosa fanno davvero questi modelli — e cosa non fanno.

Un modello linguistico è, in fondo, un ottimo indovino. Data una sequenza di pezzi — parole, sillabe, persino note musicali — stima la probabilità di ciò che viene dopo. Tutto qui. La rivoluzione degli ultimi anni nasce dall'aver portato questa singola capacità a scale assurde.

Quando scrivi "il gatto è salito sul…" in un modello come GPT, esso non "cerca" cosa segue. Calcola una probabilità su tutto il suo vocabolario e ne sceglie una. Forse tetto. Forse tavolo. Forse tastiera, se ha letto abbastanza battute da programmatori.

I token sono gli atomi

I modelli non vedono lettere o parole — vedono token. Un token può essere una parola intera ("piano"), un suo pezzo ("in", "dimentic", "abile") o un singolo carattere. Il vocabolario è fisso, spesso intorno alle 50.000 voci, e ogni input viene affettato in pezzi presi da quella lista.

Provalo · tokenizer a sotto-parole (giocattolo)
ilpianofortecantamelodieindimenticabili

15 token · Nota come le parole lunghe come indimenticabili vengano divise in pezzi più piccoli. I tokenizer veri (BPE, SentencePiece) imparano queste divisioni da un enorme corpus di testo.

Perché i sotto-pezzi (subword)? Così il modello non incontra mai una parola che non sa rappresentare. Anche un nome inventato come "florbax" può essere tokenizzato come flor + bax.

Dai token ai vettori

Ogni token viene convertito in una lista di numeri — un vettore — chiamato embedding. Puoi pensarlo come una coordinata in uno spazio a moltissime dimensioni (spesso 768 o 1024). Parole con significati simili finiscono vicine in questo spazio. L'esempio classico: re − uomo + donna ≈ regina.

Lo stesso trucco vale per musica e immagini

Un piano roll può essere tokenizzato come triple (altezza, durata, intensità). Un'immagine può essere tagliata in patch da 16×16 pixel e ogni patch trattata come un token. Quando tutto diventa una sequenza di vettori, la stessa architettura funziona.

Addestramento: previsione, miliardi di volte

Gli LLM moderni si addestrano nascondendo il prossimo token in testi reali e chiedendo al modello di indovinarlo. Le risposte sbagliate vengono penalizzate, quelle giuste rinforzate. Ripeti per migliaia di miliardi di token tra internet, libri e codice e compare una capacità emergente: il modello inizia a produrre testo non solo plausibile parola per parola, ma coerente attraverso interi paragrafi.

Quella capacità — la coerenza a lungo raggio — è ciò che spiegheremo nella prossima lezione. Il trucco che la rende possibile si chiama attenzione.

Per approfondire

  • The Illustrated Transformer di Jay Alammar — la spiegazione visiva più letta al mondo, ottima per fissare embedding e flusso dei dati.
  • LLM Visualization di Brendan Bycroft — ricostruzione 3D dell'intera esecuzione di nano-GPT/GPT-2/GPT-3, token per token.