Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Ricercatore di intelligenza artificiale e ingegnere del software, in missione per costruire un cluster di GPU DGX B200
- sei
- un laureato in CS a caso senza alcuna idea di come funzionano gli LLM
- ti stanchi delle persone che fanno gatekeeping con parole difficili e GPU piccole
- decidi di andare in modalità monaco
- 2 anni dopo posso spiegare i meccanismi di attenzione alle feste e rovinarle
- ecco la mappa della conoscenza proibita
- dall'alto verso il basso, come funzionano *davvero* gli LLM
- inizia dall'inizio
- testo → token
- token → embedding
- ora sei un numero in virgola mobile nello spazio 4D
- comportati di conseguenza
- embedding posizionali:
- assoluto: “io sono la posizione 5”
- rotativo (RoPE): “io sono un'onda sinusoidale”
- alibi: “scalo l'attenzione in base alla distanza come un hater”
- l'attenzione è tutto ciò di cui hai bisogno
- auto-attenzione: “a chi posso prestare attenzione?”
- multihead: “e se lo facessi 8 volte in parallelo?”
- QKV: query, key, value
- sembra una truffa crypto
- in realtà è il nucleo dell'intelligenza
- trasformatori:
- prendi i tuoi input
- schiacciali attraverso i livelli di attenzione
- normalizza, attiva, ripeti
- scarica i logit
- congratulazioni, hai appena inferito un token
- trucchi di campionamento per l'output finale:
- temperatura: quanto caotico vuoi essere
- top-k: campiona solo dalle prime K opzioni
- top-p: campiona dal gruppo più piccolo di token le cui probabilità sommano a p
- ricerca beam? non chiedere mai della ricerca beam
- cache kv = codice cheat
- salva chiavi e valori passati
- ti consente di saltare il ri-processamento dei vecchi token
- trasforma un modello da 90B da “aiutami, sto sciogliendo” a “genio in tempo reale”
- hack per contesti lunghi:
- finestra mobile: muovi l'attenzione come uno scanner
- attenzione infinita: presta attenzione in modo sparso, come un cecchino laser
- strati di memoria: memorizza pensieri come un diario con accesso in lettura
- miscela di esperti (MoE):
- non tutti i pesi contano
- instrada i token a diverse sotto-reti
- attiva solo ~3B parametri su 80B
- energia “solo gli esperti rispondono”
- attenzione alle query raggruppate (GQA):
- meno chiavi/valori rispetto alle query
- migliora la velocità di inferenza
- “voglio essere veloce senza essere stupido”
- normalizzazione e attivazioni:
- layernorm, RMSnorm
- gelu, silu, relu
- sembrano tutti Pokémon falliti
- ma rendono la rete stabile e fluida
- obiettivi di addestramento:
- LM causale: indovina la prossima parola
- LM mascherato: indovina la parola mancante
- previsione di intervallo, riempi il mezzo, ecc
- gli LLM sono stati addestrati all'arte di indovinare e ci sono riusciti
- sapori di tuning:
- finetuning: nuovi pesi
- tuning delle istruzioni: “per favore, comportati in modo utile”
- rlhf: rinforzo da vibrazioni e titoli clickbait
- dpo: ottimizzazione diretta delle preferenze — fondamentalmente “fai ciò che gli umani votano”
- leggi di scaling:
- più dati, più parametri, più calcolo
- la perdita diminuisce in modo prevedibile
- l'intelligenza è ora una voce di bilancio
- round bonus:
- quantizzazione:
- quantizzazione post-addestramento (PTQ)
- addestramento consapevole della quantizzazione (QAT)
- i modelli si riducono, l'inferenza diventa più economica
- gguf, awq, gptq — sono solo file zip con un po' di spezia in più
- stack di addestramento vs inferenza:
- deepspeed, megatron, fschat — per il dolore
- vllm, tgi, tensorRT-LLM — per la velocità
- tutti hanno un repo
- nessuno legge la documentazione
- dati sintetici:
- genera il tuo set di addestramento
- il modello si insegna da solo
- ciclo di feedback di conoscenza e allucinazione
- benvenuto nell'era dell'ouroboros
- segreto del boss finale:
- puoi imparare *tutto questo* in ~2 anni
- niente PhD
- niente 10x calcolo
- solo curiosità instancabile, buoni segnalibri e notti tardive
- le élite non vogliono che tu lo sappia
- ma ora che lo sai
- scegli di agire
- inizia ora
- costruisci i modelli
419
Principali
Ranking
Preferiti