- sunteți - un absolvent CS aleatoriu cu 0 indiciu despre cum funcționează LLM-urile - obosește de oamenii care păstrează cu cuvinte mari și GPU-uri mici - decideți să treceți la modul călugăr complet - 2 ani mai târziu pot explica mecanismele de atenție la petreceri și le pot distruge - Iată harta cunoștințelor interzise - de sus în jos, cum funcționează LLM-urile *de fapt* - începe cu începutul - text → jetoane - jetoane → încorporari - acum sunteți un număr în virgulă mobilă în spațiul 4D - vibrează în consecință - încorporari poziționale: - Absolut: "Sunt poziția 5" - rotativ (RoPE): "sunt o undă sinusoidală" - Alibi: "Scalez atenția după distanță ca un hater" - atenția este tot ce ai nevoie - Atenție de sine: "Cui am voie să fiu atent?" - Multihead: "Ce se întâmplă dacă fac asta de 8 ori în paralel?" - QKV: interogare, cheie, valoare - sună ca o înșelătorie cripto - de fapt nucleul inteligenței -Transformatoare: - luați contribuțiile dvs. - zdrobiți-le prin straturile de atenție...