Viktiga ämnen för att lära dig hur LLM:er fungerar, allt som krävs är < 2 år om du har CS Foundation > tokenisering och inbäddningar > positionella inbäddningar (absolut, rep, alibi) > självuppmärksamhet och uppmärksamhet med flera huvuden > transformatorer > qkv > provtagningsparametrar: temperatur, top-k top-p > kv-cache (och varför slutsatsdragningen är snabb) > Infini Attention & Sliding Window (långa kontext tricks) > blandning av experter (moe routing layers) > grupperad fråga uppmärksamhet > normalisering och aktiveringar > förträningsmål (kausala, maskerade, etc.) > finjustering vs instruktionstrimning vs rlhf > skalningslagar och modellkapacitetskurvor Bonusämnen: > kvantiseringar - QAT vs PTQ (ggufs, AWQ, etc.) > träning jämfört med inferensstackar (DeepSpeed, vllm osv.) > generering av syntetisk data