Ekte spørsmål til alle her: Kunne du tenke deg en serie om LLM-inferensoptimalisering? Jeg tenker ting som: - Hvordan kvantisering faktisk fungerer (GGUF vs AWQ vs bitsandbytes, enkelt forklart, uten fyllstoff) - Ollama vs vs vLLM for lokal utrulling og når man skal bruke hvilken - Spekulativ dekoding: 2-3x hastighetsøkninger uten kvalitetstap - KV-cache og prompt-caching - Strukturert utgangsgenerering - Benchmarking og profilering av LLM-inferens Hvis dette kan hjelpe deg eller vekke nysgjerrigheten din, bare svar og fortell meg hva du er mest interessert i, eller bare om du er enig eller uenig i denne ideen. Hvis nok folk er til stede, starter jeg dette i det nye året.