Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ekte spørsmål til alle her:
Kunne du tenke deg en serie om LLM-inferensoptimalisering?
Jeg tenker ting som:
- Hvordan kvantisering faktisk fungerer (GGUF vs AWQ vs bitsandbytes, enkelt forklart, uten fyllstoff)
- Ollama vs vs vLLM for lokal utrulling og når man skal bruke hvilken
- Spekulativ dekoding: 2-3x hastighetsøkninger uten kvalitetstap
- KV-cache og prompt-caching
- Strukturert utgangsgenerering
- Benchmarking og profilering av LLM-inferens
Hvis dette kan hjelpe deg eller vekke nysgjerrigheten din, bare svar og fortell meg hva du er mest interessert i, eller bare om du er enig eller uenig i denne ideen.
Hvis nok folk er til stede, starter jeg dette i det nye året.
Topp
Rangering
Favoritter
