Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Upřímná otázka pro všechny tady:
Měl byste zájem o sérii o optimalizaci inference v LLM?
Myslím na věci jako:
- Jak kvantizace skutečně funguje (GGUF vs AWQ vs bitsandbytes, vysvětleno jednoduše, bez zbytečných detailů)
- Ollama vs vLLM pro lokální nasazení a kdy použít který
- Spekulativní dekódování: 2-3x zrychlení bez ztráty kvality
- KV cache a prompt cache
- Strukturovaná generace výstupů
- Benchmarking a profilování inference LLM
Pokud by vám to pomohlo nebo vzbudilo vaši zvědavost, jednoduše mi odpovězte, že vás zajímá hlavně, nebo jestli s tímto nápadem souhlasíte či nesouhlasíte.
Pokud bude dost lidí, začnu to v novém roce.
Top
Hodnocení
Oblíbené
