Upřímná otázka pro všechny tady: Měl byste zájem o sérii o optimalizaci inference v LLM? Myslím na věci jako: - Jak kvantizace skutečně funguje (GGUF vs AWQ vs bitsandbytes, vysvětleno jednoduše, bez zbytečných detailů) - Ollama vs vLLM pro lokální nasazení a kdy použít který - Spekulativní dekódování: 2-3x zrychlení bez ztráty kvality - KV cache a prompt cache - Strukturovaná generace výstupů - Benchmarking a profilování inference LLM Pokud by vám to pomohlo nebo vzbudilo vaši zvědavost, jednoduše mi odpovězte, že vás zajímá hlavně, nebo jestli s tímto nápadem souhlasíte či nesouhlasíte. Pokud bude dost lidí, začnu to v novém roce.