Echte vraag voor iedereen hier: Zou je geïnteresseerd zijn in een serie over LLM Inference Optimalisatie? Ik denk aan dingen zoals: - Hoe kwantisatie eigenlijk werkt (GGUF vs AWQ vs bitsandbytes, eenvoudig uitgelegd, geen poespas) - Ollama vs vLLM voor lokale implementatie en wanneer je welke moet gebruiken - Speculatieve decodering: 2-3x versnellingen zonder kwaliteitsverlies - KV-cache en promptcaching - Gestructureerde outputgeneratie - Benchmarking en profilering van LLM-inferentie Als dit je zou helpen of je nieuwsgierigheid zou prikkelen, reageer dan gewoon met je belangrijkste interesse, of gewoon of je het eens of oneens bent met dit idee. Als genoeg mensen geïnteresseerd zijn, begin ik dit in het nieuwe jaar.