O întrebare sinceră pentru toată lumea de aici: Ai fi interesat de o serie despre Optimizarea Inferenței LLM? Mă gândesc la lucruri de genul: - Cum funcționează de fapt cuantizarea (GGUF vs AWQ vs bitsandbytes, explicat simplu, fără detalii) - Ollama vs vLLM pentru implementarea locală și când să se folosească care - Decodare speculativă: accelerări de 2-3x fără a pierde calitatea - Cache KV și caching cu prompturi - Generarea structurată a ieșirii - Benchmarking și profilare inferenței LLM Dacă asta te-ar ajuta sau ți-ar stârni curiozitatea, răspunde pur și simplu spunându-mi interesul tău principal sau dacă ești de acord sau nu cu această idee. Dacă sunt destui oameni, voi începe asta în noul an.