🚀 Suporte do Dia 0: Kimi K2 Thinking agora a funcionar no vLLM! Em parceria com @Kimi_Moonshot, temos o orgulho de oferecer suporte oficial para o modelo de pensamento de última geração com 1T de parâmetros, 32B ativos. Implantação fácil no vLLM (versão noturna) com API compatível com OpenAI: O que o torna especial: ⚡ Quantização nativa INT4 → 2× mais rápido na inferência 💾 Metade da pegada de memória, sem perda de precisão 🎯 Contexto de 256K, estável em 200-300 chamadas de ferramentas 🎯 Receita oficial e guia de implantação incluídos Raciocínio de classe mundial, agora acessível a todos. 📦 Modelo: 📚 Receitas: #vLLM #KimiK2 #LLMInference