A pesquisa da NVIDIA acaba de tornar os LLMs 53x mais rápidos. 🤯 Imagine reduzir seu orçamento de inferência de IA em 98%. Essa descoberta não requer o treinamento de um novo modelo do zero; ela atualiza os seus existentes para hiper-velocidade enquanto iguala ou supera a precisão SOTA. Veja como funciona: A técnica é chamada de Post Neural Architecture Search (PostNAS). É um processo revolucionário para adaptar modelos pré-treinados. Congele o Conhecimento: Começa com um modelo poderoso (como o Qwen2.5) e bloqueia suas camadas MLP principais, preservando sua inteligência. Substituição Cirúrgica: Em seguida, utiliza uma busca consciente de hardware para substituir a maioria das camadas de atenção total lentas, O(n²), por um novo design de atenção linear hiper-eficiente chamado JetBlock. Otimize para Throughput: A busca mantém algumas camadas de atenção total em posições exatas necessárias para raciocínio complexo, criando um modelo híbrido otimizado para velocidade em GPUs H100. O resultado é o Jet-Nemotron: uma IA entregando 2.885 tokens por segundo com desempenho de modelo de primeira linha e um cache KV 47x menor. Por que isso é importante para sua estratégia de IA: - Líderes Empresariais: Um aumento de 53x na velocidade se traduz em uma redução de custo de ~98% para inferência em grande escala. Isso muda fundamentalmente o cálculo de ROI para a implementação de IA de alto desempenho. - Praticantes: Isso não é apenas para data centers. Os enormes ganhos de eficiência e o pequeno espaço de memória (cache de 154MB) tornam possível implantar modelos de nível SOTA em hardware com restrições de memória e em edge. - Pesquisadores: O PostNAS oferece um novo paradigma capital-eficiente. Em vez de gastar milhões em pré-treinamento, agora você pode inovar na arquitetura modificando modelos existentes, reduzindo drasticamente a barreira de entrada para a criação de LMs novos e eficientes.
320,49K