DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

La investigación de NVIDIA acaba de hacer que los LLM sean 53 veces más rápidos. 🤯 Imagina reducir tu presupuesto de inferencia de IA en un 98%. Este avance no requiere entrenar un nuevo modelo desde cero; actualiza los que ya tienes para una velocidad hiper-rápida mientras iguala o supera la precisión SOTA. Así es como funciona: La técnica se llama Búsqueda de Arquitectura Neuronal Posterior (PostNAS). Es un proceso revolucionario para adaptar modelos preentrenados. Congelar el Conocimiento: Comienza con un modelo potente (como Qwen2.5) y bloquea sus capas MLP centrales, preservando su inteligencia. Reemplazo Quirúrgico: Luego utiliza una búsqueda consciente del hardware para reemplazar la mayoría de las capas de atención completa lentas, O(n²), con un nuevo diseño de atención lineal hiper-eficiente llamado JetBlock. Optimizar para el Rendimiento: La búsqueda mantiene algunas capas clave de atención completa en las posiciones exactas necesarias para el razonamiento complejo, creando un modelo híbrido optimizado para velocidad en GPUs H100. El resultado es Jet-Nemotron: una IA que entrega 2,885 tokens por segundo con un rendimiento de modelo de primer nivel y una caché KV 47 veces más pequeña. Por qué esto es importante para tu estrategia de IA: - Líderes Empresariales: Un aumento de velocidad de 53 veces se traduce en una reducción de costos de ~98% para la inferencia a gran escala. Esto cambia fundamentalmente el cálculo del ROI para implementar IA de alto rendimiento. - Practicantes: Esto no es solo para centros de datos. Las enormes ganancias de eficiencia y el pequeño tamaño de memoria (caché de 154MB) hacen posible implementar modelos de nivel SOTA en hardware con limitaciones de memoria y en el borde. - Investigadores: PostNAS ofrece un nuevo paradigma eficiente en capital. En lugar de gastar millones en preentrenamiento, ahora puedes innovar en arquitectura modificando modelos existentes, reduciendo drásticamente la barrera de entrada para crear LMs novedosos y eficientes.

421,42K

Parte superior

Clasificación

Favoritos