Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La investigación de NVIDIA acaba de hacer que los LLM sean 53 veces más rápidos. 🤯
Imagina reducir tu presupuesto de inferencia de IA en un 98%.
Este avance no requiere entrenar un nuevo modelo desde cero; actualiza los que ya tienes para una velocidad hiper-rápida mientras iguala o supera la precisión SOTA.
Así es como funciona:
La técnica se llama Búsqueda de Arquitectura Neuronal Posterior (PostNAS). Es un proceso revolucionario para adaptar modelos preentrenados.
Congelar el Conocimiento: Comienza con un modelo potente (como Qwen2.5) y bloquea sus capas MLP centrales, preservando su inteligencia.
Reemplazo Quirúrgico: Luego utiliza una búsqueda consciente del hardware para reemplazar la mayoría de las capas de atención completa lentas, O(n²), con un nuevo diseño de atención lineal hiper-eficiente llamado JetBlock.
Optimizar para el Rendimiento: La búsqueda mantiene algunas capas clave de atención completa en las posiciones exactas necesarias para el razonamiento complejo, creando un modelo híbrido optimizado para velocidad en GPUs H100.
El resultado es Jet-Nemotron: una IA que entrega 2,885 tokens por segundo con un rendimiento de modelo de primer nivel y una caché KV 47 veces más pequeña.
Por qué esto es importante para tu estrategia de IA:
- Líderes Empresariales: Un aumento de velocidad de 53 veces se traduce en una reducción de costos de ~98% para la inferencia a gran escala. Esto cambia fundamentalmente el cálculo del ROI para implementar IA de alto rendimiento.
- Practicantes: Esto no es solo para centros de datos. Las enormes ganancias de eficiencia y el pequeño tamaño de memoria (caché de 154MB) hacen posible implementar modelos de nivel SOTA en hardware con limitaciones de memoria y en el borde.
- Investigadores: PostNAS ofrece un nuevo paradigma eficiente en capital. En lugar de gastar millones en preentrenamiento, ahora puedes innovar en arquitectura modificando modelos existentes, reduciendo drásticamente la barrera de entrada para crear LMs novedosos y eficientes.

421,42K
Parte superior
Clasificación
Favoritos