Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La investigación de NVIDIA acaba de hacer que los LLM sean 53 veces más rápidos. 🤯
Imagine recortar su presupuesto de inferencia de IA en un 98%.
Este avance no requiere entrenar un nuevo modelo desde cero; actualiza los existentes para obtener hipervelocidad mientras iguala o supera la precisión de SOTA.
Así es como funciona:
La técnica se llama Búsqueda de arquitectura postneuronal (PostNAS). Es un proceso revolucionario para la adaptación de modelos preentrenados.
Congela el conocimiento: Comienza con un modelo poderoso (como Qwen2.5) y bloquea sus capas centrales de MLP, preservando su inteligencia.
Reemplazo quirúrgico: Luego utiliza una búsqueda consciente del hardware para reemplazar la mayoría de las capas lentas de atención completa O(n²) con un nuevo diseño de atención lineal hipereficiente llamado JetBlock.
Optimizar para el rendimiento: la búsqueda mantiene algunas capas clave de atención completa en las posiciones exactas necesarias para el razonamiento complejo, creando un modelo híbrido optimizado para la velocidad en las GPU H100.
El resultado es Jet-Nemotron: una IA que ofrece 2,885 tokens por segundo con un rendimiento de modelo de primer nivel y un caché KV 47 veces más pequeño.
Por qué esto es importante para su estrategia de IA:
- Líderes empresariales: Una aceleración de 53 veces se traduce en una reducción de costos de ~ 98% para la inferencia a escala. Esto cambia fundamentalmente el cálculo del ROI para implementar IA de alto rendimiento.
- Profesionales: Esto no es solo para centros de datos. Las ganancias masivas de eficiencia y la pequeña huella de memoria (154 MB de caché) hacen posible implementar modelos de nivel SOTA en hardware perimetral y con memoria restringida.
- Investigadores: PostNAS ofrece un nuevo paradigma eficiente en capital. En lugar de gastar millones en entrenamiento previo, ahora puede innovar en arquitectura modificando los modelos existentes, lo que reduce drásticamente la barrera de entrada para crear LM novedosos y eficientes.

320.48K
Populares
Ranking
Favoritas