Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La apuesta está en construir un sistema de aprendizaje continuo. ¿Qué significa esto? La actualización de Cursor es un ejemplo funcional. Nuevos datos llegan, el sistema sabe cómo filtrar las muestras más valiosas. Luego aprovecha RL/otros algoritmos para implementar un punto de control entrenado utilizando dichos datos.

23 ago 2025
Presentamos una mejor receta para recopilar datos post-entrenamiento al usar GRPO. Recopilar muestras de expertos es costoso, los presupuestos de anotación son limitados. ¿Qué ejemplos realmente valen la pena pagar? Descubrimos que centrarse en muestras difíciles resulta en una mejora del 30-40%.
1/7

Cada componente debe ser estudiado cuidadosamente primero para construir un meta-algoritmo que pueda operar un sistema así. Durante una ejecución de entrenamiento, puede evaluar si continuar o detener la ejecución en función de señales tempranas. Para hacer esto, se digieren las ideas de cientos de ejecuciones en un sistema así.
Esta línea de trabajo inicia este proceso para problemas de razonamiento con recompensas verificables. Dado que este es el entorno más "estable" para construir un pipeline simple para el aprendizaje. Las próximas fronteras serían LLM-como-juez y configuraciones de recompensa retrasada a largo plazo.
944
Parte superior
Clasificación
Favoritos