Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La scommessa è sulla costruzione di un sistema di apprendimento continuo. Cosa significa questo? L'aggiornamento di Cursor è un esempio funzionante. Nuovi dati arrivano, il sistema sa come filtrare i campioni più preziosi. Poi sfrutta algoritmi di RL/altri algoritmi per implementare un checkpoint addestrato utilizzando i dati suddetti.

23 ago 2025
Introduciamo una ricetta migliore per la raccolta di dati post-addestramento quando si utilizza GRPO. Raccogliere campioni da esperti è costoso, i budget per l'annotazione sono limitati. Quali esempi valgono davvero la pena di essere pagati? Scopriamo che concentrarsi su campioni difficili porta a un miglioramento del 30-40%.
1/7

Ogni componente deve essere studiato attentamente prima di costruire un meta-algoritmo che possa operare un tale sistema. Durante un ciclo di addestramento, può valutare se continuare o fermare il ciclo in base ai segnali iniziali. Per fare ciò, le intuizioni provenienti da centinaia di cicli vengono elaborate in un tale sistema.
Questa linea di lavoro avvia questo processo per problemi di ragionamento con ricompense verificabili. Poiché questo è l'impostazione più "stabile" per costruire una semplice pipeline per l'apprendimento. Le prossime frontiere sarebbero LLM-come-giudice e impostazioni di ricompensa ritardata a lungo termine.
934
Principali
Ranking
Preferiti