Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le pari est de construire un système d'apprentissage continu. Que signifie cela ? La mise à jour de Cursor est un exemple concret. De nouvelles données arrivent, le système sait comment filtrer les échantillons les plus précieux. Il utilise ensuite des algorithmes RL/autres pour déployer un point de contrôle entraîné à l'aide de ces données.

23 août 2025
Nous introduisons une meilleure méthode pour collecter des données post-formation lors de l'utilisation de GRPO. Collecter des échantillons auprès d'experts est coûteux, les budgets d'annotation sont limités. Quels exemples valent vraiment la peine d'être payés ? Nous constatons que se concentrer sur des échantillons difficiles entraîne une amélioration de 30 à 40 %.
1/7

Chaque composant doit d'abord être étudié attentivement pour construire un méta-algorithme capable de faire fonctionner un tel système. Lors d'un entraînement, il peut évaluer s'il doit continuer ou arrêter l'exécution en fonction des premiers signes. Pour ce faire, les informations provenant de centaines d'exécutions sont intégrées dans un tel système.
Cette ligne de travail lance ce processus pour des problèmes de raisonnement avec des récompenses vérifiables. Puisque c'est le cadre le plus "stable" pour construire un pipeline simple d'apprentissage. Les prochaines frontières seraient LLM-en-juge et des paramètres de récompense différée à long terme.
937
Meilleurs
Classement
Favoris