Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De inzet ligt op het bouwen van een continu lerend systeem. Wat betekent dit? De update van Cursor is een werkend voorbeeld. Nieuwe gegevens komen binnen, het systeem weet hoe het de meest waardevolle monsters kan filteren. Vervolgens maakt het gebruik van RL/andere algoritmen om een checkpoint in te zetten dat is getraind met de genoemde gegevens.

23 aug 2025
We introduceren een beter recept voor het verzamelen van post-training gegevens bij het gebruik van GRPO. Het verzamelen van monsters van experts is duur, annotatiebudgetten zijn beperkt. Welke voorbeelden zijn het eigenlijk waard om voor te betalen? We ontdekken dat de focus op moeilijke monsters resulteert in een verbetering van 30-40%.
1/7

Elk component moet eerst zorgvuldig worden bestudeerd om een meta-algoritme te bouwen dat een dergelijk systeem kan bedienen. Tijdens een trainingsronde kan het evalueren of het de ronde moet voortzetten of stoppen op basis van vroege signalen. Om dit te doen, worden inzichten uit honderden rondes in een dergelijk systeem verwerkt.
Deze werkwijze start dit proces voor redeneerproblemen met verifieerbare beloningen. Aangezien dit de meest "stabiele" omgeving is voor het bouwen van een eenvoudige pijplijn voor leren. De volgende grenzen zouden LLM-als-rechter en langetermijn, vertraagde beloningsinstellingen zijn.
942
Boven
Positie
Favorieten