Atropos v0.3 è ora disponibile! Il nostro framework per ambienti RL ha visto molti aggiornamenti dalla v0.2 - alcuni punti salienti: - Atropos può ora essere utilizzato come framework di benchmarking e valutazioni da @rogershijin, con il nostro primo benchmark esterno, Reward-Bench 2! - Aggiunto il Reasoning Gym, un repository di ambienti esterni portato in Atropos con oltre 100 compiti di ragionamento da @neurosp1ke e amici. - @max_paperclips ha integrato il bootcamp di ragionamento di @intern_lm, aggiungendo oltre 1000 nuovi compiti di ragionamento per RL. - @dmayhem93, l'ingegnere capo di Atropos, ha aggiunto dozzine di correzioni di bug e altri miglioramenti di affidabilità e compatibilità, un migliore supporto per ambienti multipli e CI/CD. - Molti degli ambienti hackathon di Atropos sono stati fusi in /environments/community - elencarli tutti occuperebbe gran parte dello spazio dello schermo, ma alcuni punti salienti: VR-CLI di @JakeABoggs, Filosofia RLAIF, Insegnanti LLM Adattivi, WebVoyager, progettazione di proteine da @hallerite, un ambiente di routing dei modelli di @gabinfay, prove lean multiple, l'arena catbot, pokemon showdown, poker, dottori utili, poesia sanscrita di @khoomeik e molto altro! - Altri nuovi ambienti ufficialmente supportati includono: Formato di risposta seguente ambiente Ambiente Pydantic a JSON portato dal lavoro di @MatternJustus Seguire le istruzioni portato dal lavoro di @natolambert e @allen_ai Conteggio lettere - 47 nuovi collaboratori! Controlla il changelog completo qui: