Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 já está disponível!
O nosso framework de Ambientes RL teve muitas atualizações desde a v0.2 - alguns destaques:
- Atropos agora pode ser usado como um framework de benchmarking e avaliações por @rogershijin, com o nosso primeiro benchmark externo, Reward-Bench 2!
- Adicionado o Reasoning Gym, um repositório de ambientes externos portado para Atropos com mais de 100 tarefas de raciocínio por @neurosp1ke e amigos
- @max_paperclips integrou o bootcamp de raciocínio de @intern_lm, adicionando mais de 1000 novas tarefas de raciocínio para RL
- @dmayhem93, o engenheiro principal do Atropos, adicionou dezenas de correções de bugs e outras melhorias de confiabilidade e compatibilidade, melhor suporte para múltiplos ambientes e CI/CD
- Muitos dos ambientes do hackathon Atropos foram fundidos em /environments/community - listar todos ocuparia a maior parte do espaço da tela, mas alguns destaques:
VR-CLI por @JakeABoggs, Filosofia RLAIF, Professores LLM Adaptativos, WebVoyager, design de proteínas por @hallerite, um ambiente de roteamento de modelos por @gabinfay, múltiplas provas lean, a arena catbot, pokemon showdown, poker, médicos úteis, poesia sânscrita por @khoomeik e muito mais!
- Outros novos ambientes oficialmente suportados incluem:
Formato de resposta seguindo o ambiente
Ambiente Pydantic para JSON portado do trabalho de @MatternJustus
Seguindo Instruções portado do trabalho de @natolambert e @allen_ai
Contagem de Letras
- 47 novos colaboradores!
Confira o changelog completo aqui:

18/07/2025
Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar modelos sobre sua capacidade de fazer julgamentos!
Você sabia que todos os ambientes RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Então, adicionamos um comando de avaliação à base da Atropos e agora você pode executar benchmarks através de ambientes Atropos.
Ficamos frustrados por trabalhar com tantas estruturas de benchmark que estavam desatualizadas ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nossa estrutura de ambientes RL.
Então, nosso primeiro port de fora de nossos ambientes existentes foi o Reward-Bench de @natolambert!
Nota: de momento, apenas suporta modelos de recompensa generativa (juízes LLM regulares).
Confira o PR aqui:

25,13K
Top
Classificação
Favoritos