Atropos v0.3 já está disponível! O nosso framework de Ambientes RL teve muitas atualizações desde a v0.2 - alguns destaques: - Atropos agora pode ser usado como um framework de benchmarking e avaliações por @rogershijin, com o nosso primeiro benchmark externo, Reward-Bench 2! - Adicionado o Reasoning Gym, um repositório de ambientes externos portado para Atropos com mais de 100 tarefas de raciocínio por @neurosp1ke e amigos - @max_paperclips integrou o bootcamp de raciocínio de @intern_lm, adicionando mais de 1000 novas tarefas de raciocínio para RL - @dmayhem93, o engenheiro principal do Atropos, adicionou dezenas de correções de bugs e outras melhorias de confiabilidade e compatibilidade, melhor suporte para múltiplos ambientes e CI/CD - Muitos dos ambientes do hackathon Atropos foram fundidos em /environments/community - listar todos ocuparia a maior parte do espaço da tela, mas alguns destaques: VR-CLI por @JakeABoggs, Filosofia RLAIF, Professores LLM Adaptativos, WebVoyager, design de proteínas por @hallerite, um ambiente de roteamento de modelos por @gabinfay, múltiplas provas lean, a arena catbot, pokemon showdown, poker, médicos úteis, poesia sânscrita por @khoomeik e muito mais! - Outros novos ambientes oficialmente suportados incluem: Formato de resposta seguindo o ambiente Ambiente Pydantic para JSON portado do trabalho de @MatternJustus Seguindo Instruções portado do trabalho de @natolambert e @allen_ai Contagem de Letras - 47 novos colaboradores! Confira o changelog completo aqui:
Teknium (e/λ)
Teknium (e/λ)18/07/2025
Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar modelos sobre sua capacidade de fazer julgamentos! Você sabia que todos os ambientes RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Então, adicionamos um comando de avaliação à base da Atropos e agora você pode executar benchmarks através de ambientes Atropos. Ficamos frustrados por trabalhar com tantas estruturas de benchmark que estavam desatualizadas ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nossa estrutura de ambientes RL. Então, nosso primeiro port de fora de nossos ambientes existentes foi o Reward-Bench de @natolambert! Nota: de momento, apenas suporta modelos de recompensa generativa (juízes LLM regulares). Confira o PR aqui:
25,13K