Mediul de evaluare Arena-Hard este acum fuzionat cu Atropos - bucurați-vă de o evaluare scalabilă, flexibilă și modernă cu benchmark-ul Arena-Hard de la @lmsysorg, care este foarte bun la determinarea unei game largi de capabilități în modele. Gata să fie un mediu RL dacă îți aduci și propriul tren :) Aflați mai multe la
6,85K