.@willccbb (vedoucí výzkumu, Prime Intellect) o tom, jak prostředí RL skutečně fungují:
"Prostředí je v podstatě vyhodnocení. Máte vstupní úkoly, svazek a na konci se hodnotí, jak si váš model nebo agent vede. To je nastavení, které používáme jak pro eval, tak pro RL trénink."
Dodává, že budoucnost není jen o tom, "dostat 100 000 GPU do jednoho obrovského clusteru".
Minulý týden jsem vyvíjel prostředí. Věřím, že by to mohlo vyřešit potřeby RL prostředí pro masy. Bylo tam spousta zajímavých a skvělých věcí k otestování, včetně víceotáčkového prostředí Lean4 inspirovaného StepRunProverem, které jsem vytvořil.