Схоже, що інші люди сходяться до використання logprob vllm v1 для співвідношення важливості для вирішення проблеми стабільності. Я думаю, що у мене посттравматичний стресовий розлад від цього типу збою rl
Zichen Liu
Zichen Liu21 години тому
За допомогою всього кількох рядків коду запропоноване Фенгом (@fengyao1909) виправлення — застосування вибірки важливості до політики поведінки — вирішило нестабільність навчання в моєму випадку (oat). Я вважаю, що результат можна узагальнити і на інші фреймворки RL. Відмінна робота, Фенг!
5,32K