Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Резон RL: Обучение с подкреплением на-policy забывает меньше, чем SFT. Даже при совпадающей точности, RL демонстрирует меньше катастрофического забывания. Ключевой фактор: обновления RL на-policy смещены в сторону решений с минимальным KL. Теория + LLM и игрушечные эксперименты подтверждают, что RL остается ближе к базовой модели.

103,11K

Топ

Рейтинг

Избранное