🚨Глубокий поиск Китая только что выпустил единственную открытую модель, достаточно хорошую в математике, чтобы выиграть золото IMO, и обязательный к прочтению отчет! Ключевая идея основана на том, о чем говорили Карпати и другие: перейти от "финального ответа RL" к генератору–верификатору–мета-верификатору в чистом языке. – Верификатор обучен с помощью RL для оценки доказательств. – Мета-верификатор проверяет критику верификатора. – Генератор обучен с помощью RL на сигналах вознаграждения верификатора, чтобы писать и самостоятельно проверять лучшие доказательства. Поскольку все существует на естественном языке (без Lean), этот рецепт ДОЛЖЕН расширяться на многие проверяемые области: науку, код, везде, где проверка проще, чем решение!