🚨Китайський DeepSeek щойно випустив єдину модель з відкритим кодом, достатньо хорошу з математики, щоб виграти золотий нагород, на мою думку, і це обов'язковий до прочитання звіт! Ключова ідея базується на тому, про що говорив Карпаті та інші: перейти від «остаточної відповіді RL» до циклу генератор–верифікатор–мета-перевірка чистою мовою. – Верифікатор навчений RL-системі для оцінювання доказів. – Мета-верифікатор перевіряє критику верифікатора. – Генератор навчений RL на сигналах винагороди верифікатора, щоб записувати та самостійно перевіряти кращі докази. Оскільки все живе природною мовою (без Lean), цей рецепт ПОВИНЕН поширюватися на багато перевірених сфер: науку, код, будь-де, де перевірка легша, ніж розв'язання!