🚨中国のDeepSeekは、私の意見でゴールド賞を受賞した唯一のオープンソースモデルを発表しました。これは必読のレポートです! この重要な考え方は、Karpathyらが語ったことから得ています。すなわち、「最終的な回答RL」を超えて、純粋な言葉で言えばジェネレーター–検証者–メタ検証者のループへと移行することです。 – 検証者は証明の採点にRLで訓練されています。 – メタ検証者は検証者の批評を確認します。 – ジェネレーターは検証者の報酬信号で強化学習され、より良い証明を書き込み自己検問します。 すべてが自然言語(リーンなし)で生きているので、このレシピは科学、コード、解くよりもチェックが簡単なあらゆる検証可能な領域に拡張されるべきです!