DeepSeek R1は、オリジナル、*Nature*記事、そして完全な改訂版の3つの異なる技術レポートが初めて登場した作品です。ここでは多くのテクニック、インフラ、プロンプトが説明されています...しかし最大の勝者は?@TheZvi!彼らは安全が重要であることを認識しています。
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN1月7日 15:39
DeepSeek-R1の論文は2日前に更新され、22ページから86ページに拡大され、かなりの詳細が加えられました。 新コンテンツでは、DeepSeek-R1-Zeroの自己進化、評価、さらなる分析、そしてDeepSeek-R1の蒸留などのトピックが扱われています。 DeepSeek-R1:強化学習によるLLMにおける推論能力のインセンティブ化 論文:
1月31日に@EpochAIResearchはR1に入ったRLの費用見積もりを作成しました。ネイチャーの論文以来、それが総予算の3倍であることは分かっていました。違いです。具体的にどうやって? - DeepSeekMathと同様に、仮定バッチ=1024、グループサイズ=64。本当に:B=512、G=16。 - R1はわずか1700歩です。
@EpochAIResearch@EgeErdil2はよく調整され認識論的にも慎重なので、何が起こりうるか正確に把握していました
@EpochAIResearch @EgeErdil2、Egeが間違っていたのは、小型モデルでは成功しなかったことを過小評価したことです(今は詳細が共有されています。r1-lite-previewはおそらくQwen2.5〜32Bでした)。Ergo V3はサンプル効率がはるかに高かった。 メタレベルの先行者の方が興味深いです。遅れていたのか?
889