トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1は、オリジナル、*Nature*記事、そして完全な改訂版の3つの異なる技術レポートが初めて登場した作品です。ここでは多くのテクニック、インフラ、プロンプトが説明されています...しかし最大の勝者は?@TheZvi!彼らは安全が重要であることを認識しています。


1月7日 15:39
DeepSeek-R1の論文は2日前に更新され、22ページから86ページに拡大され、かなりの詳細が加えられました。
新コンテンツでは、DeepSeek-R1-Zeroの自己進化、評価、さらなる分析、そしてDeepSeek-R1の蒸留などのトピックが扱われています。
DeepSeek-R1:強化学習によるLLMにおける推論能力のインセンティブ化
論文:


1月31日に@EpochAIResearchはR1に入ったRLの費用見積もりを作成しました。ネイチャーの論文以来、それが総予算の3倍であることは分かっていました。違いです。具体的にどうやって?
- DeepSeekMathと同様に、仮定バッチ=1024、グループサイズ=64。本当に:B=512、G=16。
- R1はわずか1700歩です。


@EpochAIResearch@EgeErdil2はよく調整され認識論的にも慎重なので、何が起こりうるか正確に把握していました

@EpochAIResearch @EgeErdil2、Egeが間違っていたのは、小型モデルでは成功しなかったことを過小評価したことです(今は詳細が共有されています。r1-lite-previewはおそらくQwen2.5〜32Bでした)。Ergo V3はサンプル効率がはるかに高かった。
メタレベルの先行者の方が興味深いです。遅れていたのか?


889
トップ
ランキング
お気に入り
