分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ | OKX ウォレット

トレンドトピック

DeepSeek R1は、オリジナル、*Nature*記事、そして完全な改訂版の3つの異なる技術レポートが初めて登場した作品です。ここでは多くのテクニック、インフラ、プロンプトが説明されています...しかし最大の勝者は?@TheZvi!彼らは安全が重要であることを認識しています。

1月31日に@EpochAIResearchはR1に入ったRLの費用見積もりを作成しました。ネイチャーの論文以来、それが総予算の3倍であることは分かっていました。違いです。具体的にどうやって? - DeepSeekMathと同様に、仮定バッチ=1024、グループサイズ=64。本当に:B=512、G=16。 - R1はわずか1700歩です。

@EpochAIResearch@EgeErdil2はよく調整され認識論的にも慎重なので、何が起こりうるか正確に把握していました

@EpochAIResearch @EgeErdil2、Egeが間違っていたのは、小型モデルでは成功しなかったことを過小評価したことです(今は詳細が共有されています。r1-lite-previewはおそらくQwen2.5〜32Bでした)。Ergo V3はサンプル効率がはるかに高かった。メタレベルの先行者の方が興味深いです。遅れていたのか?

889

トップ

ランキング

お気に入り