トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@AMDと@IBMと協力し、@ZyphraAI ZAYA1ベースを共有しています!統合されたAMDハードウェア、ソフトウェア、ネットワークスタック上の最初の大規模モデルです。ZAYA1はZyphraの革新的なMoEアーキテクチャを採用しており、アクティブパラメータ数は7億6千万、総パラメータ数は83億です。
技術論文などは以下に👇掲載します

PR:
技術ブログ:
技術論文:
ハグフェイス:
アーキテクチャ的には、ZAYA1は私たちの「MoE++」のレシピに従っています:
- 圧縮畳み込み注意(CCA) []
- 新しいZAYA1ルータ
- 学習ゲートを用いた層ごとの残差スケーリング
これらは標準的なMoEよりも(FLOPごとおよびパラメータごと)より良いスケーリング曲線を提供します。

ZAYA1ルーターは従来のリニアルーターを以下に置き換えます:
- ダウンプロジェクション残留ストリーム
- 層間情報を混在させるために指数深度平均(EDA)を適用
- エキスピカル1人あたりの3層MLP
- 制御理論に着想を得たバランススキームを用いて、専門家を忙しくかつ専門的に保つ
トレーニングレシピ:
- 合計14Tトークン
- 3フェーズ:ウェブ重視のプレトレイン →数学/コード/構造化重視フェーズ →長いコンテキスト+推論の中間段階
- カリキュラムが時間とともに密度の高いSTEM+推論データへとシフトする
- 4k→32kへのコンテキスト拡張(コンテキスト並列CCA経由)

@IBMcloudがホストする私たちのクラスターは、128の計算ノードで構成されており、それぞれに以下が含まれます:
- 8つのMI300X GPUがInfinityFabricと相互接続されています
- 8 Pollara 400Gbps インターノード間接続
- 2 Intel Xeon Platinum 8570 CPU
ノードは2層レールのみのトポロジーで接続されています。

私たちはトレーニング時間を短縮するための共同設計を行いました:
- RMSNorm + Muonのニュートン・シュルツ反復のカーネル
- Aegis:高い稼働時間を保証する自動フォールトトレランスシステム
- 分散チェックポイントとリシェイピング
- CPおよび分散ミューオンのための新しい並列方式

ZAYA1-baseは類似モデルと比べて優れた性能を示し、後のポストトレーニングの強力な基盤モデルとなっています。

アクティブパラメータはわずか7億6千万個ですが、ZAYA1ベースはLlama-3-8Bのような高密度モデルを上回り、数学およびコーディングベンチマークでQwen3-4BやGemma3-12Bと競合します。高pass@k環境では、ベースモデルは専門的な推論モデルの性能に近づきます。

29.79K
トップ
ランキング
お気に入り

