DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Bekerja sama dengan @AMD dan @IBM, kami @ZyphraAI berbagi basis ZAYA1! Model skala besar pertama pada perangkat keras, perangkat lunak, dan tumpukan jaringan AMD yang terintegrasi. ZAYA1 menggunakan arsitektur MoE baru Zyphra dengan 760M parameter aktif dan 8,3B total. Kertas teknologi dan lainnya di bawah ini👇

PR: Blog Teknis: Makalah Teknis: Wajah Memeluk:

Secara arsitektur, ZAYA1 mengikuti resep "MoE++" kami: - Perhatian Konvolusional Terkompresi (CCA) [] - Router ZAYA1 baru - Penskalaan residual per lapis dengan gerbang yang dipelajari Ini memberikan kurva penskalaan yang lebih baik (per FLOP dan per parameter) daripada MoE standar.

Router ZAYA1 menggantikan router linier tradisional dengan: - Downproject aliran sisa - Menerapkan Exponential Depth Averaging (EDA) untuk mencampur info di seluruh lapisan - MLP 3 lapis per ahli - Menggunakan skema penyeimbangan yang terinspirasi teori kontrol untuk membuat para ahli sibuk dan terspesialisasi

Resep pelatihan: - Total 14T token - 3 fase: pretrain berat web → fase matematika/kode/terstruktur-berat → konteks panjang + penalaran di tengah kereta - Kurikulum bergeser ke arah data penalaran STEM + padat dari waktu ke waktu - Ekstensi konteks dari 4k → 32k dengan melalui CCA paralel konteks

Kluster kami, yang diselenggarakan oleh @IBMcloud, terdiri dari 128 simpul komputasi, masing-masing berisi: - 8 GPU MI300X yang saling berhubungan dengan InfinityFabric - 8 Interkoneksi antar-simpul Pollara 400Gbps - 2 CPU Intel Xeon Platinum 8570 Node terhubung dalam topologi rel dua tingkat saja.

Kami melakukan desain bersama untuk mengurangi waktu pelatihan: - Kernel untuk iterasi Newton-Schulz RMSNorm + Muon - Aegis, sistem toleransi kesalahan otomatis kami untuk memastikan waktu kerja yang tinggi - Pos pemeriksaan dan pembentukan ulang terdistribusi - Skema paralelisme baru untuk CP dan Muon terdistribusi

ZAYA1-base berkinerja kuat dibandingkan dengan model serupa, menjadikannya model fondasi yang kuat untuk pasca-pelatihan kami selanjutnya.

Meskipun hanya 760 juta parameter aktif, basis ZAYA1 mengungguli model padat seperti Llama-3-8B dan bersaing dengan Qwen3-4B dan Gemma3-12B dalam tolok ukur matematika dan pengkodean. Dalam pengaturan pass@k tinggi, model dasar mendekati kinerja model penalaran khusus.

50,85K

Teratas

Peringkat

Favorit