المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بالتعاون مع @AMD و@IBM، @ZyphraAI نشارك قاعدة ZAYA1! أول نموذج واسع النطاق على مكدس مدمج من أجهزة AMD وبرمجيات وشبكات. يستخدم ZAYA1 بنية MoE الجديدة من Zyphra مع 760 ميجابايت فعال و8.3 مليار معلمة إجمالية.
ورقة تقنية والمزيد أدناه👇

علاقات عامه:
المدونة التقنية:
ورقة تقنية:
وجه العناق:
من الناحية المعمارية، يتبع ZAYA1 وصفتنا "MoE++":
- الانتباه التفافي المضغوط (CCA) []
- راوتر New ZAYA1
- التوسع المتبقي لكل طبقة مع البوابات المتعلمة
هذه تعطي منحنيات تحجيم أفضل (لكل FLOP ولكل معامل) مقارنة ب MoE القياسي.

يستبدل راوتر ZAYA1 أجهزة التوجيه الخطية التقليدية ب:
- تدفق متبقي في مشاريع الأسفل
- تطبيق متوسط العمق الأسي (EDA) لخلط المعلومات عبر الطبقات
- معالجة الميل الثلاثي لكل خبير
- يستخدم نظام توازن مستوحى من نظرية التحكم لإبقاء الخبراء مشغولين ومتخصصين في آن واحد
وصفة التدريب:
- إجمالي رموز 14 ترا
- 3 مراحل: مرحلة مسبق ثقيلة → الشبكات الرياضيات/الكود/مرحلة ثقيلة الهيكلية → السياق الطويل + التفكير أثناء التدريب
- تحول المنهج نحو العلوم والتكنولوجيا والهندسة والرياضيات + بيانات الاستدلال الكثيفة مع مرور الوقت
- توسيع السياق من 4K → 32k مع CCA عبر السياق المتوازي

تتكون مجموعتنا، التي تستضيفها @IBMcloud، من 128 عقدة حوسبة، كل منها تحتوي:
- 8 وحدات معالجة رسومات MI300X متصلة ب InfinityFabric
- 8 وصلات بولارا بين العقد بسرعة 400 جيجابت في الثانية
- 2 معالجات Intel Xeon Platinum 8570
العقد متصلة في طوبولوجيا سكك حديدية ذات مستويين فقط.

قمنا بتصميم مشترك لتقليل وقت التدريب:
- نوى لتكرار RMSNorm + ميون لنيوتن-شولتز
- إيجيس، نظام تحمل الأعطال الآلي لدينا لضمان وقت تشغيل عال
- نقاط التحقق الموزعة وإعادة التشكيل
- مخططات التوازي الجديدة ل CP والميون الموزع

تؤدي قاعدة زايا1 أداء قويا مقارنة بالنماذج المشابهة، مما يجعله نموذجا أساسيا قويا لتدريبنا بعد التدريب.

على الرغم من أن معيار نشط يبلغ 760 مليون فقط فقط، إلا أن قاعدة ZAYA1 تتفوق على النماذج الكثيفة مثل Llama-3-8B وتنافس Qwen3-4B وGemma3-12B في معايير الرياضيات والترميز. في البيئات عالية pass@k، يقترب النموذج الأساسي من أداء نماذج التفكير المتخصصة.

29.81K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

