Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hợp tác với @AMD và @IBM, chúng tôi @ZyphraAI đang chia sẻ ZAYA1-base! Mô hình quy mô lớn đầu tiên trên một hệ thống phần cứng, phần mềm và mạng tích hợp của AMD. ZAYA1 sử dụng kiến trúc MoE mới của Zyphra với 760 triệu tham số hoạt động và tổng cộng 8,3 tỷ tham số.
Tài liệu kỹ thuật và nhiều hơn nữa bên dưới👇

PR:
Blog Kỹ Thuật:
Bài Giấy Kỹ Thuật:
Hugging Face:
Về mặt kiến trúc, ZAYA1 tuân theo công thức “MoE++” của chúng tôi:
- Chú ý tích chập nén (CCA) []
- Bộ định tuyến ZAYA1 mới
- Tỷ lệ dư theo lớp với các cổng học được
Những điều này mang lại đường cong mở rộng tốt hơn (theo FLOP và theo tham số) so với MoE tiêu chuẩn.

Bộ định tuyến ZAYA1 thay thế các bộ định tuyến tuyến tính truyền thống bằng:
- Dự án giảm thiểu dòng dư
- Áp dụng Trung bình Độ sâu Xuất (EDA) để trộn thông tin giữa các lớp
- MLP 3 lớp cho mỗi chuyên gia
- Sử dụng một sơ đồ cân bằng lấy cảm hứng từ lý thuyết điều khiển để giữ cho các chuyên gia vừa bận rộn vừa chuyên môn hóa
Công thức đào tạo:
- Tổng cộng 14T token
- 3 giai đoạn: tiền huấn luyện nặng về web → giai đoạn nặng về toán/hệ thống/mã → giữa quá trình huấn luyện dài hạn + lý luận
- Chương trình học chuyển hướng sang dữ liệu STEM dày đặc + lý luận theo thời gian
- Mở rộng ngữ cảnh từ 4k → 32k thông qua CCA song song ngữ cảnh

Cụm máy của chúng tôi, được lưu trữ bởi @IBMcloud, bao gồm 128 nút tính toán, mỗi nút chứa:
- 8 GPU MI300X được kết nối với InfinityFabric
- 8 kết nối giữa các nút Pollara 400Gbps
- 2 CPU Intel Xeon Platinum 8570
Các nút được kết nối theo cấu trúc hai cấp chỉ có ray.

Chúng tôi đã thực hiện thiết kế đồng để giảm thời gian đào tạo:
- Kernels cho RMSNorm + Phép lặp Newton-Schulz của Muon
- Aegis, hệ thống tự động chịu lỗi của chúng tôi để đảm bảo thời gian hoạt động cao
- Kiểm tra phân tán và định hình lại
- Các sơ đồ song song mới cho CP và Muon phân tán

Mô hình ZAYA1-base hoạt động mạnh mẽ so với các mô hình tương tự, tạo thành một mô hình nền tảng vững chắc cho quá trình huấn luyện sau này của chúng tôi.

Mặc dù chỉ có 760 triệu tham số hoạt động, ZAYA1-base vượt trội hơn các mô hình dày đặc như Llama-3-8B và cạnh tranh với Qwen3-4B và Gemma3-12B trong các tiêu chuẩn toán học và lập trình. Trong các cài đặt pass@k cao, mô hình cơ bản gần đạt được hiệu suất của các mô hình lý luận chuyên biệt.

50,85K
Hàng đầu
Thứ hạng
Yêu thích

