Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài báo quan trọng nhất của năm 2025 không phải là về những cải tiến dần dần đối với kiến trúc Transformer.
Nó là về việc thay thế mô hình tuần tự, tự hồi quy bằng một mô hình song song, hai chiều.
Bài báo LLaDA 2.0 hoàn toàn định hình lại cách tôi nghĩ về các mô hình khuếch tán.
Cho đến nay, các LLM khuếch tán cảm thấy như một ý tưởng thú vị, nhưng không gần như là thứ mà bạn có thể chạy ở quy mô 100B.
Bài báo này thay đổi điều đó.
Ý tưởng của họ rất đơn giản:
Lấy một mô hình tự hồi quy mạnh mẽ và chuyển đổi nó thành một mô hình khuếch tán, thay vì đào tạo một cái từ đầu.
Các tác giả đã tìm ra cách để làm điều này mà không phá hủy kiến thức của mô hình gốc. Họ gọi nó là "Lịch trình Warmup-Stable-Decay."
Lý do điều này rất quan trọng:
Một mô hình khuếch tán có nhiều lợi ích: giải mã song song, hiệu suất lý luận mạnh mẽ, tốc độ, v.v.
Tôi đang liên kết đến bài báo bên dưới.
Đọc tiếp để xem cách chúng ta có thể xây dựng thế hệ mô hình tiếp theo.

Hàng đầu
Thứ hạng
Yêu thích
