Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

🚨DeepSeek của Trung Quốc vừa ra mắt mô hình mã nguồn mở duy nhất đủ tốt để giành huy chương vàng IMO, và đây là một báo cáo cần đọc! Ý tưởng chính rút ra từ những điều mà Karpathy và những người khác đã nói: vượt ra ngoài "RL câu trả lời cuối cùng" vào một vòng lặp tạo ra–xác minh–siêu xác minh bằng ngôn ngữ tự nhiên. – Một xác minh viên được đào tạo bằng RL để chấm điểm các chứng minh. – Một siêu xác minh viên kiểm tra các phê bình của xác minh viên. – Một trình tạo được đào tạo bằng RL dựa trên tín hiệu thưởng của xác minh viên để viết và tự kiểm tra các chứng minh tốt hơn. Bởi vì mọi thứ đều sống trong ngôn ngữ tự nhiên (không có Lean), công thức này NÊN mở rộng đến nhiều lĩnh vực có thể xác minh: khoa học, mã, bất cứ nơi nào mà việc kiểm tra dễ hơn việc giải quyết!

Hàng đầu

Thứ hạng

Yêu thích