Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek của Trung Quốc vừa ra mắt mô hình mã nguồn mở duy nhất đủ tốt để giành huy chương vàng IMO, và đây là một báo cáo cần đọc!
Ý tưởng chính rút ra từ những điều mà Karpathy và những người khác đã nói: vượt ra ngoài "RL câu trả lời cuối cùng" vào một vòng lặp tạo ra–xác minh–siêu xác minh bằng ngôn ngữ tự nhiên.
– Một xác minh viên được đào tạo bằng RL để chấm điểm các chứng minh.
– Một siêu xác minh viên kiểm tra các phê bình của xác minh viên.
– Một trình tạo được đào tạo bằng RL dựa trên tín hiệu thưởng của xác minh viên để viết và tự kiểm tra các chứng minh tốt hơn.
Bởi vì mọi thứ đều sống trong ngôn ngữ tự nhiên (không có Lean), công thức này NÊN mở rộng đến nhiều lĩnh vực có thể xác minh: khoa học, mã, bất cứ nơi nào mà việc kiểm tra dễ hơn việc giải quyết!

Hàng đầu
Thứ hạng
Yêu thích

