Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// LÝ DO CHO VIỆC MỞ RỘNG MÔI TRƯỜNG //
Việc mở rộng môi trường có thể quan trọng như việc mở rộng mô hình đối với AI có khả năng tác động.
Nghiên cứu AI hiện tại cho thấy rằng việc xây dựng một mô hình AI có khả năng tác động mạnh mẽ không chỉ là về lý luận tốt hơn. Nó cũng liên quan đến việc cải thiện môi trường.
Cách tiếp cận mặc định để đào tạo các tác nhân AI có khả năng ngày nay là thu thập các quỹ đạo tĩnh hoặc các minh họa từ con người. Điều này yêu cầu nhiều dữ liệu hơn, nhiều ví dụ hơn và nhiều nỗ lực chú thích hơn.
Nhưng dữ liệu tĩnh không thể dạy ra quyết định động. Các mô hình được đào tạo theo cách này gặp khó khăn với tính chất dài hạn, định hướng mục tiêu của các nhiệm vụ tác động thực sự.
Nghiên cứu mới này giới thiệu Nex-N1, một khung công tác mà hệ thống mở rộng sự đa dạng và độ phức tạp của các môi trường đào tạo tương tác thay vì chỉ mở rộng dữ liệu.
Khả năng của tác nhân phát sinh từ sự tương tác, không phải từ sự bắt chước. Thay vì thu thập thêm các minh họa, họ đã xây dựng cơ sở hạ tầng để tự động tạo ra các kiến trúc và quy trình tác nhân đa dạng từ các đặc tả ngôn ngữ tự nhiên.
Hệ thống có ba thành phần. NexAU (Vũ trụ Tác nhân) cung cấp một khung tác nhân phổ quát tạo ra các hệ thống tác nhân phức tạp từ các cấu hình đơn giản. NexA4A (Tác nhân cho Tác nhân) tự động tổng hợp các kiến trúc tác nhân đa dạng từ ngôn ngữ tự nhiên. NexGAP thu hẹp khoảng cách giữa mô phỏng và thực tế bằng cách tích hợp các công cụ MCP thực tế cho việc tổng hợp quỹ đạo có căn cứ.
Kết quả:
- Trên τ2-bench, Nex-N1 xây dựng trên DeepSeek-V3.1 đạt 80.2, vượt trội hơn so với điểm số 42.8 của mô hình cơ sở.
- Trên SWE-bench Verified, Qwen3-32B-Nex-N1 đạt 50.5% so với 12.9% của mô hình cơ sở.
- Trên BFCL v4 cho việc sử dụng công cụ, Nex-N1 (65.3) vượt trội hơn GPT-5 (61.6).
Trong các đánh giá của con người về phát triển dự án thực tế qua 43 kịch bản lập trình, Nex-N1 thắng hoặc hòa với Claude Sonnet 4.5 trong 64.5% các trường hợp và với GPT-5 trong khoảng 70% các trường hợp.
Họ cũng đã xây dựng một tác nhân nghiên cứu sâu trên Nex-N1, đạt 47.0% trên Thang đo Nghiên cứu Sâu, với khả năng tạo báo cáo trực quan, bao gồm cả slide và poster nghiên cứu.
Bài báo:

Hàng đầu
Thứ hạng
Yêu thích

