tại sao chúng ta không tiền huấn luyện các mô hình cho các nhiệm vụ tác động? thì những người này đã làm. và nó đã thành công. họ đã giới thiệu một bước trung gian sau khi tiền huấn luyện và trước khi hậu huấn luyện. họ đã tổng hợp dữ liệu hành động của tác nhân và mô hình AgentFounder-30B của họ đã thiết lập SOTA mới trên 10 tiêu chuẩn. SFT cũng có tổn thất nhỏ hơn đáng kể sau bước Tiền huấn luyện Liên tục Tác nhân này. tại sao điều này lại hiệu quả? bởi vì các mô hình nền tảng đa năng thường không có thiên kiến tác nhân, đặt gánh nặng lên hậu huấn luyện. khi bạn giới thiệu lý luận nhiều bước và sử dụng công cụ trong giai đoạn tiền huấn luyện, bạn làm dễ dàng hơn cho hậu huấn luyện, đặc biệt khi bạn thực hiện điều đó với sự kết hợp của các nhiệm vụ tác nhân ngắn hạn và dài hạn. vậy điều này có nghĩa là gì nếu bạn điều hành doanh nghiệp của mình trên các tác nhân hoặc xây dựng chúng ở bất kỳ quy mô nào? bạn có thể tổng hợp dữ liệu với chi phí thấp, tiền huấn luyện thêm một mô hình nền tảng và sau đó hậu huấn luyện nó.