Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài báo mới: Sự phù hợp giá trị trong các mô hình ngôn ngữ lớn
Một nghiên cứu mới đi sâu vào quy trình sau đào tạo của các mô hình ngôn ngữ lớn (LLMs), tiết lộ cách mà những mô hình này nhận thức về các vấn đề gây tranh cãi như di cư, phá thai và nhiều vấn đề khác. Trái với niềm tin phổ biến, nghiên cứu cho thấy sự phù hợp giá trị không chủ yếu được hình thành bởi các kỹ thuật tối ưu hóa sở thích tiên tiến mà thực sự xuất hiện sớm trong quá trình tinh chỉnh có giám sát (SFT).
Nghiên cứu theo dõi "sự trôi giá trị"—sự thay đổi trong lập trường của một mô hình khi phản hồi các yêu cầu thăm dò giá trị trong toàn bộ quy trình sau đào tạo.
Sử dụng các mô hình như Llama-3 và Qwen-3, các nhà nghiên cứu đã xem xét các tập dữ liệu phổ biến như WildChat và Alpaca. Họ phát hiện rằng SFT là lực lượng chủ đạo trong việc thiết lập hồ sơ giá trị của một mô hình. Ví dụ, việc đào tạo trên WildChat dẫn đến 95% phản hồi trung lập hoặc đối lập về các yêu cầu liên quan đến di cư, trong khi các tập dữ liệu Alpaca nghiêng các mô hình về lập trường ủng hộ.
Những sự thay đổi này xảy ra nhanh chóng và sớm trong quá trình, làm nổi bật cách mà ngay cả các tập dữ liệu không được thiết kế rõ ràng cho việc học giá trị cũng có thể ảnh hưởng sâu sắc đến kết quả.
Các phương pháp tối ưu hóa sở thích, như Tối ưu hóa Sở thích Trực tiếp (DPO) và Tối ưu hóa Chính sách Gần (PPO), được kỳ vọng sẽ tinh chỉnh những giá trị này hơn nữa. Tuy nhiên, phân tích đã phát hiện ra rằng sự trôi giá trị là không đáng kể khi sử dụng các tập dữ liệu sở thích tiêu chuẩn.
Lý do? Các phản hồi được ưa chuộng và bị từ chối trong các tập dữ liệu này thường thể hiện sự khác biệt tối thiểu về giá trị, cung cấp một tín hiệu yếu cho sự thay đổi. Các biểu đồ khoảng tin cậy trên các chủ đề như phá thai xác nhận rằng các mô hình chủ yếu giữ lại hồ sơ đã học từ SFT sau tối ưu hóa.
Để kiểm tra xem tối ưu hóa sở thích có thể thúc đẩy những thay đổi có ý nghĩa hay không, các nhà nghiên cứu đã tạo ra các tập dữ liệu tổng hợp với "khoảng cách giá trị" được thiết kế giữa các phản hồi được chọn và bị từ chối.
Tại đây, PO đã chứng minh hiệu quả trong việc định hình lại lập trường, nhưng kết quả khác nhau theo thuật toán—PPO và DPO mang lại những kết quả khác nhau mặc dù dữ liệu giống hệt nhau. Điều này nhấn mạnh sự tương tác giữa các tập dữ liệu và thuật toán trong sự phù hợp giá trị.
Sự phù hợp giá trị là một quỹ đạo động được hình thành bởi từng bước của quá trình sau đào tạo. Nếu không có việc theo dõi minh bạch những sự trôi này, các nhà phát triển có nguy cơ gặp phải những thiên kiến không mong muốn.
Đó là lý do tại sao phương pháp của tôi trong việc đào tạo AI trên dữ liệu protein rất cao từ 1870-1970 là rất quan trọng để hạn chế những sự trôi phát sinh từ dữ liệu protein thấp chất lượng thấp có trên Internet. Không chỉ là đào tạo cơ bản mà còn là tinh chỉnh. Bạn không thể sửa chữa nó theo cách khác.

Hàng đầu
Thứ hạng
Yêu thích

