Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi vừa mới tìm hiểu sâu về MiroThinker 1.5, cách nén Agent của họ có chút kỳ lạ, nhưng khi hiểu rồi thì thấy thực sự hữu ích.
Vấn đề cốt lõi là "làm thế nào để nhét 400 lần Tool Use vào trong 256K ngữ cảnh".
Họ đã thực hiện một thao tác cực kỳ táo bạo: áp dụng mặt nạ vật lý lên Observation (kết quả trả về của công cụ) trong lịch sử ReAct giữa think-action-observation.
Ngoài việc giữ nguyên văn bản của K vòng gần nhất, tất cả các kết quả Tool trước đó đều được thay thế bằng một câu "Kết quả công cụ đã bị bỏ qua để tiết kiệm token". Nhưng vẫn giữ nguyên tất cả các <thought>.
Có một điểm rất phản trực giác ở đây, chính agent này đang thực hiện nghiên cứu sâu, vậy mà chỉ giữ lại K vòng gần nhất, tức là 5 vòng nguyên văn, còn lại đều không có, thì làm sao có thể trả lời câu hỏi.
Điều này có một tiền đề rất ngầm nhưng quan trọng: chỉ cần Thought đủ dày, nó thực sự đang tiến gần đến Summary một cách vô hạn.
Mỗi lần tạo Thought, về bản chất, đều là một lần cắt thông tin của mô hình đối với Observation hiện tại. Khi T1 được tạo ra, nó đã "ăn" dữ liệu quan trọng trong O1 vào đầu rồi.
Mặc dù O1 đã được thay thế bằng một ký hiệu, nhưng T1 vẫn còn. T1 trở thành "gói thông tin nén" của O1. Không cần phải gắn thêm một Agent Tóm tắt, chuỗi Thought hoàn chỉnh này, bản thân nó đã là một "tóm tắt động" có độ trung thực cao, liên tục được cập nhật.

Hàng đầu
Thứ hạng
Yêu thích
