Я щойно глибоко вивчив MiroThinker 1.5, і їхній метод стиснення агентів трохи злий, але я його розумію і вважаю дуже корисним. Ядро вирішує проблему «як втиснути використання інструментів 400 у контексті 256K». Вони зробили щось надзвичайно сміливе: фізично замаскували Спостереження (інструмент повертає результат) у стилі мислення-дії-спостереження в історії ReAct. За винятком нещодавнього раунду K із збереженням оригінального тексту, попередні сотні результатів інструментів були замінені на речення «Результат інструменту пропущений для збереження токенів». Але всі вони збережені цілими<thought>. Тут є дуже нелогічна частина: сам агент проводить глибокі дослідження, тому він зберігає лише оригінальний текст останнього раунду K, тобто 5-го раунду, і перед ним нікого немає, як він може відповісти на питання. Це має дуже незрозумілу, але важливу передумову: поки думка достатньо щільна, вона фактично нескінченно наближається до Резюме. Кожне генерування думки по суті є частиною інформації з моделі поточного спостереження. Коли був створений T1, ключові дані в O1 вже були «поглинуті» мозком. Хоча O1 замінили тимчасовим варіантом, T1 залишився. T1 стає «пакетом стиснення інформації» O1. Немає потреби додавати додатковий Summary Agent, цей повний ланцюжок думок сам по собі є високоякісним «динамічним підсумком», який постійно оновлюється поступово.