Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я щойно глибоко вивчив MiroThinker 1.5, і їхній метод стиснення агентів трохи злий, але я його розумію і вважаю дуже корисним.
Ядро вирішує проблему «як втиснути використання інструментів 400 у контексті 256K».
Вони зробили щось надзвичайно сміливе: фізично замаскували Спостереження (інструмент повертає результат) у стилі мислення-дії-спостереження в історії ReAct.
За винятком нещодавнього раунду K із збереженням оригінального тексту, попередні сотні результатів інструментів були замінені на речення «Результат інструменту пропущений для збереження токенів». Але всі вони збережені цілими<thought>.
Тут є дуже нелогічна частина: сам агент проводить глибокі дослідження, тому він зберігає лише оригінальний текст останнього раунду K, тобто 5-го раунду, і перед ним нікого немає, як він може відповісти на питання.
Це має дуже незрозумілу, але важливу передумову: поки думка достатньо щільна, вона фактично нескінченно наближається до Резюме.
Кожне генерування думки по суті є частиною інформації з моделі поточного спостереження. Коли був створений T1, ключові дані в O1 вже були «поглинуті» мозком.
Хоча O1 замінили тимчасовим варіантом, T1 залишився. T1 стає «пакетом стиснення інформації» O1. Немає потреби додавати додатковий Summary Agent, цей повний ланцюжок думок сам по собі є високоякісним «динамічним підсумком», який постійно оновлюється поступово.

Найкращі
Рейтинг
Вибране
