Ефективна пожиттєва пам'ять для агентів LLM Агентам LLM потрібна пам'ять для обробки тривалих розмов. Сьогодні це реалізовано так: пам'ять або зберігає повну історію взаємодії, що призводить до значної надлишковості, або покладається на ітеративне мислення для фільтрації шуму, споживаючи надмірні токени. Це нове дослідження представляє SimpleMem — ефективну структуру пам'яті, засновану на семантичному безвтратному стисненні, яка максимізує щільність інформації при мінімізації споживання токенів. Фреймворк працює через триетапний конвеєр. 1) По-перше, семантичне структуроване стиснення застосовує фільтрацію з урахуванням ентропії, щоб перетворити сирий діалог на компактні одиниці пам'яті, розв'язувати копосилання та конвертувати відносні часові вирази («минулу п'ятницю») у абсолютні часові позначки. 2) По-друге, рекурсивна консолідація пам'яті поступово інтегрує пов'язані спогади у більш високорівневі абстракції, перетворюючи повторювані записи на кшталт «замовив латте о 8 ранку» на шаблони на кшталт «регулярно п'є каву вранці». 3) По-третє, Adaptive Query-Aware Retrieval динамічно коригує область пошуку залежно від складності запиту. Результати: На бенчмарку LoCoMo з GPT-4.1-mini SimpleMem досягає 43.24 F1, перевершуючи найсильніший базовий Mem0 (34.20) на 26.4%, при цьому зменшуючи споживання токена до лише 531 токена на запит порівняно з 16 910 у підходах повного контексту, що у 30 разів менше. Вони стверджують, що конструкція пам'яті у 14 разів швидша за Mem0 (92,6 секунди проти 1350,9 с на семпл) і у 50 разів швидша за A-Mem. Навіть модель параметрів 3B із SimpleMem перевершує більші моделі, що використовують менш якісні стратегії пам'яті. Ця робота показує, що структуроване семантичне стиснення та адаптивне отримання дозволяють агентам LLM зберігати надійну довгострокову пам'ять без втрати точності чи втрати точності.