ورقة رائعة عن الذاكرة الوكيلية. يحتاج وكلاء نموذج اللغة الكبيرة إلى ذاكرة طويلة وقصيرة المدى للتعامل مع المهام المعقدة. ومع ذلك، فإن النهج الافتراضي اليوم يعامل هذه المكونات كمكونات منفصلة، لكل منها استراتيجيات ومتحكمات واستراتيجيات تحسينية خاصة به. لكن الذاكرة ليست نظامين مستقلين. إنها عملية معرفية واحدة تقرر ما الذي يجب تخزينه، استرجاعه، تلخيصه، أو نسيانه. يقدم هذا البحث الجديد AgeMem، إطار موحد يدمج إدارة الذاكرة طويلة الأمد وقصيرة المدى مباشرة في سياسة الوكيل من خلال إجراءات قائمة على الأدوات. بدلا من الاعتماد على قواعد قائمة على الزناد أو مديري الذاكرة المساعدة، يتعلم الوكيل متى وكيف يستدعي عمليات الذاكرة: إضافة، تحديث، حذف للتخزين طويل الأمد، واسترجاع، تلخيص، تصفية لإدارة السياق. يستخدم استراتيجية التعلم التقسي التقدمي المكونة من ثلاث مراحل. أولا، يتعلم النموذج تخزين الذاكرة طويلة الأمد. ثم يتقن إدارة السياق قصيرة المدى. وأخيرا، ينسق النموذج كلاهما ضمن إعدادات المهام الكاملة. للتعامل مع التجارب المجزأة من عمليات الذاكرة، يصممون GRPO خطوة بخطوة (تحسين السياسات النسبية الجماعية) الذي يحول التبعيات عبر المراحل إلى إشارات قابلة للتعلم. النتائج عبر خمسة مؤشرات طويلة الأفق: > في Qwen2.5-7B، حقق AgeMem متوسط درجة 41.96 مقارنة ب 37.14 ل Mem0، أي تحسن بنسبة 13٪. > في Qwen3-4B، يتسع الفجو: 54.31 مقابل 44.70. إضافة الذاكرة طويلة الأمد وحدها تحقق +10-14٪ مكاسب. > إضافة تدريب التعلم الواقعي تضيف +6٪ أخرى. > النظام الموحد الكامل مع كلا نوعي الذاكرة يحقق تحسنا يصل إلى +21.7٪ مقارنة بخطوط الأساس التي لا تحتوي على ذاكرة. تتفوق إدارة الذاكرة الموحدة من خلال الإجراءات المعتمدة على الأدوات القابلة للتعلم، مما يمكن الوكلاء من اتخاذ قرار تكيفي فيما يجب تذكره وما ينساه بناء على متطلبات المهام. الورقة: ...