DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je viens de plonger dans MiroThinker 1.5, leur méthode de compression d'Agent est un peu étrange, mais une fois comprise, elle semble vraiment utile. Le cœur du problème réside dans la question de « comment insérer 400 utilisations d'outil dans un contexte de 256K ». Ils ont réalisé une opération extrêmement audacieuse : appliquer un masque physique sur l'Observation (résultats des outils) dans l'historique de ReAct, qui suit le modèle think-action-observation. À part conserver le texte original des K dernières itérations, tous les résultats des outils des centaines d'itérations précédentes ont été remplacés par la phrase "Le résultat de l'outil est omis pour économiser des tokens". Cependant, toutes les <thought> ont été complètement conservées. Il y a un aspect très contre-intuitif ici : cet agent est lui-même en train de faire une recherche approfondie, donc il ne conserve que les K dernières itérations, soit 5 itérations de texte original, et tout le reste a disparu, comment peut-il alors répondre aux questions ? Cela repose sur un prérequis très subtil mais clé : tant que la pensée est suffisamment dense, elle se rapproche en fait d'un résumé infini. Chaque génération de pensée est essentiellement une tranche d'information du modèle sur l'Observation actuelle. Lorsque T1 est généré, il a déjà « ingéré » les données clés de O1. Bien que O1 ait été remplacé par un espace réservé, T1 est toujours là. T1 devient le « paquet d'information compressé » de O1. Il n'est pas nécessaire d'ajouter un Agent de Résumé, cette chaîne de pensée complète est en elle-même un « résumé dynamique » à mise à jour incrémentale et de haute fidélité.

Meilleurs

Classement

Favoris