Ce nouvel article est incroyable ! Il suggère que les agents basés sur des LLM fonctionnent selon des lois physiques macroscopiques, similaires à la façon dont les particules se comportent dans des systèmes thermodynamiques. Et il semble que ce soit une découverte qui s'applique à travers les modèles. Les agents LLM fonctionnent très bien dans différents domaines, mais nous n'avons pas de théorie pour expliquer pourquoi. Le comportement de ces systèmes est souvent considéré comme un produit direct d'une ingénierie interne complexe : modèles de prompt, modules de mémoire et appels d'outils sophistiqués. La dynamique reste une boîte noire. Cette nouvelle recherche suggère que les agents pilotés par des LLM présentent un équilibre détaillé, une propriété fondamentale des systèmes d'équilibre en physique. Que signifie cela ? Cela suggère que les LLM n'apprennent pas seulement des ensembles de règles et des stratégies ; ils pourraient apprendre implicitement une fonction potentielle sous-jacente qui évalue les états globalement, capturant quelque chose comme "à quelle distance l'LLM perçoit un état par rapport à l'objectif." Cela permet une convergence dirigée sans se retrouver bloqué dans des cycles répétitifs. Les chercheurs ont intégré des LLM dans des cadres d'agents et mesuré les probabilités de transition entre les états. En utilisant un principe d'action minimale de la physique, ils ont estimé la fonction potentielle régissant ces transitions. Les résultats à travers GPT-5 Nano, Claude-4 et Gemini-2.5-flash : les transitions d'état satisfont largement la condition d'équilibre détaillé. Cela indique que leurs dynamiques génératives présentent des caractéristiques similaires à celles des systèmes d'équilibre. Dans une tâche d'ajustement symbolique avec 50 228 transitions d'état à travers 7 484 états différents, 69,56 % des transitions à haute probabilité se dirigeaient vers un potentiel plus bas. La fonction potentielle a capturé des caractéristiques au niveau de l'expression comme la complexité et la validité syntaxique sans avoir besoin d'informations au niveau des chaînes. Différents modèles ont montré des comportements différents sur le spectre exploration-exploitation. Claude-4 et Gemini-2.5-flash ont convergé rapidement vers quelques états. GPT-5 Nano a exploré largement, produisant 645 sorties valides différentes en 20 000 générations. Cela pourrait être la première découverte d'une loi physique macroscopique dans les dynamiques génératives des LLM qui ne dépend pas des détails spécifiques du modèle. Cela suggère que nous pouvons étudier les agents IA comme des systèmes physiques avec des propriétés mesurables et prévisibles plutôt que comme de simples artefacts d'ingénierie. Article : Apprenez à construire des agents IA efficaces dans notre académie :