Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

elvis

Створення за допомогою агентів штучного інтелекту @dair_ai • Попередня: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Я ділюся думками про те, як створювати за допомогою LLM та AI Agents ⬇️

Google щойно опублікував чудовий посібник з ефективної контекстної інженерії для багатоагентних систем. Зверніть увагу на це, розробники ШІ! (зберіть у закладки) Ось мої основні висновки: Контекстні вікна не є вузьким місцем. Інженерія контексту — це так. Для більш складних і довготривалих задач управління контекстом не можна розглядати як просту задачу «маніпуляції рядками». Стандартний підхід до обробки контексту в агентних системах сьогодні залишається вставленням усіх у запит. Більше історії, більше жетонів, більше плутанини. Більшість команд розглядають контекст як проблему конкатенації рядків. Але сирі контекстні дампи створюють три критичні помилки: > вибух вартості через повторювану інформацію > погіршення продуктивності через ефект «загублених посередині» > зростання рівня галюцинацій, коли агенти неправильно приписують дії в системі Управління контекстом стає архітектурною проблемою поряд із зберіганням і обчисленнями. Це означає, що явні перетворення замінюють ад-хок конкатенацію рядків. Агенти отримують мінімально необхідний контекст за замовчуванням і явно запитують додаткову інформацію через інструменти. Схоже, що Agent Development Kit від Google справді глибоко замислюється над управлінням контекстом. Вона вводить багаторівневу архітектуру, яка розглядає контекст як «скомпільований вигляд над системою стану», а не як активність заповнення запитів. Як це виглядає? 1) Структура: Багаторівнева модель Фреймворк розділяє сховище та презентацію через чотири окремі рівні: 1) Working Context обробляє ефемерні погляди на виклик. 2) Сесія веде журнал тривалих подій, фіксуючи кожне повідомлення, виклик інструменту та керуючий сигнал. 3) Пам'ять надає пошукові, довгоживучі знання, які переживають окремі сесії. 4) Артефакти обробляють великі бінарні дані через версійні посилання, а не через вбудоване вкладення. Як насправді працює компіляція контексту? Він працює через впорядковані потоки LLM з явними процесорами. Процесор вмісту виконує три операції: фільтрує нерелевантні події, перетворює події у правильно розташовані об'єкти Content, а ін'єкція записує відформатовану історію у LLM-запит. Процесор контенту фактично є мостом між сесією та робочим контекстом. Архітектура реалізує кешування префіксів шляхом поділу контексту на стабільні префікси (інструкції, ідентичність, підсумки) та суфікси змінних (останні ходи, результати інструментів). До того ж, static_instruction примітив гарантує незмінність системних запитів, зберігаючи валідність кешу між викликами. 2) Агентне управління тим, що має значення зараз Коли ви розумієте структуру, основний виклик стає релевантністю. Тобі потрібно зараз визначити, що має бути в активному вікні. ADK відповідає на це через співпрацю між архітектурою, визначеною людиною, та агентним прийняттям рішень. Інженери визначають, де знаходяться дані і як їх узагальнюють. Агенти динамічно вирішують, коли «звертатися» до конкретних блоків пам'яті або артефактів. Для великих корисних навантажень ADK застосовує схему ручки. 5MB CSV або масова JSON-відповідь зберігається у сховищі артефактів, а не в запиті. Агенти за замовчуванням бачать лише легкі посилання. Коли потрібні сирі дані, вони викликають LoadArtifactsTool для тимчасового розширення. Після виконання завдання артефакт розвантажується. Це перетворює постійний податок на контекст на точний доступ за запитом. Для довгострокового знання MemoryService надає два шаблони пошуку: 1) Реактивне відкликання: агенти розпізнають прогалини в знаннях і явно шукають корпус. 2) Проактивне відкликання: препроцесори виконують пошук схожості на вхід користувача, вводячи відповідні фрагменти перед викликом моделі. Агенти згадують саме ті фрагменти, потрібні для поточного кроку, замість того, щоб вести кожну розмову, яку вони коли-небудь мали. Усе це нагадує мені багаторівневий підхід до Claude Skills, який дійсно покращує ефективне використання контексту в Claude Code. 3) Мультиагентний контекст Системи з одним агентом страждають від роздутості контексту. При створенні мультиагентів ця проблема ще більше посилюється, що легко призводить до «вибуху контексту», коли ви залучаєте більше субагентів. Для ефективної роботи багатоагентної координації ADK забезпечує два шаблони. Агенти як інструменти розглядають спеціалізованих агентів як можливих для виклику, які отримують сфокусовані підказки без родової історії. Agent Transfer, що дозволяє повний контрольний обмін, коли підагенти успадковують сесійні перегляди. Параметр include_contents контролює потік контексту, за замовчуванням повністю працюючий контекст або надаючи лише новий запит. Що запобігає галюцинаціям під час передачі агентів? Рішенням є переклад розмови. Попередні повідомлення Assistant конвертуються у наративний контекст із тегами атрибуції. Виклики інструментів від інших агентів чітко позначені. Кожен агент виконує роль асистента, не приписуючи собі ширшу історію системи. Нарешті, вам не потрібно використовувати Google ADK для застосування цих інсайтів. Я думаю, що це може бути застосовно для всіх аспектів при створенні багатоагентних систем. (зображення надано nano banana pro)

АРГУМЕНТИ МАСШТАБУВАННЯ СЕРЕДОВИЩА // Масштабування середовища може бути так само важливим, як і масштабування моделей для агентного ШІ. Сучасні дослідження ШІ свідчать, що створення потужної агентної моделі ШІ — це не лише питання кращого міркування. Це також про кращі середовища. Стандартний підхід до навчання агентів ШІ сьогодні — це збір статичних траєкторій або людських демонстрацій. Це вимагає більше даних, прикладів і більше зусиль з анотацій. Але статичні дані не можуть навчити динамічному прийняттю рішень. Моделі, навчені таким чином, борються з довгостроковим, цілеспрямованим характером реальних агентних завдань. Це нове дослідження представляє Nex-N1 — фреймворк, який систематично масштабує різноманітність і складність інтерактивних навчальних середовищ, а не просто масштабує дані. Можливості агентів виникають із взаємодії, а не з імітації. Замість того, щоб збирати більше демонстрацій, вони створили інфраструктуру для автоматичної генерації різноманітних архітектур агентів і робочих процесів на основі специфікацій природної мови. Система складається з трьох компонентів. NexAU (Агентний всесвіт) забезпечує універсальну структуру агентів, яка генерує складні ієрархії агентів із простих конфігурацій. NexA4A (Agent for Agent) автоматично синтезує різноманітні архітектури агентів із природної мови. NexGAP долає розрив між симуляцією та реальністю, інтегруючи реальні MCP-інструменти для синтезу заземленої траєкторії. Результатів: - На τ2-bench Nex-N1, побудований на DeepSeek-V3.1, має результати 80,2, перевершуючи базову модель у 42,8. - На SWE-bench Verified Qwen3-32B-Nex-N1 досягає 50,5% порівняно з 12,9% базової моделі. - На BFCL v4 для інструментального використання Nex-N1 (65.3) перевершує GPT-5 (61.6). У людських оцінках реальної розробки проєктів у 43 сценаріях кодування Nex-N1 перемагає або зрівнює Claude Sonnet 4.5 у 64,5% випадків і GPT-5 у ~70% випадків. Вони також створили глибокий дослідницький агент на Nex-N1, досягнувши 47,0% на Deep Research Benchmark, з можливістю створення візуалізованих звітів, включно зі слайдами та науковими плакатами. Папір:

Найкращі

Рейтинг

Вибране