Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Сборка с помощью агентов ИИ @dair_ai • Предыдущая: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Я делюсь идеями о том, как создавать с помощью LLM и агентов ⬇️ ИИ
Малые модели также могут быть хорошими рассуждателями.
Вот проблема и предложенное решение:
Малые модели часто показывают худшие результаты, когда вы обучаете их на следах учителя CoT.
В этой статье неудача связывается с распределительной несоответствием и вводит Обратное Спекулятивное Декодирование (RSD): во время генерации следов учитель предлагает токены, но студент принимает только те токены, которые достаточно вероятны в соответствии с его собственным распределением.
Результат — следы, удобные для студента, которые сохраняют правильность, при этом управляя удивлением на каждом шаге.
RSD использует отбор с отбраковкой для выбора правильных, согласованных следов и сочетает их с префиксами UPFT для нерешенных задач: обучайте полные следы, где RSD находит правильное решение, и обучайте первые 128 токенов, где это не так.
При применении к Qwen3-0.6B, прямая дистилляция данных следов рассуждений s1K-1.1 ухудшает среднюю производительность на 20.5%, в то время как та же модель, обученная на следах рассуждений, сгенерированных RSD, достигает значительных улучшений на 4.9%.
Статья:

33,69K
Отличная работа, демонстрирующая синтез запросов как новую ось масштабирования для рассуждений.
Хорошие обучающие данные дефицитны.
Эта работа демонстрирует структуру, которая может сделать возможным создание высококачественных обучающих задач для LLM, ориентированных на рассуждения.
Технические детали ниже:

55K
Удивительно, насколько великолепным оркестратором является GPT-5.
Если вы создаете агентную систему, подобную Claude Code, для любой области, GPT-5 должен быть одной из ваших основных моделей.
Если вы создаете многопользовательские системы оркестратора-работника для областей, выходящих за рамки программирования, GPT-5 необходим!
GPT-5 хорошо работает во многих областях, потому что он понимает намерения и может хорошо рассуждать на основе большого объема данных. Он отлично заполняет пробелы, что помогает разработчикам, которые обычно недостаточно специфицируют своих агентов.
AI-агенты полны интересных новых поведений, полезных для пользовательского опыта, но это возможно только с помощью продвинутых моделей, таких как GPT-5, которые оркеструют коммуникацию между подагентами.
Как показано на рисунке, я использовал его для создания динамической и агентной системы для поддержки клиентов. Один агент-оркестратор (на базе GPT-5) может эффективно планировать и эффективно организовывать извлечение всех видов информации (транскрипции, внутренние базы знаний, документы, интернет-форумы и т. д.).
Поскольку это система многократного извлечения, вам нужна чрезвычайно умная модель для управления оркестрацией, так как подагенты остаются гибкими, чтобы привлекать все виды контекста для системы. GPT-5 обеспечивает эту гибкость благодаря своей способности обрабатывать и рассуждать на основе широкого спектра информации.
Если ваши определения инструментов правильно настроены, это дополнительно усиливает способность GPT-5 использовать все инструменты и контекст, к которым он имеет доступ.
Если вы использовали Claude Code с подагентами, вы точно знаете, о чем я говорю. В некотором смысле, вся эта система поддержки клиентов была построена с вдохновением от Claude Code. Но лучшая модель для задач, выходящих за рамки программирования, — это GPT-5. Я создал оценку, чтобы это подтвердить, так что это не просто визуальная оценка результатов. Я только что более подробно рассмотрел это для своих подписчиков академии здесь:
Кроме того, я обнаружил, что GPT-5-Codex хорошо работает для этого рабочего процесса, но он все еще не так хорош, как GPT-5. Я также экспериментировал с GPT-5-mini и был поражен его эффективностью в этом случае. Claude 4 слишком дорог для этого, а Gemini 2.5 Pro даже близко не подходит к GPT-5 (хотя он также дает приемлемые результаты). Большинство из этих других моделей не хватало последовательности и иногда вызывали инструменты в неправильном порядке или с неправильными параметрами (проведите свои оценки вызова инструментов, чтобы это подтвердить). Немного настройки системного запроса может помочь, но GPT-5 все еще превосходит.

72,48K
Топ
Рейтинг
Избранное