Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Artificial Analysis

Незалежний аналіз моделей штучного інтелекту та хостинг-провайдерів - виберіть найкращу модель та API провайдера для вашого випадку використання

Оголошуємо про Stirrup — наш новий фреймворк з відкритим кодом для створення агентів. Він легкий, гнучкий, розширюваний і включає найкращі практики провідних агентів, таких як Claude Code Stirrup відрізняється від інших агентних фреймворків тим, що уникає жорсткості, яка може погіршувати якість вихідних даних. Stirrup дозволяє моделям керувати власним робочим процесом, як Claude Code, водночас надаючи розробникам структуру та впроваджуючи необхідні функції, такі як управління контекстом, підтримка MCP і виконання коду. Ми використовуємо Stirrup у Artificial Analysis як частину наших агентних бенчмарків, зокрема в рамках нашої оцінки GDPval-AA, яка буде опублікована пізніше сьогодні. Просто 'pip install stirrup', щоб почати створювати власні агенти вже сьогодні! Ключові переваги: ➤ Працює з моделлю, а не проти неї: Stirrup відходить убік і дозволяє моделі вирішувати, як вирішувати багатокрокові завдання, на відміну від існуючих фреймворків, які накладають суворі шаблони, що обмежують продуктивність. ➤ Найкращі практики вбудовані: Ми вивчали провідні агентні системи (наприклад, Claude Code), щоб витягти практичні шаблони щодо обробки контексту, дизайну інструментів і стабільності робочих процесів, і вбудували їх безпосередньо у фреймворк. ➤ Повністю налаштовувані: Використовуйте Stirrup як пакет або як стартовий шаблон для створення власних повністю персоналізованих агентів. Основні особливості: ➤ Необхідні інструменти, готові до використання: Поставляються з готовими інструментами, такими як онлайн-пошук і перегляд, виконання коду (локальний, docker або через @e2b пісочницю), MCP-клієнт і вихід документів ➤ Гнучкий шар інструментів: Універсальний інтерфейс інструменту полегшує визначення та розширення власних інструментів ➤ Управління контекстом: автоматичне узагальнення для збереження контекстних обмежень із збереженням точності завдань ➤ Гнучкість провайдера: вбудована підтримка сумісних з OpenAI API (включно з @OpenRouterAI) та LiteLLM, або залучення власного клієнта ➤ Мультимодальна підтримка: обробка зображень, відео та аудіо з автоматичною обробкою форматів

DeepSeek V3.2 — #2 найрозумніша модель відкритих ваг і також попереджає Grok 4 та Claude Sonnet 4.5 (Thinking) — вона виводить DeepSeek Sparse Attention з «експериментального» статусу і поєднує її з матеріальним підвищенням інтелекту @deepseek_ai V3.2 отримує 66 балів за Індексом інтелекту штучного аналізу; значне підвищення розвідки порівняно з DeepSeek V3.2-Exp (+9 балів), опубліковане у вересні 2025 року. DeepSeek змінила основну точку API на V3.2 без змін ціни порівняно з V3.2-Exp — це встановлює ціноутворення лише $0.28/$0.42 за 1M токена вхідно-виводного токену, з 90% знижкою на кешовані вхідні токени. З моменту першого релізу DeepSeek V3 ~11 місяців тому наприкінці грудня 2024 року архітектура DeepSeek V3 із 671B загальною/активними параметрами 37B призвела до того, що модель має оцінку 32 до 66 у Artificial Analysis Intelligence Index. DeepSeek також випустила версію V3.2-Speciale — варіант лише для логіки з розширеними можливостями, але значно більшим використанням токенів. Це поширений компроміс у моделях міркувань, де більш розвинене мислення зазвичай дає вищі показники інтелекту та більше вихідних токенів. V3.2-Speciale доступна через оригінальний API DeepSeek до 15 грудня. V3.2-Speciale наразі має нижчі бали за індексом штучного аналізу інтелекту (59), ніж V3.2 (Reasoning, 66), оскільки оригінальний API DeepSeek ще не підтримує виклик інструментів для цієї моделі. Якщо V3.2-Speciale зрівняється з tau2 (91%) з увімкненим викликом інструментів, він отримає ~68 за індексом інтелекту, що робить його найрозумнішою моделлю відкритих ваг. V3.2-Speciale використовує 160M вихідних токенів для запуску Artificial Analysis Intelligence Index, що майже у ~2 рази більше токенів, що використовується у V3.2 у режимі міркування. DeepSeek V3.2 використовує ідентичну архітектуру V3.2-Exp, яка запровадила DeepSeek Sparse Attention (DSA) для зменшення обчислювальної потужності для довгого контекстного висновку. Наш бенчмарк Long Context Reasoning не показав жодних витрат для інтелекту впровадження DSA. DeepSeek відобразив цю перевагу вартості V3.2-Exp, знизивши ціни на свій сторонній API з $0.56/$1.68 до $0.28/$0.42 за 1M токенів вхідно/виводу — зниження цін на вхідні та вихідні токени відповідно на 50% і 75%. Основні висновки з бенчмаркінгу: ➤ 🧠 DeepSeek V3.2: У режимі мислення DeepSeek V3.2 отримує 66 балів за Індексом інтелекту штучного аналізу і займає еквівалентне місце Kimi K2 Thinking (67), випереджаючи Grok 4 (65), Grok 4.1 Fast (Reasoning, 64) та Claude Sonnet 4.5 (Thinking, 63). Він демонструє помітне покращення порівняно з V3.2-Exp (57) у використанні інструментів, довгоконтекстному мисленні та програмуванні. ➤ 🧠 DeepSeek V3.2-Speciale: V3.2-Speciale має вищі бали, ніж V3.2 (Reasoning) за 7 із 10 бенчмарків нашого індексу інтелекту. V3.2-Speciale тепер має найвищий і другий за величиною бали серед усіх моделей AIME25 (97%) та LiveCodeBench (90%) відповідно. Однак, як згадувалося вище, оригінальний API DeepSeek для V3.2-Speciale не підтримує виклик інструментів, і модель отримує 0 балів на бенчмарку tau2. ➤ 📚 Галюцинації та знання: DeepSeek V3.2-Speciale і V3.2 — це найвищі за рейтингом моделі відкритих ваг у Індексі штучного аналізу з оцінками -19 і -23 відповідно. Пропрієтарні моделі від Google, Anthropic, OpenAI та xAI зазвичай очолюють цей індекс. ➤ ⚡ Продуктивність без міркування: У режимі без логіки DeepSeek V3.2 отримує 52 бали за індексом інтелекту штучного аналізу (+6 балів проти V3.2-Exp) і є #3 найрозумнішою нелогічною моделлю. DeepSeek V3.2 (Non-reasoning) відповідає інтелектуальності DeepSeek R1 0528, моделі передового мислення з травня 2025 року, підкреслюючи швидкі здобутки інтелекту, досягнуті завдяки попередньому навчанню та покращенню RL цього року. ➤ ⚙️ Ефективність токенів: У режимі логіки DeepSeek V3.2 використовувала більше токенів, ніж V3.2-Exp, для запуску Індексу штучного аналізу інтелекту (з 62M до 86M). Використання токенів залишається схожим у варіантах без логіки. V3.2-Speciale демонструє значно більше використання токенів, випереджаючи Kimi K2 Thinking (140M) та Grok 4 (120M) ➤💲Ціноутворення: DeepSeek не оновив ціни на токени для своєї першої сторони, і всі три варіанти доступні за $0.28/$0.42 за 1M вхідних/вихідних токенів Інші деталі моделі: ➤ ©️ Ліцензування: DeepSeek V3.2 доступний за ліцензією MIT ➤ 🌐 Доступність: DeepSeek V3.2 доступний через DeepSeek API, який замінив DeepSeek V3.2-Exp. Користувачі можуть отримати доступ до DeepSeek V3.2-Speciale через тимчасовий API DeepSeek до 15 грудня. З огляду на підвищення інтелектуальної інтелектуальності в цьому релізі, ми очікуємо, що незабаром низка сторонніх постачальників обслуговуватимуть цю модель. ➤ 📏 Розмір: DeepSeek V3.2 Exp має 671B загальних параметрів і 37B активних параметрів. Це те саме, що й у всіх попередніх моделях серій DeepSeek V3 та R1

Найкращі

Рейтинг

Вибране