Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Вывод китайских трендов, голосов и взглядов в области искусственного интеллекта и технологий на мировую арену.
⚡️На базе Zhihu — ведущей китайской платформы знаний.
🔥 ByteDance только что выпустила Doubao-Seed-1.8 (модель Agent) — и вот подробная оценка от участника Zhihu toyama nao 👀
🔮 Кратко: Открытие глаза посреди хаоса.
На протяжении 2025 года модели Seed 1.5 и 1.6 уверенно оставались в топе Китая и на втором уровне в мире. С момента 1.5 Seed удвоила усилия по унифицированному мультимодальному моделированию, что является относительно редким выбором среди отечественных моделей.
Тем не менее, Seed-1.6 подверглась жесткой критике: крупномасштабное RL повысило бенчмарк-оценки, но обобщение в реальном мире отставало от Qwen3 и было далеко от мировых лидеров. Поскольку GLM и MiniMax сосредоточились на приложениях Agent, слабые способности агента Doubao оставили его в затруднительном положении.
Тем не менее, возвращение Seed-1.8 в первую лигу не стало сюрпризом — сюрпризом стала эффективность (Рис. 1)‼️
Средняя версия достигает того же уровня интеллекта, что и Seed-1.6, используя 5K токенов вместо 15K, по цене входа ¥2, что делает ее чрезвычайно экономически эффективной — путь, напоминающий DeepSeek.
Высший уровень масштабирует рассуждения с большими бюджетами и приближается к топовым моделям США. С сильным зрением и мультимодальным пониманием, плюс генерация изображений/видео всего на полшага позади — справедливо назвать Seed "мини-Gemini."
Где она улучшилась 🚀
1️⃣ Долгосрочное рассуждение:
Seed-1.8 сохраняет фокус на гораздо более длинных CoT, тщательно проверяя ветви, чтобы достичь правильных решений.
Ее сила больше заключается в устойчивом внимании и исчерпывающем поиске, чем в глубоком человеческом абстрагировании. Gemini 3 Pro и GPT-5.2 все еще достигают более высоких оценок с ~60% токенов — признак более сильного сырого интеллекта.
2️⃣ Извлечение информации:
Высокая точность, но неэффективно. Seed-1.8 склонна повторять и аннотировать полный исходный текст во время CoT. Простая задача извлечения на 10K может стоить в 2 раза больше токенов, и точность резко падает при более низких бюджетах на рассуждение. Без включенного рассуждения извлечение почти невозможно. (Gemini 3 Pro справляется с той же задачей за ~4K токенов.)
3️⃣ Кодирование:
Исторически слабое место, но улучшается. Seed-1.8 наследует достижения от недавней модели Code и пригодна для "вибрационного кодирования" 0→1. Все еще далеко от топовых инженерных моделей — особенно в системном мышлении.
Где она все еще отстает ⚠️
1️⃣ Многоповоротная согласованность:
Лучше, чем Seed-1.6, теперь "в основном пригодна", но все еще испытывает трудности с последовательным отслеживанием целей в длинных разговорах. После ~10+ поворотов рассуждение уходит в сторону.
2️⃣ Пространственный интеллект:
Ограниченное обучение показывает. Производительность в 2D/3D пространственном рассуждении едва улучшается по сравнению с 1.6.
🧠 Итог
Унифицированная мультимодальная стратегия Gemini уже сформировала сильный барьер. Большинство китайских моделей все еще застряли в текстоцентричной конкуренции. Раннее решение ByteDance преследовать унифицированную мультимодальность было правильным — но исторический долг тяжело давит.
Seed-1.8 не идеальна. Тем не менее, по мере постепенного устранения слабостей — многоповоротное RL, глубина кодирования, расширение знаний, Seed все еще может зажечься как звезда следующей эпохи, подпитываемая огромными ресурсами интернета от ByteDance✨
🔗 Оригинальная статья (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

48
Как будет выглядеть архитектура следующего поколения LLM?
Этот вопрос продолжает вызывать споры — и участник Zhihu и разработчик Юйсюань предлагает резкое сравнение между DeepSeek Sparse Attention (DSA) и Native Sparse Attention (NSA), а также практический взгляд на реализацию операторов DSA с помощью TileLang.
🚀 Почему DSA > NSA (в задачах с длинным контекстом):
Из экспериментов, добавляющих DSA к небольшим моделям и сравнивающих с NSA, DSA последовательно показывает лучшие результаты — в основном благодаря двум ключевым дизайнерским решениям:
1️⃣ Дистилляция Attn-Score → явный контроль за выбором индекса
2️⃣ Разреженность на уровне токенов, а не на уровне блоков → более тонкая, более точная выборка
🔍 1) Дистилляция Attn-Score
Разреженное внимание зависит от выбора правильных пар ключ-значение.
DSA напрямую контролирует индексный модуль, используя истинные оценки внимания, согласовывая обучение с фактической целью: "выбрать критические токены."
NSA, наоборот, оптимизирует только LM-убыток, не предоставляя явных ограничений на точность индекса — что объясняет его более слабые результаты на бенчмарках выборки длинных документов.
🔍 2) Разреженность на уровне токенов против уровня блоков
Точность масштабируется с вычислительным бюджетом: более точная индексация → лучшая выборка.
Индексация на уровне токенов (DSA) естественным образом дает более высокую точность, чем на уровне блоков (NSA).
С этой точки зрения, узкое место производительности NSA ожидаемо — интересный вопрос: поможет ли размер блока=8 NSA догнать DSA?
⚙️ Реальная проблема: Эффективное обучение DSA
Обучение DSA включает Разогрев → Разреженная донастройка.
Проблема: вычисление и хранение оценок внимания обеих ветвей.
Наивная реализация требует O(n²) памяти — что отменяет экономию памяти FlashAttention.
Даже предварительная фильтрация (k=2048, h=512+64) все еще требует больших буферов.
📎 Код:
🧩 Слияние ядер на помощь (Рис. 1)
Чтобы избежать хранения огромных промежуточных Attn-Scores, DSA использует объединенные ядра.
Ключевой трюк заключается в объединении Index-Score + Top-k в одном ядре:
• Поддерживать буфер 2K
• Вычислить Index-Score для каждого блока
• Выполнить слияние на основе битонического сортировки
• Сохранить топ-K оценок и их позиции
CUDA не требуется — реализовано с помощью TileLang DSL, вдохновленного fla-org/native-sparse-attention.
🧾 Резюме
Преимущество DSA над NSA заключается в:
• Дистилляции Attn-Score (явный контроль)
• Разреженности на уровне токенов (более высокая точность индекса)
И с помощью слияния ядер его затратный процесс обучения становится возможным с точки зрения памяти.
📖 Читайте полную статью:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

688
🤔 Baidu ERNIE 5.0 здесь — насколько он хорош на самом деле?
Широко читаемый обзор от автора Zhihu toyama nao предлагает четкие разбивки.
Baidu отставал от OpenAI на 3-6 месяцев с релизами, соответствующими версиям. После GPT-5 ERNIE 5.0 пришел как раз вовремя — и, в отличие от спешного 4.5, он наконец выглядит как солидная модель первого уровня.
Производительность увеличилась на ~80% по сравнению с X1.1, примерно соответствует MiniMax M2. Данные для обучения, похоже, были переработаны: результаты стали гораздо чище и более связными (Рис. 1).
👇 Вот сжатое сравнение:
✅ Где ERNIE 5.0 стал лучше
• Следование инструкциям: Высокие оценки и даже достижения на уровне топа — но с странными низкими сбоями (например, непоследовательные форматы дат в разных проходах).
• Основные вычисления: Надежен для математики уровня K12; более стабильный, чем X1.1, хотя все еще слабее, чем M2 в сложных задачах.
• Гораздо более чистый вывод: X1.1 страдал от шумных очищенных данных и неуклюжих переводов. ERNIE 5.0 в значительной степени исправляет это: более четкие цепочки мыслей, более чистые окончательные ответы, лучшая читаемость.
🙋 Где он все еще испытывает трудности
• Высокий уровень галлюцинаций: Слишком много уверенных, но неверных ответов на восстановление математических символов, перемешивание символов и задачи с длинным контекстом — ближе к производительности второго уровня.
• Низкая проницательность: Не удается выявить скрытые паттерны (#46 паттерн букв, #32 календарное рассуждение), часто использует грубую силу вместо абстракции.
• Периодические бесконечные циклы: Редкие (<3%), но удивительные, учитывая, что они исчезли в недавних отечественных моделях.
• Слабая способность к многократным взаимодействиям: Часто забывает правила или предыдущие ходы до 7-го раунда; циклы срабатывают легче.
💬 Вердикт
Эра триллионных параметров в Китае едва ли существует 3 месяца, а Baidu уже перешел на модель 2T.
Тем не менее, по сравнению с Kimi K2 Thinking, ERNIE 5.0 кажется немного "пухлым" — большим, способным, но не полностью использующим свой вес.
Тем не менее, это может быть долгожданный сигнал о возвращении @Baidu_Inc — напоминание о том, что Baidu намерен оставаться в гонке LLM.
📖 Полная оценка:
🔗 Бенчмарк:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

770
Топ
Рейтинг
Избранное
