Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
так что ты выбираешь смерть

Чтобы ответить на уровне объекта @TheZvi
Технически, DSA может быть значительным скачком, который делает контексты масштаба Gemini тривиально дешевыми, даже для моделей предыдущего поколения. Предостережения:
- мы не уверены, *если* это масштабируется до 1M+ (но V3.2 exp≥V3.1, несмотря на идентичное предварительное обучение, и V3.2>> exp, так что очень вероятно, что да)
- мы не уверены, как это можно обучить без начальной загрузки от плотного внимания. Может быть, DeepSeek знает. Я думаю, что V4 не будет использовать DSA, это явно называется прототипом. В худшем случае также разумно предварительно обучить с полным вниманием => расширить => разрежить, вы тратите больше на предварительное обучение для постоянно более дешевого вывода.
- Kimi's KDA или Qwen's GDN+ или что-то еще может быть даже лучше, чем DSA+/NSA+
С учетом этих предостережений, это не снижение цены в 2 раза, я саркастичен. Скорее, около 10 раз. Разреженное внимание, которое не ухудшается, — это довольно большая сделка.
Что касается скорости, это пустая точка с точки зрения модели. DeepSeek не заинтересован в предоставлении лучшего продукта. Они работают с огромными партиями на H800s/Ascends. Вы можете запустить это на американском оборудовании и получить 60-150 t/s, или на Cerebras и получить GLM-подобные 1000 t/s, не увеличивая стоимость. Эта архитектура по своей сути быстрая (поверхностное, дешевое внимание), просто DeepSeek предоставляет ее медленно.
Что касается передового интеллекта, я говорю, что эти «максимальные преимущества» передовой – в основном агентное кодирование, но вы можете охватить больше областей тем же способом – являются продуктом затрат на вычисления на RL-этапах и на итерациях через синтетические среды. У них есть рецепт. Они сообщают, что ≈10% стоимости предварительного обучения было потрачено на Speciale. Это ≈600K долларов. Grok 4, как сообщается, использовал 100% Grok 3, или десятки-сотни миллионов. Это явно было очень неэффективно с Grok, но я думаю, что DeepSeek мог бы легко достичь 100%, рецепт известен. Они, вероятно, не хотят тратить это на устаревшую базу, так как отмечают, что она остается в узком месте знаний.
Мне кажется забавным легкомысленное отношение к производительности математики уровня IMO (или нулевому решению задач Эрдеша на уровне, что человеческий решатель говорит «да, это в основном мое решение»). Разве мы все не должны были ожидать AGI от независимых математических исследований? Или это только кодирование теперь. Аргументированно, это самая интересная способность для оценки скоростей взлета. Но как бы там ни было, я сам верю в медленный взлет, саморазвитие столкнется с логистическими проблемами, независимо от того, с чего мы начинаем.
Основной вклад здесь, как я уже сказал, заключается в том, что они объявляют веру в то, что в принципе они решили обучение передовых LLM 2025 года как исследовательскую программу и могут достичь текущего западного уровня или превзойти его, просто вложив больше вычислений (плюс незначительные изменения в эффективности токенов). В теории, их объявление о том, что они рассматривают обучение в большем масштабе в конце, можно интерпретировать как «и именно это мы сейчас и делаем». Но это еще предстоит увидеть.
@TheZvi > несмотря на идентичное предварительное и пост-тренировочное обучение, коррекция
3,57K
Топ
Рейтинг
Избранное

