então você escolhe a morte
Para responder ao nível do objeto @TheZvi Tecnicamente, DSA pode ser um grande salto que torna contextos à escala da Gemini trivialmente baratos, mesmo para modelos de gerações anteriores. Advertências: - não temos certeza *se* isso escala para 1M+ (mas V3.2 exp≥V3.1 apesar do pré-treinamento idêntico, e V3.2>> exp, então é altamente provável que sim) - não temos certeza de como pode ser treinado sem bootstrap a partir da atenção densa. Talvez a DeepSeek saiba. Eu acho que a V4 não usará DSA, é explicitamente chamada de protótipo. No pior dos casos, também é sensato pré-treinar com atenção total => estender => esparsificar, você gasta mais custo no pré-treinamento para uma inferência permanentemente mais barata. - O KDA da Kimi ou o GDN+ da Qwen ou algo assim pode ser até melhor que DSA+/NSA+ Modulo essas advertências, isso não é uma redução de preço de 2x, estou sendo sarcástico. Mais como 10x. A atenção esparsa que não degrada é um grande negócio. Sobre a velocidade, é um ponto vácuo do ponto de vista do modelo. A DeepSeek não está interessada em fornecer o melhor produto. Eles servem com lotes massivos de H800s/Ascends. Você pode colocá-lo em hardware americano e obter 60-150 t/s, ou em Cerebras e obter 1000 t/s como o GLM, sem aumentar o custo. Esta arquitetura é inerentemente rápida (atenção rasa e barata), é apenas que a DeepSeek a serve lentamente. Sobre a inteligência de fronteira, estou dizendo que essas vantagens de «maximização de uso» da fronteira – codificação agente, principalmente, mas você pode cobrir mais domínios da mesma forma – são um produto do gasto computacional em etapas de RL e na iteração através de ambientes sintéticos. Eles têm a receita. Eles relatam ≈10% do custo de pré-treinamento gasto em Speciale. Isso é ≈$600K. O Grok 4 supostamente usou 100% do Grok 3, ou dezenas a centenas de milhões. Está claramente sendo muito ineficiente com o Grok, mas eu acho que a DeepSeek poderia ir para 100% facilmente, a receita é conhecida. Eles provavelmente não querem desperdiçá-la em uma base obsoleta, pois notam que continua sendo um gargalo de conhecimento. Eu acho engraçada a atitude despreocupada em relação ao desempenho matemático de nível IMO (ou resolver problemas de Erdos em zero-shot ao nível que o solucionador humano diz «sim, essa é basicamente a minha solução»). Não estávamos todos supostos a esperar AGI da pesquisa matemática independente. Ou é apenas codificação agora. Argumentavelmente, essa é a capacidade mais interessante para estimar velocidades de decolagem. Mas tanto faz, eu acredito em uma decolagem lenta, a auto-melhora enfrentará problemas logísticos não importa onde comecemos. A principal contribuição aqui, como eu disse, é que eles anunciam a crença de que fundamentalmente resolveram o treinamento de LLMs de fronteira para o final de 2025 como um programa de pesquisa, e poderiam chegar ao nível ocidental atual ou além dele apenas despejando mais computação (mais pequenos ajustes em torno da eficiência de tokens). Em teoria, o anúncio deles de olhar para um treinamento em maior escala no final pode ser interpretado como «e é isso que estamos fazendo agora». Mas isso ainda está por ser visto.
@TheZvi > apesar do pré-treinamento e pós-treinamento idênticos, correção
4,11K