Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alors tu choisis la mort

Pour répondre au niveau de l'objet @TheZvi
Techniquement, DSA pourrait être un saut majeur qui rend les contextes à l'échelle de Gemini triviellement bon marché, même pour les modèles de génération précédente. Précautions :
- nous ne sommes pas sûrs *si* cela évolue à 1M+ (mais V3.2 exp≥V3.1 malgré un pré-entraînement identique, et V3.2>> exp, donc très probablement oui)
- nous ne sommes pas sûrs de la manière dont cela peut être entraîné sans démarrer à partir de l'attention dense. Peut-être que DeepSeek sait. Je pense que V4 n'utilisera pas DSA, c'est explicitement appelé un prototype. Dans le pire des cas, il est également sensé de pré-entraîner avec une attention complète => étendre => rendre sparse, vous dépensez plus en pré-entraînement pour un inférence définitivement moins chère.
- Le KDA de Kimi ou le GDN+ de Qwen ou quelque chose pourrait même être meilleur que DSA+/NSA+
Modulo ces précautions, ce n'est pas une réduction de prix de 2x, je fais du sarcasme. Plutôt comme 10x. L'attention sparse qui ne se dégrade pas est un gros problème.
En ce qui concerne la vitesse, c'est un point vide du point de vue du modèle. DeepSeek n'est pas intéressé à fournir le meilleur produit. Ils servent avec des lots massifs de H800s/Ascends. Vous pouvez le mettre sur du matériel américain et obtenir 60-150 t/s, ou sur Cerebras et obtenir 1000 t/s comme GLM, sans exploser le coût. Cette architecture est intrinsèquement rapide (attention peu profonde et bon marché), c'est juste que DeepSeek le sert lentement.
Concernant l'intelligence de pointe, je dis que ces avantages de «usemaxing» de la frontière – principalement le codage agentique, mais vous pouvez couvrir plus de domaines de la même manière – sont le produit des dépenses de calcul sur les étapes RL et sur l'itération à travers des environnements synthétiques. Ils ont la recette. Ils rapportent ≈10% du coût de pré-entraînement dépensé sur Speciale. C'est ≈600K$. Grok 4 aurait utilisé 100% de Grok 3, ou des dizaines à des centaines de millions. Cela a clairement été très inefficace avec Grok, mais je pense que DeepSeek pourrait facilement atteindre 100%, la recette est connue. Ils ne veulent probablement pas le gaspiller sur une base obsolète, car ils notent qu'elle reste limitée en connaissances.
Je trouve l'attitude désinvolte envers la performance mathématique de niveau IMO (ou le zéro-shotting des problèmes d'Erdos au niveau où le solveur humain dit «ouais c'est essentiellement ma solution») drôle. N'étions-nous pas tous censés attendre l'AGI de la recherche mathématique indépendante ? Ou est-ce seulement le codage maintenant ? Arguablement, c'est la capacité la plus intéressante pour estimer les vitesses de décollage. Mais peu importe, je crois moi-même à un décollage lent, l'auto-amélioration rencontrera des problèmes logistiques peu importe où nous commençons.
La principale contribution ici, comme je l'ai dit, est qu'ils annoncent la croyance qu'en fondamental, ils ont résolu l'entraînement des LLM de pointe de 2025 en tant que programme de recherche, et pourraient atteindre le niveau occidental actuel ou au-delà juste en injectant plus de calcul (plus de légers ajustements autour de l'efficacité des tokens). En théorie, leur annonce de se pencher sur un entraînement à plus grande échelle à la fin peut être interprétée comme «et c'est ce que nous faisons maintenant». Mais cela reste à voir.
@TheZvi > malgré un pré-entraînement et un post-entraînement identiques, correction
3,29K
Meilleurs
Classement
Favoris

