Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Porter les tendances, voix et perspectives chinoises en matière d’IA et de technologie sur la scène mondiale.
⚡️Propulsée par Zhihu, la principale plateforme de connaissance de Chine.
🔥 ByteDance vient de lancer Doubao-Seed-1.8 (modèle Agent) — et voici une évaluation approfondie du contributeur Zhihu toyama nao 👀
🔮 TL;DR : Une révélation au milieu du chaos.
Tout au long de 2025, les modèles 1.5 et 1.6 de l'équipe Seed sont restés fermement dans le haut du classement en Chine et dans le deuxième niveau mondial. Depuis 1.5, Seed a misé sur la modélisation multimodale unifiée, un pari relativement rare parmi les modèles nationaux.
Cela dit, Seed-1.6 a été fortement critiqué : le RL à grande échelle a boosté les scores de référence, mais la généralisation dans le monde réel a pris du retard par rapport à Qwen3 et était loin des leaders mondiaux. Alors que GLM et MiniMax se concentraient sur les applications Agent, les faibles capacités d'agent de Doubao l'ont laissé en difficulté.
Cependant, le retour de Seed-1.8 dans le premier niveau n'était pas une surprise — la surprise est l'efficacité (Fig 1)‼️
La version moyenne atteint la même intelligence que Seed-1.6 en utilisant 5K tokens au lieu de 15K, à un prix d'entrée de ¥2, ce qui la rend extrêmement rentable — un chemin rappelant DeepSeek.
Le niveau supérieur augmente le raisonnement avec des budgets plus importants et se rapproche notablement des meilleurs modèles américains. Avec une forte vision et une compréhension multimodale, plus une génération d'images/vidéos à peine en retard — il est juste de qualifier Seed de "mini-Gemini."
Où il s'améliore 🚀
1️⃣ Raisonnement en chaîne longue :
Seed-1.8 maintient son attention sur des CoT beaucoup plus longs, validant soigneusement les branches pour atteindre des solutions correctes.
Sa force provient davantage d'une attention soutenue et d'une recherche exhaustive que d'une abstraction humaine profonde. Gemini 3 Pro et GPT-5.2 obtiennent toujours des scores plus élevés avec ~60% des tokens — un signe d'une intelligence brute plus forte.
2️⃣ Extraction d'informations :
Haute précision, mais inefficace. Seed-1.8 a tendance à reformuler et annoter le texte source complet pendant le CoT. Une simple tâche d'extraction de 10K peut coûter 2× tokens, et la précision chute fortement avec des budgets de raisonnement plus bas. Sans raisonnement activé, l'extraction est presque inutilisable. (Gemini 3 Pro gère la même tâche en ~4K tokens.)
3️⃣ Codage :
Historiquement un point faible, mais en amélioration. Seed-1.8 hérite des gains du récent modèle Code et est utilisable pour le "vibe coding" 0→1. Encore loin des modèles d'ingénierie de premier plan — surtout en pensée au niveau système.
Où il reste encore des lacunes ⚠️
1️⃣ Cohérence multi-tour :
Meilleur que Seed-1.6, maintenant "basiquement utilisable", mais peine encore à suivre les objectifs de manière cohérente au cours de longues conversations. Après ~10+ tours, le raisonnement dérive.
2️⃣ Intelligence spatiale :
Un entraînement limité se fait sentir. La performance sur le raisonnement spatial 2D/3D s'améliore à peine par rapport à 1.6.
🧠 Conclusion finale
La stratégie multimodale unifiée de Gemini a déjà formé un fort avantage concurrentiel. La plupart des modèles chinois sont encore enfermés dans une compétition centrée sur le texte. La décision précoce de ByteDance de poursuivre la multimodalité unifiée était juste — mais la dette historique pèse lourd.
Seed-1.8 n'est pas parfait. Pourtant, à mesure que les faiblesses sont progressivement comblées — RL multi-tour, profondeur de codage, expansion des connaissances, Seed pourrait encore s'embraser comme une étoile de la prochaine ère, alimentée par les énormes ressources à l'échelle d'Internet de ByteDance✨
🔗 Article original (CN) :
#AI #LLM #Multimodal #Agent #ByteDance #Seed

7
À quoi ressemblera l'architecture LLM de nouvelle génération ?
Cette question suscite constamment des débats — et le contributeur et développeur de Zhihu, Yuxuan, propose une comparaison nette entre DeepSeek Sparse Attention (DSA) et Native Sparse Attention (NSA), ainsi qu'un aperçu pratique de l'implémentation des opérateurs DSA avec TileLang.
🚀 Pourquoi DSA > NSA (dans les tâches à long contexte) :
D'après des expériences ajoutant DSA à de petits modèles et comparant avec NSA, DSA performe systématiquement mieux — principalement en raison de deux choix de conception clés :
1️⃣ Distillation des scores d'attention → supervision explicite pour la sélection des indices
2️⃣ Sparsité au niveau des tokens plutôt qu'au niveau des blocs → récupération plus précise et plus fine
🔍 1) Distillation des scores d'attention
L'attention sparse repose sur la sélection des bonnes paires clé-valeur.
DSA supervise directement le module d'indexation en utilisant de vrais scores d'attention, alignant l'entraînement avec l'objectif réel : "choisir les tokens critiques."
NSA, en revanche, optimise uniquement la perte du LM, ne fournissant aucune contrainte explicite sur la précision de l'index — ce qui explique sa performance plus faible sur les benchmarks de récupération de documents longs.
🔍 2) Sparsité au niveau des tokens vs au niveau des blocs
La précision évolue avec le budget de calcul : indexation plus précise → meilleure récupération.
L'indexation au niveau des tokens (DSA) offre naturellement une fidélité supérieure à celle au niveau des blocs (NSA).
Dans cette perspective, le goulet d'étranglement de la performance de NSA est attendu — une question intéressante : un bloc de taille=8 aiderait-il NSA à rattraper DSA ?
⚙️ Le véritable défi : former DSA efficacement
La formation de DSA implique un échauffement → un finetuning sparse.
Le défi : calculer et stocker les scores d'attention des deux branches.
Une implémentation naïve nécessite un stockage O(n²) — annulant les économies de mémoire de FlashAttention.
Même le pré-filtrage (k=2048, h=512+64) exige encore de grands tampons.
📎 Code :
🧩 Fusion de noyaux pour le sauvetage (Fig 1)
Pour éviter de stocker d'énormes scores d'attention intermédiaires, DSA utilise des noyaux fusionnés.
Un truc clé consiste à fusionner Index-Score + Top-k dans un seul noyau :
• Maintenir un tampon de 2K
• Calculer l'Index-Score pour chaque bloc
• Exécuter un tri bitonique basé sur la fusion
• Conserver les scores top-K et leurs positions
Aucun CUDA requis — implémenté avec le DSL TileLang, inspiré par fla-org/native-sparse-attention.
🧾 Résumé
L'avantage de DSA sur NSA provient de :
• Distillation des scores d'attention (supervision explicite)
• Sparsité au niveau des tokens (précision d'indexation supérieure)
Et avec la fusion de noyaux, son pipeline d'entraînement coûteux devient réalisable en mémoire.
📖 Lisez l'article complet :
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

648
🤔 Baidu ERNIE 5.0 est là — à quel point est-il vraiment bon ?
Une critique largement lue du contributeur Zhihu toyama nao offre des analyses claires.
Baidu a pris du retard sur OpenAI de 3 à 6 mois avec des versions correspondantes. Après GPT-5, ERNIE 5.0 est arrivé comme prévu — et contrairement à la version précipitée 4.5, il semble enfin être un modèle domestique de premier ordre solide.
Les performances augmentent d'environ 80 % par rapport à X1.1, correspondant à peu près à MiniMax M2. Les données d'entraînement semblent reconstruites : les résultats sont beaucoup plus propres et plus cohérents (Fig 1).
👇 Voici la comparaison distillée :
✅ Où ERNIE 5.0 s'améliore
• Suivi des instructions : Scores élevés et même des pics de premier ordre — mais avec des échecs étranges en bas de gamme (par exemple, des formats de date incohérents à travers les passes).
• Calcul de base : Fiable pour les mathématiques de niveau K12 ; plus stable que X1.1, bien que toujours plus faible que M2 sur des tâches complexes.
• Sortie beaucoup plus propre : X1.1 souffrait de données distillées bruyantes et de traductions maladroites. ERNIE 5.0 corrige largement cela : chaînes de pensée plus claires, réponses finales plus propres, meilleure lisibilité.
🙋 Où il a encore des difficultés
• Taux d'hallucination élevé : Trop de réponses confiantes mais incorrectes sur la récupération de symboles mathématiques, le brouillage de caractères et les tâches à long contexte — plus proche d'une performance de raisonnement de second ordre.
• Faible perspicacité : Échoue à repérer des motifs sous-jacents (#46 motif de lettres, #32 raisonnement calendaire), souvent en forçant au lieu d'abstraire.
• Boucles infinies occasionnelles : Rares (<3 %) mais surprenantes, étant donné qu'elles avaient disparu dans les modèles domestiques récents.
• Faible capacité multi-tour : Oublie souvent les règles ou les tours précédents avant le tour 7 ; les boucles se déclenchent plus facilement.
💬 Le Verdict
L'ère des trillions de paramètres en Chine n'a même pas 3 mois, et Baidu a déjà sauté à un modèle de 2T.
Pourtant, comparé à Kimi K2 Thinking, ERNIE 5.0 semble un peu "gonflé" — grand, capable, mais n'utilisant pas pleinement son poids.
Cependant, cela pourrait être le signal tant attendu du retour de @Baidu_Inc — un rappel que Baidu a l'intention de rester dans la course aux LLM.
📖 Évaluation complète :
🔗 Benchmark :
#ERNIE5 #Baidu #AI #LLM #ChinaAI

709
Meilleurs
Classement
Favoris
