Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Het brengen van China's AI- en technologietrends, stemmen en perspectieven naar het wereldtoneel.
⚡️Aangedreven door Zhihu, China's toonaangevende kennisplatform.
🔥 ByteDance heeft zojuist Doubao-Seed-1.8 (Agent model) uitgebracht — en hier is een diepgaande evaluatie van Zhihu-bijdrager toyama nao 👀
🔮 TL;DR: Een oogopener te midden van chaos.
Gedurende 2025 bleven de modellen 1.5 en 1.6 van het Seed-team stevig in de top van China en de tweede wereldwijde tier. Sinds 1.5 heeft Seed zich sterk gericht op uniforme multimodale modellering, een relatief zeldzame inzet onder binnenlandse modellen.
Dat gezegd hebbende, Seed-1.6 kreeg veel kritiek: grootschalige RL verhoogde benchmark scores, maar de generalisatie in de echte wereld bleef achter bij Qwen3 en was ver verwijderd van wereldleiders. Terwijl GLM en MiniMax zich richtten op Agent-toepassingen, lieten Doubao's zwakke agentcapaciteiten het worstelen.
Echter, de terugkeer van Seed-1.8 naar de eerste tier was geen verrassing — de verrassing is efficiëntie (Fig 1)‼️
De medium versie bereikt dezelfde intelligentie als Seed-1.6 met 5K tokens in plaats van 15K, tegen een instapprijs van ¥2, wat het extreem kosteneffectief maakt — een pad dat doet denken aan DeepSeek.
De hoge tier schaalt redenering met grotere budgetten en komt opmerkelijk dicht bij de topmodellen uit de VS. Met sterke visie & multimodaal begrip, plus beeld/video generatie die slechts een halve stap achterblijft — het is eerlijk om Seed een "mini-Gemini" te noemen.
Waar het verbetert 🚀
1️⃣ Langdurige redenering:
Seed-1.8 behoudt de focus over veel langere CoT, zorgvuldig takken validerend om de juiste oplossingen te bereiken.
De kracht komt meer van volgehouden aandacht en uitputtende zoektochten dan van diepe mensachtige abstractie. Gemini 3 Pro en GPT-5.2 behalen nog steeds hogere scores met ~60% van de tokens — een teken van sterkere rauwe intelligentie.
2️⃣ Informatie-extractie:
Hoge nauwkeurigheid, maar inefficiënt. Seed-1.8 heeft de neiging om de volledige brontekst te herhalen en te annoteren tijdens CoT. Een eenvoudige extractietaak van 10K kan 2× tokens kosten, en de nauwkeurigheid daalt scherp bij lagere redeneringsbudgetten. Zonder ingeschakelde redenering is extractie bijna onbruikbaar. (Gemini 3 Pro verwerkt dezelfde taak in ~4K tokens.)
3️⃣ Codering:
Historisch een zwak punt, maar verbetert. Seed-1.8 erft winst van het recente Code-model en is bruikbaar voor 0→1 "vibe coding". Nog steeds ver verwijderd van top-tier engineeringmodellen — vooral in systeemniveau denken.
Waar het nog tekortschiet ⚠️
1️⃣ Multi-turn coherentie:
Beter dan Seed-1.6, nu "basically usable", maar worstelt nog steeds om consistent doelen te volgen over lange gesprekken. Na ~10+ rondes drijft de redenering af.
2️⃣ Ruimtelijke intelligentie:
Beperkte training toont zich. De prestaties op 2D/3D ruimtelijke redenering verbeteren nauwelijks ten opzichte van 1.6.
🧠 Eindoordeel
Gemini's uniforme multimodale strategie heeft al een sterke vesting gevormd. De meeste Chinese modellen zijn nog steeds vergrendeld in tekstgerichte concurrentie. ByteDance's vroege beslissing om uniforme multimodaliteit na te streven was juist — maar historische schulden wegen zwaar.
Seed-1.8 is niet perfect. Toch, naarmate zwaktes geleidelijk worden opgevuld — multi-turn RL, diepte van codering, kennisuitbreiding, kan Seed nog steeds opbloeien als een ster van het volgende tijdperk, aangedreven door ByteDance's enorme internet-schaal middelen✨
🔗 Origineel artikel(CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

50
Hoe zal de next-gen LLM-architectuur eruitzien?
Deze vraag blijft debatten oproepen — en Zhihu-bijdrager & ontwikkelaar Yuxuan biedt een scherpe vergelijking tussen DeepSeek Sparse Attention (DSA) en Native Sparse Attention (NSA), plus een praktische kijk op het implementeren van DSA-operators met TileLang.
🚀 Waarom DSA > NSA (in lange-contexttaken):
Uit experimenten waarbij DSA aan kleine modellen werd toegevoegd en vergeleken met NSA, blijkt dat DSA consequent beter presteert — voornamelijk vanwege twee belangrijke ontwerpkeuzes:
1️⃣ Attn-Score distillatie → expliciete supervisie voor indexselectie
2️⃣ Token-niveau sparsiteit in plaats van blok-niveau → fijnmaziger, nauwkeuriger ophalen
🔍 1) Attn-Score Distillatie
Sparce attention hangt af van het selecteren van de juiste key-value paren.
DSA superviseert direct de indexmodule met behulp van echte aandachtsscores, waardoor de training wordt afgestemd op het werkelijke doel: "kies de kritische tokens."
NSA optimaliseert daarentegen alleen de LM-verlies, zonder expliciete beperking op de indexnauwkeurigheid — wat zijn zwakkere prestaties op benchmarks voor lange documentophaling verklaart.
🔍 2) Token- vs Blok-Niveau Sparsiteit
Nauwkeurigheid schaalt met het rekenbudget: nauwkeuriger indexeren → beter ophalen.
Token-niveau indexeren (DSA) levert van nature een hogere trouw dan blok-niveau (NSA).
Vanuit dit perspectief is de prestatieknelpunt van NSA te verwachten — een interessante vraag: Zou blok-grootte=8 NSA helpen om DSA in te halen?
⚙️ De Werkelijke Uitdaging: DSA Efficiënt Trainen
DSA-training omvat Warmup → Sparse Finetune.
De uitdaging: het berekenen en opslaan van de aandachtsscores van beide takken.
Een naïeve implementatie vereist O(n²) opslag — wat de geheugensbesparingen van FlashAttention tenietdoet.
Zelfs pre-filtering (k=2048, h=512+64) vereist nog steeds grote buffers.
📎 Code:
🧩 Kernelfusie als Oplossing (Fig 1)
Om het opslaan van enorme tussenliggende Attn-Scores te vermijden, gebruikt DSA samengevoegde kernels.
Een belangrijke truc is het samenvoegen van Index-Score + Top-k in één kernel:
• Houd een 2K-buffer aan
• Bereken Index-Score voor elk blok
• Voer bitonic-sort-gebaseerde samenvoeging uit
• Bewaar top-K scores & hun posities
Geen CUDA vereist — geïmplementeerd met TileLang DSL, geïnspireerd door fla-org/native-sparse-attention.
🧾 Samenvatting
DSA's voordeel ten opzichte van NSA komt voort uit:
• Attn-Score distillatie (expliciete supervisie)
• Token-niveau sparsiteit (hogere indexnauwkeurigheid)
En met kernelfusie wordt de kostbare trainingspipeline geheugen-haalbaar.

690
🤔 Baidu ERNIE 5.0 is hier — hoe goed is het echt?
Een veelgelezen recensie van Zhihu-bijdrager toyama nao biedt duidelijke analyses.
Baidu heeft OpenAI met 3-6 maanden achtervolgd met versie-gematchte releases. Na GPT-5 arriveerde ERNIE 5.0 op het juiste moment — en in tegenstelling tot de gehaaste 4.5, lijkt het eindelijk op een solide eersteklas binnenlands model.
De prestaties zijn met ~80% gestegen ten opzichte van X1.1, wat ongeveer overeenkomt met MiniMax M2. De trainingsdata lijkt opnieuw opgebouwd: de output is veel schoner en coherenter (Fig 1).
👇 Hier is de samengevoegde vergelijking:
✅ Waar ERNIE 5.0 beter wordt
• Instructie opvolging: Hoge scores en zelfs top-tier pieken — maar met vreemde lage fouten (bijv. inconsistente datumformaten over passes).
• Basisberekeningen: Betrouwbaar voor K12-niveau wiskunde; stabieler dan X1.1, hoewel nog steeds zwakker dan M2 bij complexe taken.
• Veel schonere output: X1.1 had last van ruisende gedistilleerde data en ongemakkelijke vertalingen. ERNIE 5.0 lost dit grotendeels op: duidelijkere denkprocessen, schonere eindantwoorden, betere leesbaarheid.
🙋 Waar het nog steeds moeite mee heeft
• Hoge hallucinatiegraad: Te veel zelfverzekerde maar foute antwoorden op wiskundige symboolherstel, karaktervervorming en taken met lange context — dichter bij tweede-tier redeneervaardigheden.
• Lage inzichtelijkheid: Faalt in het herkennen van onderliggende patronen (#46 letterpatroon, #32 kalenderredenering), vaak brute-forcing in plaats van abstraheren.
• Af en toe oneindige lussen: Zeldzaam (<3%) maar verrassend, gezien ze recent in binnenlandse modellen waren verdwenen.
• Zwakke multi-turn capaciteit: Vergeet vaak regels of eerdere beurten voor ronde 7; lussen worden gemakkelijker getriggerd.
💬 Het oordeel
China's triljoen-parameter tijdperk is nog maar 3 maanden oud, en Baidu is al overgestapt naar een 2T-model.
Toch voelt ERNIE 5.0 in vergelijking met Kimi K2 Thinking een beetje "opgeblazen" — groot, capabel, maar niet volledig gebruikmakend van zijn gewicht.
Toch kan dit het langverwachte comeback-signaal van @Baidu_Inc zijn — een herinnering dat Baidu van plan is om in de LLM-race te blijven.
📖 Volledige evaluatie:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

773
Boven
Positie
Favorieten
