Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Å bringe Kinas AI- og teknologitrender, stemmer og perspektiver til den globale scenen.
⚡️Drevet av Zhihu, Kinas ledende kunnskapsplattform.
🔥 ByteDance har nettopp sluppet Doubao-Seed-1.8 (agentmodell) — og her er en grundig evaluering fra Zhihu-bidragsyter toyama nao 👀
🔮 TL; DR: En øyeåpner midt i kaoset.
Gjennom hele 2025 holdt Seed-teamets 1,5- og 1,6-modeller seg solid i Kinas toppsjikter og den globale nest øverste divisjonen. Siden 1.5 har Seed doblet innsatsen på enhetlig multimodal modellering, et relativt sjeldent valg blant innenlandske modeller.
Når det er sagt, ble Seed-1.6 sterkt kritisert: storskala RL økte benchmark-scorene, men reell generalisering lå bak Qwen3 og var langt fra globale ledere. Etter hvert som GLM og MiniMax satset på agentapplikasjoner, gjorde Doubaos svake agentferdigheter at det slet med det.
Men Seed-1.8s retur til første nivå var ingen overraskelse — overraskelsen er effektiviteten (Fig 1)! !️
Medium-versjonen når samme intelligens som Seed-1.6 ved å bruke 5K-tokens i stedet for 15K, til en inngangspris på ¥2, noe som gjør den ekstremt kostnadseffektiv — en vei som minner om DeepSeek.
Det høye nivået skalerer med større budsjetter og kommer merkbart nær toppmodellene i USA. Med sterk visjon og multimodal forståelse, pluss bilde-/videogenerering bare et halvt steg bak — er det rettferdig å kalle Seed en «mini-Tvilling».
Hvor det forbedres 🚀
1️⃣ Langkjede-resonnement:
Seed-1.8 opprettholder fokus over mye lengre CoT, og validerer nøye grener for å finne riktige løsninger.
Styrken kommer mer fra vedvarende oppmerksomhet og grundig søken enn dyp menneskelignende abstraksjon. Gemini 3 Pro og GPT-5.2 oppnår fortsatt høyere poengsummer med ~60 % av tokenene — et tegn på sterkere rå intelligens.
2️⃣ Informasjonsuttrekking:
Høy presisjon, men ineffektiv. Seed-1.8 har en tendens til å omformulere og kommentere full kildetekst under CoT. En enkel 10K-ekstraksjonsoppgave kan koste 2× tokens, og nøyaktigheten faller kraftig ved lavere resonneringsbudsjetter. Uten resonnement aktivert er ekstraksjon nesten ubrukelig. (Gemini 3 Pro håndterer samme oppgave i ~4K-tokens.)
3️⃣ Koding:
Historisk sett et svakt punkt, men det blir bedre. Seed-1.8 arver gevinster fra den nylige Code-modellen og kan brukes for 0→1 "vibe-koding". Fortsatt langt fra topp ingeniørmodeller – spesielt når det gjelder systemnivå-tenkning.
Der det fortsatt ikke når opp ⚠️
1️⃣ Fler-omgangs koherens:
Bedre enn Seed-1.6, nå «i praksis brukbar», men sliter fortsatt med å spore mål konsekvent gjennom lange samtaler. Etter ~10+ runder driver resonneringen.
2️⃣ Romlig intelligens:
Begrenset trening show. Ytelsen på 2D/3D romlig resonnering forbedres knapt over 1,6.
🧠 Siste opptak
Geminis samlede multimodale strategi har allerede dannet en sterk vollgrav. De fleste kinesiske modeller er fortsatt låst i tekstbasert konkurranse. ByteDances tidlige beslutning om å satse på enhetlig multimodalitet var riktig — men historisk gjeld veier tungt.
Seed-1.8 er ikke perfekt. Men etter hvert som svakheter gradvis fylles — fler-runders RL, kodedybde, kunnskapsutvidelse — kan Seed fortsatt blomstre som en stjerne i neste æra, drevet av ByteDances enorme internettressurser✨
🔗 Originalartikkel (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

5
Hvordan vil neste generasjons LLM-arkitektur se ut?
Dette spørsmålet fortsetter å skape debatter — og Zhihu-bidragsyter og utvikler Yuxuan gir en skarp sammenligning mellom DeepSeek Sparse Attention (DSA) og Native Sparse Attention (NSA), samt et praktisk blikk på implementering av DSA-operatører med TileLang.
🚀 Hvorfor DSA > NSA (i oppgaver med lang kontekst):
Fra eksperimenter med å legge til DSA på små modeller og sammenligning med NSA, presterer DSA konsekvent bedre — hovedsakelig på grunn av to sentrale designvalg:
1️⃣ Attn-Score destillation → eksplisitt supervision for indeksutvelgelse
2️⃣ Token-nivå sparsomhet i stedet for blokk-nivå→ finkornet, mer nøyaktig henting
🔍 1) Attn-score destillasjon
Sparsom oppmerksomhet avhenger av å velge de riktige nøkkel-verdi-parene.
DSA overvåker indeksmodulen direkte ved bruk av ekte oppmerksomhetsscore, og tilpasser treningen til det faktiske målet: «velg de kritiske tokenene».
NSA optimaliserer i stedet kun LM-tapet, uten å gi noen eksplisitt begrensning på indeksnøyaktighet — noe som forklarer den svakere ytelsen på benchmarks for langdokumentinnhenting.
🔍 2) Token- vs blokknivå-sparsomhet
Nøyaktigheten skalerer med beregningsbudsjettet: mer presis indeksering → bedre henting.
Token-nivå indeksering (DSA) gir naturlig høyere nøyaktighet enn blokknivå (NSA).
Fra dette perspektivet forventes NSAs ytelsesflaskehals — et interessant spørsmål: Vil blokkstørrelse=8 hjelpe NSA å ta igjen DSA?
⚙️ Den virkelige utfordringen: Effektiv opplæring av DSA
DSA-treningen innebærer oppvarming → sparsom finjustering.
Utfordringen: å beregne og lagre oppmerksomhetspoengene til begge grenene.
En naiv implementering krever O(n²)-lagring — noe som opphever FlashAttentions minnebesparelser.
Selv forhåndsfiltrering (k=2048, h=512+64) krever fortsatt store buffere.
📎 Kode:
🧩 Kjernefusjon til unnsetning (Fig 1)
For å unngå lagring av massive mellomliggende Attn-Scores, bruker DSA fusjonerte kjerner.
Et viktig triks er å slå sammen Index-Score + Top-k i én kjerne:
• Oppretthold en 2K-buffer
• Beregn indeks-score for hver blokk
• Kjør bitonisk sorteringsbasert sammenslåing
• Beholde topp-K-poeng og deres posisjoner
Ingen CUDA nødvendig — implementert med TileLang DSL, inspirert av fla-org/native-sparse-attention.
🧾 Sammendrag
DSAs fordel over NSA stammer fra:
• Attn-Score-destillasjon (eksplisitt tilsyn)
• Token-nivå sparsitet (høyere indeksnøyaktighet)
Og med kjernefusjon blir den kostbare treningspipelinen minnemulig.
📖 Les hele artikkelen:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

646
🤔 Baidu ERNIE 5.0 er her - hvor bra er det egentlig?
En mye lest anmeldelse fra Zhihu-bidragsyter toyama nao gir klare sammenbrudd.
Baidu har ligget etter OpenAI med 3-6 måneder med versjonsmatchede utgivelser. Etter GPT-5 kom ERNIE 5.0 på kø – og i motsetning til den forhastede 4.5, ser den endelig ut som en solid innenlandsk modell på første nivå.
Ytelsen hopper ~80 % over X1.1, og matcher omtrent MiniMax M2. Treningsdata ser ut til å være gjenoppbygd: utgangene er mye renere og mer sammenhengende (fig 1).
👇 Her er den destillerte sammenligningen:
✅Hvor ERNIE 5.0 blir bedre
• Instruksjonsfølger: Høye poengsummer og til og med topper på toppnivå – men med merkelige low-end-feil (f.eks. inkonsekvente datoformater på tvers av passeringer).
• Grunnleggende beregning: Pålitelig for matematikk på K12-nivå; mer stabil enn X1.1, men fortsatt svakere enn M2 på komplekse oppgaver.
• Mye renere utgang: X1.1 led av støyende destillerte data og vanskelige oversettelser. ERNIE 5.0 fikser i stor grad dette: klarere tankekjeder, renere endelige svar, bedre lesbarhet.
🙋 Der det fortsatt sliter
• Høy hallusinasjonsrate: For mange sikre, men gale svar på gjenoppretting av matematiske symboler, tegnforvrengning og oppgaver med lang kontekst – nærmere andrelags resonneringsytelse.
• Lav innsikt: Klarer ikke å oppdage underliggende mønstre (#46 bokstavmønster, #32 kalendrisk resonnement), ofte brute-forcing i stedet for abstraherende.
• Sporadiske uendelige løkker: Sjeldne (<3 %), men overraskende, gitt at de hadde forsvunnet i nyere innenlandske modeller.
• Svak evne til flere svinger: Glemmer ofte regler eller tidligere svinger før runde 7; sløyfer utløses lettere.
💬Dommen
Kinas billion-parameter-æra er knapt 3 måneder gammel, og Baidu hoppet allerede til en 2T-modell.
Men sammenlignet med Kimi K2 Thinking, føles ERNIE 5.0 litt "oppblåst" - stor, dyktig, men ikke fullt ut utnytter vekten.
Likevel kan dette være @Baidu_Inc etterlengtede comeback-signal - en påminnelse om at Baidu har til hensikt å bli i LLM-løpet.
📖 Full evaluering:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

707
Topp
Rangering
Favoritter
