Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Přinášení čínských trendů, hlasů a pohledů na světovou scénu v oblasti AI a technologií.
⚡️Poháněno Zhihu, přední čínskou platformou pro znalosti.
🔥 ByteDance právě vydal Doubao-Seed-1.8 (model agenta) — a zde je podrobné hodnocení od přispěvatele Zhihu toyama nao 👀
🔮 Stručně; DR: Otevření očí uprostřed chaosu.
Během roku 2025 zůstaly modely 1.5 a 1.6 týmu Seed pevně v nejvyšší čínské a globální druhé lize. Od verze 1.5 Seed zdvojnásobil úsilí o jednotné multimodální modelování, což je mezi domácími modely poměrně vzácné.
Nicméně Seed-1.6 byl silně kritizován: rozsáhlé RL zvyšovalo benchmarkové skóre, ale reálná generalizace zaostávala za Qwen3 a byla daleko od světových lídrů. Jak se GLM a MiniMax zaměřily na aplikace agentů, slabé agentní schopnosti Doubaa ho nechávaly v potížích.
Návrat Seed-1.8 do první úrovně však nebyl překvapením — tím překvapením je efektivita (obr. 1)! !️
Střední verze dosahuje stejné inteligence jako Seed-1.6 pomocí 5K tokenů místo 15K, za vstupní cenu ¥2, což ji činí velmi nákladově efektivní — cestou připomínající DeepSeek.
Vyšší třída škáluje s ohledem na větší rozpočty a výrazně se blíží špičkovým americkým modelům. S výrazným viděním a multimodálním porozuměním, plus generováním obrazů/videí jen o půl kroku za ním — je spravedlivé nazvat Seed "mini-Blíženci".
Kde se zlepšuje 🚀
1️⃣ Long-chain uvažování:
Seed-1.8 se zaměřuje na mnohem delší CoT, pečlivě ověřuje větve, aby dosáhl správných řešení.
Jeho síla spočívá spíše v trvalé pozornosti a důkladném pátrání než v hluboké lidské abstrakci. Gemini 3 Pro a GPT-5.2 stále dosahují vyšších skóre s ~60 % tokenů — což je známka silnější surové inteligence.
2️⃣ Extrakce informací:
Vysoká přesnost, ale neefektivní. Seed-1.8 má tendenci během CoT přeformulovat a anotovat celý zdrojový text. Jednoduchý úkol s extrakcí za 10 000 může stát 2× tokenů a přesnost výrazně klesá při nižších rozpočtech na uvažování. Bez zapnutého uvažování je extrakce téměř nepoužitelná. (Gemini 3 Pro zvládá stejnou úlohu v ~4K tokenech.)
3️⃣ Kódování:
Historicky slabé místo, ale zlepšuje se. Seed-1.8 dědí zisky z nedávného Code modelu a je použitelný pro 0→1 "vibe coding". Stále daleko od špičkových inženýrských modelů — zejména v systémovém myšlení.
Kde stále zaostává ⚠️
1️⃣ Koherence s více otáčkami:
Lepší než Seed-1.6, nyní "v podstatě použitelný", ale stále má problém konzistentně sledovat cíle při dlouhých rozhovorech. Po ~10+ tahech se rozum utápí.
2️⃣ Prostorová inteligence:
Omezený trénink se projevuje. Výkon na 2D/3D prostorovém uvažování se oproti verzi 1.6 sotva zlepšuje.
🧠 Závěrečný záběr
Jednotná multimodální strategie Gemini již vytvořila silný příkop. Většina čínských modelů je stále uvězněna v textově zaměřené konkurenci. Brzké rozhodnutí ByteDance usilovat o jednotnou multimodalitu bylo správné — ale historický dluh je těžký.
Seed-1.8 není dokonalé. Přesto se slabiny postupně doplňují — vícekolové RL, hloubka kódování, rozšiřování znalostí — Seed může stále vzplanout jako hvězda další éry, poháněná obrovskými internetovými zdroji✨ ByteDance
🔗 Původní článek (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

43
Jak bude vypadat architektura LLM nové generace?
Tato otázka stále vyvolává debaty — a přispěvatel a vývojář Zhihu Yuxuan nabízí ostré srovnání mezi DeepSeek Sparse Attention (DSA) a Native Sparse Attention (NSA), plus praktický pohled na implementaci DSA operátorů pomocí TileLang.
🚀 Proč DSA > NSA (v úkolech s dlouhým kontextem):
Z experimentů s přidáním DSA k malým modelům a porovnáním s NSA DSA konzistentně dosahuje lepších výsledků — hlavně díky dvěma klíčovým návrhovým rozhodnutím:
1️⃣ Destilace Attn-Score → explicitní dohled nad výběrem indexu
2️⃣ Tokenová úroveň řídkosti místo blokové→ jemnější a přesnější vyhledávání
🔍 1) Attn-score destilace
Malá pozornost závisí na výběru správných párů klíč-hodnota.
DSA přímo dohlíží na modul indexu pomocí skutečných skóre pozornosti, čímž sladí trénink s reálným cílem: "vybrat kritické tokeny."
NSA místo toho optimalizuje pouze ztrátu LM, neposkytuje žádné explicitní omezení přesnosti indexu — což vysvětluje její slabší výkon při benchmarkech pro dlouhé vyhledávání dokumentů.
🔍 2) Tokenová vs bloková vzácnost
Přesnost škáluje s výpočetním rozpočtem: přesnější indexování → lepší vyhledávání.
Token-level indexing (DSA) přirozeně přináší vyšší věrnost než bloková indexace (NSA).
Z tohoto pohledu se očekává omezení výkonu NSA — zajímavá otázka: Pomohla by block-size=8 NSA dohnat DSA?
⚙️ Skutečná výzva: Efektivní školení DSA
Trénink DSA zahrnuje zahřátí → Sparse Finetune.
Výzvou bylo vypočítat a uložit skóre pozornosti obou odvětví.
Naivní implementace vyžaduje úložiště O(n²) — což ruší úspory paměti FlashAttention.
I předfiltrování (k=2048, h=512+64) stále vyžaduje velké buffery.
📎 Kód:
🧩 Fúze jádra na záchranu (obr. 1)
Aby se zabránilo ukládání masivních mezilehlých Attn-skóre, DSA používá fúzovaná jádra.
Klíčovým trikem je sloučení index-skóre + top-k do jednoho jádra:
• Udržujte 2K buffer
• Výpočet indexového skóre pro každý blok
• Spouštějte sloučení založené na bitonickém třídění
• Uchovat si nejlepší výsledky a jejich pozice
Není potřeba CUDA — implementováno pomocí TileLang DSL, inspirované fla-org/native-sparse-attention.
🧾 Shrnutí
Výhoda DSA nad NSA vychází z:
• Attn-skóre destilace (explicitní dohled)
• Řídkost na úrovni tokenu (vyšší přesnost indexu)
A s fúzí jádra se jeho nákladný tréninkový proces stává umožnitelným pro paměť.
📖 Přečtěte si celý článek:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

667
🤔 Baidu ERNIE 5.0 je tady – jak dobrý je doopravdy?
Široce čtená recenze od přispěvatele Zhihu toyama nao nabízí jasné členění.
Baidu zaostalo za OpenAI o 3-6 měsíců s verzemi odpovídajícími verzím. Po GPT-5 dorazil ERNIE 5.0 jako na zavolanou – a na rozdíl od uspěchané 4.5 konečně vypadá jako solidní domácí model první úrovně.
Výkon poskočí o ~80 % oproti X1.1, což zhruba odpovídá MiniMaxu M2. Trénovací data se zdají být přestavěná: výstupy jsou mnohem čistší a koherentnější (obr. 1).
👇 Zde je destilované srovnání:
✅Kde se ERNIE 5.0 zlepšuje
• Následující instrukce: Vysoké skóre a dokonce i vrcholy nejvyšší úrovně – ale s podivnými selháními na nízké úrovni (např. nekonzistentní formáty data napříč průchody).
• Základní výpočty: Spolehlivé pro matematiku na úrovni K12; stabilnější než X1.1, i když stále slabší než M2 na složitých úlohách.
• Mnohem čistší výstup: X1.1 trpěl zašuměnými destilovanými daty a nešikovnými překlady. ERNIE 5.0 to do značné míry napravuje: jasnější myšlenkové řetězce, čistší konečné odpovědi, lepší čitelnost.
🙋 Kde se stále potýká s problémy
• Vysoká míra halucinací: Příliš mnoho sebejistých, ale špatných odpovědí na obnovu matematických symbolů, kódování znaků a úlohy v dlouhém kontextu – blíže k výkonu druhořadého uvažování.
• Nízká prozíravost: Nedokáže rozpoznat základní vzorce (#46 vzor písmen, #32 kalendářní uvažování), často hrubým násilím místo abstrahování.
• Občasné nekonečné smyčky: Vzácné (<3 %), ale překvapivé, vzhledem k tomu, že z nedávných domácích modelů zmizely.
• Slabá schopnost více tahů: Často zapomíná pravidla nebo předchozí tahy před 7. kolem; snadněji spouštěné smyčky.
💬Verdikt
Čínská éra bilionů parametrů je stará sotva 3 měsíce a Baidu již skočilo na model 2T.
Přesto ve srovnání s Kimi K2 Thinking působí ERNIE 5.0 trochu "nafoukle" – velký, schopný, ale ne plně využívající svou váhu.
Přesto to může být dlouho očekávaný signál pro návrat @Baidu_Inc – připomínka, že Baidu má v úmyslu zůstat v závodě LLM.
📖 Celkové hodnocení:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

754
Top
Hodnocení
Oblíbené
