Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Aducerea tendințelor, vocilor și perspectivelor Chinei privind IA și tehnologie pe scena globală.
⚡️Susținută de Zhihu, principala platformă de cunoaștere din China.
🔥 ByteDance tocmai a lansat Doubao-Seed-1.8 (model Agent) — iar iată o evaluare detaliată de la colaboratorul Zhihu, toyama nao 👀
🔮 Pe scurt; DR: O deschidere a ochilor în mijlocul haosului.
Pe tot parcursul anului 2025, modelele 1.5 și 1.6 ale echipei Seed au rămas ferm în topul Chinei și în al doilea eșalon global. De la 1.5, Seed a dublat miza pe modelarea multimodală unificată, un pariu relativ rar printre modelele interne.
Totuși, Seed-1.6 a fost puternic criticat: RL-ul la scară largă a crescut scorurile de benchmark, dar generalizarea din lumea reală a rămas în urmă față de Qwen3 și era departe de a fi lider global. Pe măsură ce GLM și MiniMax s-au orientat spre aplicațiile Agentului, abilitățile slabe ale lui Doubao au făcut ca agentul să aibă dificultăți.
Totuși, revenirea lui Seed-1.8 în primul eșalon nu a fost o surpriză — surpriza este eficiența (Fig 1)! !️
Versiunea medie atinge aceeași inteligență ca Seed-1.6 folosind tokenuri de 5K în loc de 15K, la un preț de intrare de ¥2, ceea ce o face extrem de rentabilă — o cale care amintește de DeepSeek.
Modelul de nivel înalt se scalează cu bugete mai mari și se apropie notabil de cele mai bune modele americane. Cu o viziune puternică și o înțelegere multimodală, plus generarea de imagini/video la doar jumătate de pas în urmă — este corect să numim Seed un "mini-Gemini".
Unde se îmbunătățește 🚀
1️⃣ Raționamentul pe lanț lung:
Seed-1.8 menține focalizarea pe mult mai lungi CoT, validând cu atenție ramurile pentru a ajunge la soluțiile corecte.
Puterea sa vine mai mult din atenția susținută și căutarea exhaustivă decât din abstracția profundă, asemănătoare umană. Gemini 3 Pro și GPT-5.2 obțin în continuare scoruri mai mari cu ~60% din tokenuri — un semn al unei inteligențe brute mai puternice.
2️⃣ Extracția informației:
Acuratețe ridicată, dar ineficientă. Seed-1.8 tinde să reformuleze și să adnoteze textul sursă complet în timpul CoT. O sarcină simplă de extragere de 10K poate costa 2× tokens, iar acuratețea scade brusc la bugete de raționament mai mici. Fără raționamentul activat, extragerea este aproape inutilizabilă. (Gemini 3 Pro gestionează aceeași sarcină în ~4K tokenuri.)
3️⃣ Codificare:
Istoric a fost un punct slab, dar în continuare. Seed-1.8 moștenește câștiguri din modelul recent Code și este utilizabil pentru "vibe code" 0→1. Încă departe de modele inginerești de top — mai ales în gândirea la nivel de sistem.
Unde încă nu ⚠️ reușește
1️⃣ Coerența pe mai multe ture:
Mai bun decât Seed-1.6, acum "practic utilizabil", dar încă are dificultăți în a urmări constant obiectivele în conversații lungi. După ~10+ ture, raționamentul se schimbă.
2️⃣ Inteligență spațială:
Show-uri de antrenament limitate. Performanța pe raționamentul spațial 2D/3D abia se îmbunătățește față de 1.6.
🧠 Ultima luare
Strategia multimodală unificată a Gemini a format deja un șanț puternic. Majoritatea modelelor chinezești sunt încă blocate într-o competiție centrată pe text. Decizia timpurie a ByteDance de a urma multimodalitatea unificată a fost corectă — dar datoria istorică cântărește greu.
Seed-1.8 nu este perfect. Totuși, pe măsură ce slăbiciunile sunt treptat acoperite — RL pe mai multe ture, profunzime de programare, extinderea cunoștințelor — Seed ar putea totuși să se aprindă ca o stea a noii ere, alimentată de resursele✨ uriașe la scară internet ale ByteDance
🔗 Articolul original (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

1
Cum va arăta arhitectura LLM-ului de nouă generație?
Această întrebare continuă să stârnească dezbateri — iar colaboratorul și dezvoltatorul Zhihu, Yuxuan, oferă o comparație clară între DeepSeek Sparse Attention (DSA) și Native Sparse Attention (NSA), plus o privire practică asupra implementării operatorilor DSA cu TileLang.
🚀 De ce DSA > NSA (în sarcini pe termen lung):
De la experimente de adăugare a DSA la modele mici și comparații cu NSA, DSA performează constant mai bine — în principal datorită a două alegeri cheie de design:
1️⃣ Distilarea Attn-Score → supravegherea explicită pentru selecția indicilor
2️⃣ Rare la nivel de token, nu la nivel de bloc→ cu granulație mai fină, o recuperare mai precisă
🔍 1) Distilarea Attn-Score
Puțină atenție depinde de selectarea perechilor cheie-valoare potrivite.
DSA supraveghează direct modulul de index folosind scoruri reale de atenție, aliniind antrenamentul cu obiectivul real: "alege jetoanele critice."
NSA optimizează în schimb doar pierderea LM, fără a oferi nicio constrângere explicită asupra acurateței indicelui — ceea ce explică performanța sa mai slabă la benchmark-urile de recuperare a documentelor lungi.
🔍 2) Rareza la nivel de jetoane vs la nivel de bloc
Acuratețea se scalează cu bugetul de calcul: indexare mai precisă → o recuperare mai bună.
Indexarea la nivel de token (DSA) oferă în mod natural o fidelitate mai mare decât la nivel de bloc (NSA).
Din această perspectivă, blocajul de performanță al NSA este de așteptat — o întrebare interesantă: Ar ajuta NSA dimensiunea blocului = 8 să țină pasul cu DSA?
⚙️ Adevărata provocare: Instruirea eficientă a DSA
Antrenamentul DSA implică Warmup → Sparse Finetune.
Provocarea: calcularea și stocarea scorurilor de atenție ale ambelor ramuri.
O implementare naivă necesită stocare O(n²) — anulând economisirea memoriei în FlashAttention.
Chiar și pre-filtrarea (k=2048, h=512+64) necesită totuși tampone mari.
📎 Cod:
🧩 Fuziunea de Kernel la Salvare (Fig. 1)
Pentru a evita stocarea unor Attn-Score-uri intermediare masive, DSA folosește nuclee fuziune.
Un truc cheie este combinarea Index-Score + Top-k într-un singur nucleu:
• Menținerea unui tampon de 2K
• Calcularea scorului de indice pentru fiecare bloc
• Rulează o fuziune bazată pe sortarea bitonică
• Păstrarea scorurilor top-K și pozițiile acestora
Nu este nevoie de CUDA — implementat cu TileLang DSL, inspirat de fla-org/native-spur-attention.
🧾 Rezumat
Avantajul DSA față de NSA provine din:
• Distilarea Attn-Score (supraveghere explicită)
• Raritate la nivel de token (acuratețe mai mare a indicilor)
Iar odată cu fuziunea kernel-ului, pipeline-ul său costisitor de antrenament devine fezabil din punct de vedere al memoriei.
📖 Citește articolul complet:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

642
🤔 Baidu ERNIE 5.0 este aici - cât de bun este cu adevărat?
O recenzie citită pe scară largă de la colaboratorul Zhihu, toyama nao, oferă defalcări clare.
Baidu a rămas în urma OpenAI cu 3-6 luni cu versiuni potrivite. După GPT-5, ERNIE 5.0 a sosit la indicație - și, spre deosebire de 4.5 grăbit, arată în sfârșit ca un model intern solid de prim nivel.
Performanța crește cu ~80% față de X1.1, egalând aproximativ MiniMax M2. Datele de antrenament par reconstruite: ieșirile sunt mult mai curate și mai coerente (Fig 1).
👇 Iată comparația distilată:
✅Unde ERNIE 5.0 devine mai bun
• Urmărirea instrucțiunilor: scoruri mari și chiar vârfuri de top - dar cu eșecuri ciudate de nivel scăzut (de exemplu, formate de date inconsecvente între treceri).
• Calcul de bază: Fiabil pentru matematica de nivel K12; mai stabil decât X1.1, deși încă mai slab decât M2 la sarcini complexe.
• Ieșire mult mai curată: X1.1 a suferit de date distilate zgomotoase și traduceri incomode. ERNIE 5.0 rezolvă în mare măsură acest lucru: lanțuri de gândire mai clare, răspunsuri finale mai curate, lizibilitate mai bună.
🙋 Unde încă se luptă
• Rata mare de halucinații: Prea multe răspunsuri încrezătoare, dar greșite, la recuperarea simbolurilor matematice, amestecarea caracterelor și sarcinile cu context lung - mai aproape de performanța raționamentului de nivel doi.
• Perspicacitate scăzută: Nu reușește să identifice modelele subiacente (model de litere # 46, raționament calendaric # 32), adesea forțând brută în loc de abstractizare.
• Bucle infinite ocazionale: Rare (<3%), dar surprinzătoare, având în vedere că au dispărut la modelele autohtone recente.
• Abilitate slabă de mai multe ture: Uită adesea regulile sau turele anterioare înainte de runda 7; bucle declanșate mai ușor.
💬Verdictul
Era a trilioanelor de parametri din China are doar 3 luni, iar Baidu a sărit deja la un model 2T.
Cu toate acestea, în comparație cu Kimi K2 Thinking, ERNIE 5.0 se simte puțin "umflat" - mare, capabil, dar nu își folosește pe deplin greutatea.
Cu toate acestea, acesta ar putea fi semnalul de revenire mult așteptat al lui @Baidu_Inc – un memento că Baidu intenționează să rămână în cursa LLM.
📖 Evaluare completă:
🔗 Reper:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

703
Limită superioară
Clasament
Favorite
