Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Portando le tendenze, le voci e le prospettive cinesi di IA e tecnologia sulla scena globale.
⚡️Alimentata da Zhihu, la principale piattaforma di conoscenza cinese.
🔥 ByteDance ha appena rilasciato Doubao-Seed-1.8 (modello Agent) — ecco una valutazione approfondita del contributore di Zhihu toyama nao 👀
🔮 TL;DR: Un'apertura agli occhi in mezzo al caos.
Nel corso del 2025, i modelli 1.5 e 1.6 del team Seed sono rimasti saldamente nella fascia alta della Cina e nella seconda fascia globale. Dalla versione 1.5, Seed ha raddoppiato l'impegno nella modellazione multimodale unificata, una scommessa relativamente rara tra i modelli domestici.
Detto ciò, Seed-1.6 è stato pesantemente criticato: il RL su larga scala ha aumentato i punteggi di riferimento, ma la generalizzazione nel mondo reale è rimasta indietro rispetto a Qwen3 ed era lontana dai leader globali. Mentre GLM e MiniMax si sono concentrati sulle applicazioni Agent, le deboli capacità agenti di Doubao lo hanno lasciato in difficoltà.
Tuttavia, il ritorno di Seed-1.8 nella prima fascia non è stata una sorpresa — la sorpresa è l'efficienza (Fig 1)‼️
La versione media raggiunge la stessa intelligenza di Seed-1.6 utilizzando 5K token invece di 15K, a un prezzo d'ingresso di ¥2, rendendola estremamente conveniente — un percorso che ricorda DeepSeek.
La fascia alta scala il ragionamento con budget più ampi e si avvicina notevolmente ai migliori modelli statunitensi. Con una forte comprensione visiva e multimodale, oltre alla generazione di immagini/video solo a metà passo indietro — è giusto chiamare Seed un "mini-Gemini."
Dove migliora 🚀
1️⃣ Ragionamento a lungo termine:
Seed-1.8 mantiene la concentrazione su CoT molto più lunghi, convalidando attentamente i rami per raggiungere soluzioni corrette.
La sua forza deriva più da un'attenzione sostenuta e da una ricerca esaustiva che da un'astrazione profonda simile a quella umana. Gemini 3 Pro e GPT-5.2 ottengono ancora punteggi più alti con ~60% dei token — un segno di intelligenza grezza più forte.
2️⃣ Estrazione di informazioni:
Alta precisione, ma inefficiente. Seed-1.8 tende a ripetere e annotare l'intero testo sorgente durante il CoT. Un semplice compito di estrazione di 10K può costare 2× token, e la precisione diminuisce drasticamente con budget di ragionamento più bassi. Senza ragionamento abilitato, l'estrazione è quasi inutilizzabile. (Gemini 3 Pro gestisce lo stesso compito in ~4K token.)
3️⃣ Codifica:
Storicamente un punto debole, ma in miglioramento. Seed-1.8 eredita i guadagni dal recente modello di Codice ed è utilizzabile per la codifica "vibe" da 0→1. Ancora lontano dai modelli di ingegneria di fascia alta — specialmente nel pensiero a livello di sistema.
Dove è ancora carente ⚠️
1️⃣ Coerenza multi-turno:
Migliore di Seed-1.6, ora "fondamentalmente utilizzabile", ma fatica ancora a tenere traccia degli obiettivi in modo coerente durante lunghe conversazioni. Dopo ~10+ turni, il ragionamento si allontana.
2️⃣ Intelligenza spaziale:
La formazione limitata si fa sentire. Le prestazioni nel ragionamento spaziale 2D/3D migliorano a malapena rispetto a 1.6.
🧠 Considerazioni finali
La strategia multimodale unificata di Gemini ha già formato un forte vantaggio competitivo. La maggior parte dei modelli cinesi è ancora bloccata in una competizione centrata sul testo. La decisione precoce di ByteDance di perseguire la multimodalità unificata è stata giusta — ma il debito storico pesa molto.
Seed-1.8 non è perfetto. Tuttavia, man mano che le debolezze vengono gradualmente colmate — RL multi-turno, profondità di codifica, espansione della conoscenza, Seed potrebbe ancora accendersi come una stella della prossima era, alimentata dalle enormi risorse internet di ByteDance✨
🔗 Articolo originale(CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

2
Come sarà l'architettura LLM di nuova generazione?
Questa domanda continua a suscitare dibattiti — e il contributore e sviluppatore di Zhihu Yuxuan offre un confronto acuto tra DeepSeek Sparse Attention (DSA) e Native Sparse Attention (NSA), oltre a uno sguardo pratico all'implementazione degli operatori DSA con TileLang.
🚀 Perché DSA > NSA (nei compiti a lungo contesto):
Dagli esperimenti che aggiungono DSA a modelli piccoli e confrontano con NSA, DSA si comporta costantemente meglio — principalmente a causa di due scelte di design chiave:
1️⃣ Distillazione dell'Attn-Score → supervisione esplicita per la selezione degli indici
2️⃣ Sparsità a livello di token piuttosto che a livello di blocco → recupero più preciso e accurato
🔍 1) Distillazione dell'Attn-Score
La sparse attention si basa sulla selezione delle giuste coppie chiave-valore.
DSA supervisiona direttamente il modulo indice utilizzando i veri punteggi di attenzione, allineando l'addestramento con l'obiettivo reale: "scegliere i token critici."
NSA invece ottimizza solo la perdita del LM, non fornendo alcun vincolo esplicito sull'accuratezza dell'indice — il che spiega le sue prestazioni più deboli nei benchmark di recupero di documenti lunghi.
🔍 2) Sparsità a livello di token vs a livello di blocco
L'accuratezza scala con il budget computazionale: indicizzazione più precisa → recupero migliore.
L'indicizzazione a livello di token (DSA) produce naturalmente una fedeltà superiore rispetto a quella a livello di blocco (NSA).
Da questa prospettiva, il collo di bottiglia delle prestazioni di NSA è previsto — una domanda interessante: un blocco di dimensione=8 aiuterebbe NSA a recuperare DSA?
⚙️ La vera sfida: addestrare DSA in modo efficiente
L'addestramento di DSA comporta Warmup → Sparse Finetune.
La sfida: calcolare e memorizzare i punteggi di attenzione di entrambi i rami.
Un'implementazione naïve richiede O(n²) di memoria — annullando i risparmi di memoria di FlashAttention.
Anche il pre-filtraggio (k=2048, h=512+64) richiede comunque buffer di grandi dimensioni.
📎 Codice:
🧩 Fusione dei Kernel in aiuto (Fig 1)
Per evitare di memorizzare enormi punteggi di Attn-Scores intermedi, DSA utilizza kernel fusi.
Un trucco chiave è unire Index-Score + Top-k in un solo kernel:
• Mantenere un buffer di 2K
• Calcolare l'Index-Score per ogni blocco
• Eseguire una fusione basata su ordinamento bitonico
• Mantenere i punteggi top-K e le loro posizioni
Nessun CUDA richiesto — implementato con TileLang DSL, ispirato da fla-org/native-sparse-attention.
🧾 Riepilogo
Il vantaggio di DSA su NSA deriva da:
• Distillazione dell'Attn-Score (supervisione esplicita)
• Sparsità a livello di token (maggiore accuratezza dell'indice)
E con la fusione dei kernel, il suo costoso pipeline di addestramento diventa fattibile in termini di memoria.
📖 Leggi l'articolo completo:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

643
🤔 Baidu ERNIE 5.0 è qui — quanto è davvero buono?
Una recensione molto letta del contributore di Zhihu toyama nao offre analisi chiare.
Baidu ha inseguito OpenAI per 3-6 mesi con rilasci di versioni corrispondenti. Dopo GPT-5, ERNIE 5.0 è arrivato puntualmente — e a differenza del precipitato 4.5, sembra finalmente un solido modello domestico di prima fascia.
Le prestazioni aumentano di circa l'80% rispetto a X1.1, corrispondendo grosso modo a MiniMax M2. I dati di addestramento sembrano ricostruiti: le uscite sono molto più pulite e coerenti (Fig 1).
👇 Ecco il confronto distillato:
✅Dove ERNIE 5.0 Migliora
• Seguire le istruzioni: Punteggi elevati e persino picchi di prima fascia — ma con strane mancanze a bassa prestazione (ad es., formati di data incoerenti tra i passaggi).
• Calcolo di base: Affidabile per la matematica a livello K12; più stabile di X1.1, anche se ancora più debole di M2 in compiti complessi.
• Uscita molto più pulita: X1.1 soffriva di dati distillati rumorosi e traduzioni imbarazzanti. ERNIE 5.0 risolve in gran parte questo problema: catene di pensiero più chiare, risposte finali più pulite, migliore leggibilità.
🙋 Dove Ha Ancora Difficoltà
• Alta percentuale di allucinazioni: Troppi risposte sicure ma errate sul recupero di simboli matematici, mescolamento di caratteri e compiti a lungo termine — più vicine a prestazioni di ragionamento di seconda fascia.
• Bassa capacità di intuizione: Non riesce a individuare schemi sottostanti (#46 schema di lettere, #32 ragionamento calendrico), spesso forzando invece di astrarre.
• Loop infiniti occasionali: Rari (<3%) ma sorprendenti, dato che erano scomparsi nei modelli domestici recenti.
• Debole capacità multi-turno: Spesso dimentica regole o turni precedenti prima del turno 7; i loop si attivano più facilmente.
💬Il Verdicto
L'era dei trilioni di parametri della Cina è appena iniziata da 3 mesi, e Baidu è già passato a un modello da 2T.
Eppure, rispetto a Kimi K2 Thinking, ERNIE 5.0 sembra un po' "gonfio" — grande, capace, ma non sfruttando appieno il suo peso.
Tuttavia, questo potrebbe essere il tanto atteso segnale di ritorno di @Baidu_Inc — un promemoria che Baidu intende rimanere nella corsa agli LLM.
📖 Valutazione completa:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

704
Principali
Ranking
Preferiti
