Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Chinas KI- und Technologietrends, Stimmen und Perspektiven auf die globale Bühne zu bringen.
⚡️Angetrieben von Zhihu, Chinas führender Wissensplattform.
🔥 ByteDance hat gerade Doubao-Seed-1.8 (Agent-Modell) veröffentlicht – und hier ist eine eingehende Bewertung von Zhihu-Beitragender toyama nao 👀
🔮 TL;DR: Eine Augenöffnung mitten im Chaos.
Im Jahr 2025 blieben die Modelle 1.5 und 1.6 des Seed-Teams fest in Chinas oberster Liga und der globalen zweiten Liga. Seit 1.5 hat Seed auf ein einheitliches multimodales Modell gesetzt, eine relativ seltene Wette unter inländischen Modellen.
Das gesagt, wurde Seed-1.6 stark kritisiert: Großangelegte RL steigerten die Benchmark-Werte, aber die allgemeine Anwendbarkeit in der realen Welt blieb hinter Qwen3 zurück und war weit von den globalen Spitzenreitern entfernt. Während GLM und MiniMax sich auf Agentenanwendungen konzentrierten, ließ es Doubaos schwache Agentenfähigkeiten kämpfen.
Dennoch war die Rückkehr von Seed-1.8 in die erste Liga keine Überraschung – die Überraschung ist die Effizienz (Abb. 1)‼️
Die mittlere Version erreicht die gleiche Intelligenz wie Seed-1.6 mit 5K Tokens anstelle von 15K, zu einem Einstiegspreis von ¥2, was es extrem kosteneffektiv macht – ein Weg, der an DeepSeek erinnert.
Die hohe Stufe skaliert das Denken mit größeren Budgets und kommt bemerkenswert nahe an die besten US-Modelle. Mit starkem visuellem und multimodalem Verständnis, plus Bild-/Videoerzeugung, die nur einen halben Schritt hinterherhinkt – es ist fair, Seed als "mini-Gemini" zu bezeichnen.
Wo es sich verbessert 🚀
1️⃣ Langkettiges Denken:
Seed-1.8 behält den Fokus über viel längere CoT bei und validiert sorgfältig Zweige, um die richtigen Lösungen zu erreichen.
Seine Stärke kommt mehr von nachhaltiger Aufmerksamkeit und erschöpfender Suche als von tiefem, menschenähnlichem Abstraktionsvermögen. Gemini 3 Pro und GPT-5.2 erzielen immer noch höhere Werte mit ~60% der Tokens – ein Zeichen für stärkere rohe Intelligenz.
2️⃣ Informationsbeschaffung:
Hohe Genauigkeit, aber ineffizient. Seed-1.8 neigt dazu, den gesamten Quelltext während CoT neu zu formulieren und zu annotieren. Eine einfache 10K-Beschaffungsaufgabe kann 2× Tokens kosten, und die Genauigkeit sinkt stark bei niedrigeren Denkbudgets. Ohne aktiviertes Denken ist die Beschaffung fast unbrauchbar. (Gemini 3 Pro bewältigt dieselbe Aufgabe in ~4K Tokens.)
3️⃣ Programmierung:
Historisch ein Schwachpunkt, aber verbessert sich. Seed-1.8 erbt Gewinne aus dem aktuellen Code-Modell und ist für 0→1 "Vibe-Coding" nutzbar. Immer noch weit entfernt von erstklassigen Ingenieurmodellen – insbesondere im systematischen Denken.
Wo es immer noch hinterherhinkt ⚠️
1️⃣ Mehrturn-Kohärenz:
Besser als Seed-1.6, jetzt "grundsätzlich nutzbar", hat aber immer noch Schwierigkeiten, Ziele über lange Gespräche hinweg konsistent zu verfolgen. Nach ~10+ Runden driftet das Denken.
2️⃣ Räumliche Intelligenz:
Begrenztes Training zeigt sich. Die Leistung bei 2D/3D räumlichem Denken verbessert sich kaum gegenüber 1.6.
🧠 Fazit
Geminis einheitliche multimodale Strategie hat bereits einen starken Schutzwall gebildet. Die meisten chinesischen Modelle sind immer noch im textzentrierten Wettbewerb gefangen. ByteDances frühe Entscheidung, einheitliche Multimodalität zu verfolgen, war richtig – aber historische Schulden lasten schwer.
Seed-1.8 ist nicht perfekt. Doch während die Schwächen allmählich behoben werden – Mehrturn-RL, Programmierungstiefe, Wissensausweitung – könnte Seed dennoch als Stern der nächsten Ära aufleuchten, angetrieben von ByteDances massiven internetbasierten Ressourcen✨
🔗 Originalartikel (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

39
Wie wird die nächste Generation der LLM-Architektur aussehen?
Diese Frage sorgt immer wieder für Debatten – und der Zhihu-Beitragende & Entwickler Yuxuan bietet einen scharfen Vergleich zwischen DeepSeek Sparse Attention (DSA) und Native Sparse Attention (NSA) sowie einen praktischen Blick auf die Implementierung von DSA-Operatoren mit TileLang.
🚀 Warum DSA > NSA (bei Langzeit-Kontextaufgaben):
Aus Experimenten, die DSA zu kleinen Modellen hinzufügen und mit NSA vergleichen, geht hervor, dass DSA konstant besser abschneidet – hauptsächlich aufgrund von zwei entscheidenden Designentscheidungen:
1️⃣ Attn-Score-Destillation → explizite Überwachung der Indexauswahl
2️⃣ Token-Level-Sparsity statt Block-Level → feiner abgestufte, genauere Abrufung
🔍 1) Attn-Score-Destillation
Sparse Attention hängt von der Auswahl der richtigen Schlüssel-Wert-Paare ab.
DSA überwacht direkt das Indexmodul mit echten Aufmerksamkeitswerten und stimmt das Training mit dem tatsächlichen Ziel ab: "Wähle die kritischen Tokens."
NSA hingegen optimiert nur den LM-Verlust und bietet keine explizite Einschränkung der Indexgenauigkeit – was seine schwächere Leistung bei der Abrufung von Langdokumenten erklärt.
🔍 2) Token- vs. Block-Level-Sparsity
Die Genauigkeit skaliert mit dem Rechenbudget: präzisere Indizierung → bessere Abrufung.
Die Token-Level-Indizierung (DSA) führt natürlicherweise zu höherer Genauigkeit als die Block-Level-Indizierung (NSA).
Aus dieser Perspektive ist der Leistungsengpass von NSA zu erwarten – eine interessante Frage: Würde block-size=8 NSA helfen, zu DSA aufzuholen?
⚙️ Die echte Herausforderung: DSA effizient trainieren
Das DSA-Training umfasst Warmup → Sparse Finetune.
Die Herausforderung: die Aufmerksamkeitswerte beider Zweige zu berechnen und zu speichern.
Eine naive Implementierung erfordert O(n²) Speicher – was die Speicherersparnisse von FlashAttention negiert.
Selbst das Vorfiltern (k=2048, h=512+64) erfordert immer noch große Puffer.
📎 Code:
🧩 Kernel-Fusion zur Rettung (Abb. 1)
Um massive Zwischen-Attn-Scores zu vermeiden, verwendet DSA fusionierte Kerne.
Ein wichtiger Trick besteht darin, Index-Score + Top-k in einem Kern zu kombinieren:
• Halte einen 2K-Puffer
• Berechne den Index-Score für jeden Block
• Führe eine bitonische Sortierfusion durch
• Behalte die Top-K-Werte und deren Positionen
Kein CUDA erforderlich – implementiert mit TileLang DSL, inspiriert von fla-org/native-sparse-attention.
🧾 Zusammenfassung
Der Vorteil von DSA gegenüber NSA ergibt sich aus:
• Attn-Score-Destillation (explizite Überwachung)
• Token-Level-Sparsity (höhere Indexgenauigkeit)
Und mit der Kernel-Fusion wird die kostspielige Trainingspipeline speichereffizient.
📖 Lesen Sie den vollständigen Artikel:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

664
🤔 Baidu ERNIE 5.0 ist da – wie gut ist es wirklich?
Eine weit verbreitete Rezension des Zhihu-Mitglieds toyama nao bietet klare Aufschlüsselungen.
Baidu hat OpenAI mit versionengemäßen Veröffentlichungen um 3-6 Monate hinterhergehinkt. Nach GPT-5 kam ERNIE 5.0 pünktlich – und im Gegensatz zum hastigen 4.5 sieht es endlich nach einem soliden erstklassigen inländischen Modell aus.
Die Leistung springt um ~80% im Vergleich zu X1.1 und entspricht grob MiniMax M2. Die Trainingsdaten scheinen neu aufgebaut: Die Ausgaben sind viel sauberer und kohärenter (Abb. 1).
👇 Hier ist der destillierte Vergleich:
✅ Wo ERNIE 5.0 besser wird
• Befolgung von Anweisungen: Hohe Punktzahlen und sogar erstklassige Spitzen – aber mit seltsamen Fehlern im unteren Bereich (z. B. inkonsistente Datumsformate über Durchgänge hinweg).
• Grundlegende Berechnungen: Zuverlässig für Mathematik auf K12-Niveau; stabiler als X1.1, obwohl immer noch schwächer als M2 bei komplexen Aufgaben.
• Viel sauberere Ausgaben: X1.1 litt unter rauschhaften destillierten Daten und ungeschickten Übersetzungen. ERNIE 5.0 behebt dies weitgehend: klarere Gedankengänge, sauberere Endantworten, bessere Lesbarkeit.
🙋 Wo es immer noch Schwierigkeiten hat
• Hohe Halluzinationsrate: Zu viele selbstbewusste, aber falsche Antworten bei der Wiederherstellung von mathematischen Symbolen, Zeichenverwirrung und Aufgaben mit langem Kontext – näher an der Leistung von zweitklassigem Denken.
• Geringe Einsicht: Versäumt es, zugrunde liegende Muster zu erkennen (#46 Buchstabenmuster, #32 kalenderbezogenes Denken), oft wird mit Gewalt gearbeitet, anstatt zu abstrahieren.
• Gelegentliche unendliche Schleifen: Selten (<3%), aber überraschend, da sie in den letzten inländischen Modellen verschwunden waren.
• Schwache Fähigkeit zu Mehrfachrunden: Vergisst oft Regeln oder vorherige Runden vor Runde 7; Schleifen werden leichter ausgelöst.
💬 Das Urteil
Chinas Billionen-Parameter-Ära ist erst seit 3 Monaten im Gange, und Baidu ist bereits auf ein 2T-Modell gesprungen.
Doch im Vergleich zu Kimi K2 Thinking fühlt sich ERNIE 5.0 ein wenig "aufgebläht" an – groß, fähig, aber nutzt sein Gewicht nicht vollständig aus.
Dennoch könnte dies das lang erwartete Comeback-Signal von @Baidu_Inc sein – eine Erinnerung daran, dass Baidu beabsichtigt, im LLM-Rennen zu bleiben.
📖 Vollständige Bewertung:
🔗 Benchmark:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

742
Top
Ranking
Favoriten
