トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀中国のAIとテクノロジーのトレンド、声、視点を世界の舞台に届けます。
⚡️中国を代表する知識プラットフォーム、Zhihuによって提供されています。
🔥 ByteDanceは最近Doubao-Seed-1.8(エージェントモデル)をリリースしました。こちらはZhihu寄稿者の豊山直👀による詳細な評価です
🔮 要約:DR:混沌の中で目を見張る瞬間。
2025年を通じて、Seedチームの1.5および1.6モデルは中国のトップクラス、世界では2位にしっかりと位置を保ちました。1.5以降、Seedは国内モデルでは比較的珍しい統一マルチモーダルモデリングに注力しています。
とはいえ、Seed-1.6は大きな批判を受けました。大規模な強化学習はベンチマークスコアを向上させましたが、実際の一般化はQwen3に遅れ、世界的なリーダーには程遠いものでした。GLMとMiniMaxがエージェントのアプリケーションに注力する中、豆宝のエージェント能力の弱さが苦戦を招きました。
しかし、Seed-1.8が1位に復帰したのは驚きではありませんでした。驚きは効率性です(図1)! !️
中型バージョンは、1万5千トークンではなく5千トークンでSeed-1.6と同じ知能を達成し、エントリー価格2円で非常にコスト効率が良いです。これはDeepSeekを彷彿とさせる道筋です。
ハイティアモデルは予算が大きく、アメリカのトップモデルにかなり近いスケールです。強いビジョンとマルチモーダル理解、さらに画像や映像生成も半歩遅れのレベル――Seedは「ミニジェミニ」と呼ぶのが妥当です。
改善点 🚀
1️��� ロングチェーン推論:
Seed-1.8はより長いCoTにまたがって焦点を保ち、正しい解に到達するために枝を慎重に検証します。
その強みは深い人間的抽象よりも、持続的な注意と徹底的な探索から生まれている。Gemini 3 ProとGPT-5.2は依然としてトークンの約60%でより高いスコアを達成しており、これはより強い生の知能の証です。
2️^ 情報抽出:
高精度ですが、効率は低いです。Seed-1.8はCoT中にソーステキストの再定注や注釈を行う傾向があります。単純な10,000トークンの抽出タスクは2×トークンを消費し、低予算では精度が急激に低下します。推論が有効でなければ、抽出はほとんど使い物にならない。(Gemini 3 Proは同じタスクを~4Kトークンで処理します。)
3️そしてコーディング:
歴史的には弱点でしたが、改善しつつあります。Seed-1.8は最近のコードモデルから得られた恩恵を受け継ぎ、0→1の「バイブコーディング」に利用できます。特にシステムレベルの思考において、トップクラスのエンジニアリングモデルにははまだ程遠いです。
まだまだ足りない⚠️部分
1️^ マルチターンコヒーレンス:
Seed-1.6よりは「ほぼ使える」状態ですが、長い会話の中で目標を一貫して追跡するのは依然として苦労しています。~10+ターン後、推論はドリフトします。
2️^ 空間知能:
限られたトレーニングショー。2D/3D空間推論のパフォーマンスは1.6と比べてほとんど改善しません。
🧠 最終テイク
ジェミニの統一マルチモーダル戦略はすでに強力な堀を形成しています。ほとんどの中国モデルは依然としてテキスト中心の競争に縛られています。バイトダンスが統一マルチモーダリティを追求するという初期の決定は正しかったが、歴史的な負債は重くのしかかっている。
Seed-1.8は完璧ではありません。しかし、弱点が徐々に埋められていく中で—マルチターン強化学習、コーディングの深み、知識の拡張—Seedは、ByteDanceの巨大なインターネット規模リソース✨によって、次世代のスターとして輝くかもしれません
🔗 原記事(CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

47
次世代のLLMアーキテクチャはどのようなものになるのでしょうか?
この疑問は議論を呼び続けており、Zhihuの貢献者兼開発者であるYuxuanは、DeepSeek Sparse Attention(DSA)とNative Sparse Attention(NSA)の鋭い比較、さらにTileLangを用いたDSA演算子の実装に関する実践的な考察を提供しています。
🚀 なぜDSA>NSA(長期コンテキストタスクにおいて)か:
小型モデルにDSAを追加したりNSAと比較したりする実験から、DSAは一貫してより良い性能を発揮しています。主な理由は2つの重要な設計選択によるものです。
1️^ インデックス選択のための明示的な監督→注意スコア蒸留
2️^ ブロックレベルではなくトークンレベルのスパーシティ→より細かく正確な検索
🔍 1) 注意スコア蒸留
スパースアテンションは、適切なキーと値の組み合わせの選択にかかっています。
DSAは真の注意スコアを用いてインデックスモジュールを直接監督し、トレーニングを実際の目的である「重要なトークンを選ぶ」と整合させます。
NSAはLM損失のみを最適化し、インデックス精度に明示的な制約を設けていません。これが長期文書検索ベンチマークでの性能低下の理由です。
🔍 2) トークンレベルとブロックレベルのスパーシティ
精度は計算予算に応じてスケールします。より正確なインデックス作成→より良い検索性です。
トークンレベルのインデックス(DSA)は、ブロックレベル(NSA)よりも高い忠実度をもたらします。
この観点から見ると、NSAのパフォーマンスボトルネックは予想されます。興味深い疑問です:ブロックサイズ=8はNSAがDSAに追いつくのに役立つでしょうか?
⚙️ 本当の課題:DSAの効率的なトレーニング
DSAのトレーニングにはウォームアップ→スパースファインチューニングが含まれます。
課題は、両方の分野の注意力スコアを計算し、保存することです。
単純な実装はO(n²)のストレージを必要とし、FlashAttentionのメモリ節約効果を相殺します。
事前フィルタリング(k=2048、h=512+64)であっても、大きなバッファが必要です。
📎 コード:
🧩 カーネル融合の救助(図1)
大量の中間アタクトスコアを保存しないために、DSAはフューズドカーネルを使用します。
重要なコツは、Index-Score + Top-kを1つのカーネルに統合することです:
・2Kバッファの維持
• 各ブロックごとにインデックススコアを計算
• バイトニックソートベースのマージを実行する
・トップKスコアと順位を保持する
CUDAは不要 — fla-org/native-sparse-attentionに触発されたTileLang DSLで実装されています。
🧾 概要
DSAがNSAに対して優位に立つ理由は以下の通りです:
・アテンスコア蒸留(明示的な監督)
・トークンレベルのスパーシティ(より高いインデックス精度)
そしてカーネル融合により、その高コストなトレーニングパイプラインがメモリで実現可能になります。
📖 全文記事をお読みください:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

685
🤔 Baidu ERNIE 5.0 が登場しました — それは本当にどれほど優れているのでしょうか?
Zhihu の寄稿者である toyama nao による広く読まれているレビューには、明確な内訳が記載されています。
Baiduは、バージョンが一致したリリースでOpenAIに3〜6か月遅れをとっています。GPT-5 の後、ERNIE 5.0 が合図で登場し、急いでいた 4.5 とは異なり、ようやく堅実な国内第一層モデルのように見えます。
パフォーマンスは X1.1 よりも ~80% 向上し、MiniMax M2 とほぼ同等です。トレーニングデータは再構築されたようで、出力ははるかにクリーンで一貫性があります(図1)。
👇 抽出された比較は次のとおりです。
✅ERNIE 5.0が改善される場所
• 指示に従う: 高スコアとトップレベルのピークさえありますが、奇妙なローエンドの失敗 (たとえば、パス間で一貫性のない日付形式) があります。
• 基本的な計算: K12 レベルの数学に信頼性があります。X1.1 よりも安定していますが、複雑なタスクでは M2 よりも弱いです。
• はるかにクリーンな出力: X1.1 は、ノイズの多い蒸留データとぎこちない翻訳に悩まされていました。ERNIE 5.0 では、思考の連鎖がより明確になり、最終的な回答がすっきりし、読みやすさが向上しました。
🙋 まだ苦戦しているところ
• 高い幻覚率: 数学記号の回復、文字スクランブル、および長いコンテキストのタスクで、自信はあるが間違った答えが多すぎて、第 2 層の推論パフォーマンスに近い。
• 洞察力が低い: 根底にあるパターン (#46 文字パターン、#32 暦の推論) を見つけることができず、抽象化ではなく総当たり攻撃を行うことがよくあります。
• 時折の無限ループ: まれ (<3%) が、最近の国内モデルでは消えていることを考えると驚くべきことです。
• 弱いマルチターン能力: ラウンド 7 の前にルールや前のターンを忘れることがよくあります。ループがより簡単にトリガーされます。
💬評決
中国の1兆パラメータ時代はまだ3か月しか経っておらず、Baiduはすでに2Tモデルに飛び込んでいます。
しかし、Kimi K2 Thinking と比較すると、ERNIE 5.0 は少し「ふくらんでいる」ように感じられます - 大きくて有能ですが、その重量を十分に活用していません。
それでも、これは@Baidu_Incの待望のカムバックシグナルであり、BaiduがLLMレースにとどまるつもりであることを思い出させるものかもしれません。
📖 完全な評価:
🔗 ベンチマーク:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

769
トップ
ランキング
お気に入り
