NVIDIA の研究により、LLM は 53 倍高速になりました。🤯 AI 推論予算を 98% 削減することを想像してみてください。 このブレークスルーでは、新しいモデルをゼロからトレーニングする必要はありません。SOTA の精度に匹敵するか、それを上回りながら、既存のものを超高速にアップグレードします。 仕組みは次のとおりです。 この手法は、Post Neural Architecture Search (PostNAS) と呼ばれます。これは、事前トレーニング済みモデルを改造するための革新的なプロセスです。 知識を凍結する: 強力なモデル (Qwen2.5 など) から始めて、コア MLP レイヤーをロックダウンしてインテリジェンスを維持します。 外科的置換: 次に、ハードウェアを意識した検索を使用して、遅い O(n²) フルアテンション層のほとんどを、JetBlock と呼ばれる新しい超効率的な線形アテンション デザインに置き換えます。 スループットの最適化: 検索では、複雑な推論に必要な正確な位置にいくつかの主要なフルアテンション層が保持され、H100 GPU の速度に最適化されたハイブリッド モデルが作成されます。 その結果、Jet-Nemotron は、最高レベルのモデル パフォーマンスと 47 倍小さい KV キャッシュを備えた、毎秒 2,885 トークンを提供する AI です。 これがAI戦略にとって重要な理由: - ビジネスリーダー: 53 倍の高速化は、大規模な推論のコストを ~98% 削減することを意味します。これにより、高性能AIを導入するためのROI計算が根本的に変わります。 - 実務家: これはデータセンターだけの話ではありません。大幅な効率向上と小さなメモリフットプリント(154MBキャッシュ)により、メモリに制約のあるエッジハードウェアにSOTAレベルのモデルを展開できます。 - 研究者: PostNAS は、資本効率の高い新しいパラダイムを提供します。事前トレーニングに数百万ドルを費やす代わりに、既存のモデルを変更することでアーキテクチャを革新できるようになり、斬新で効率的な LM を作成するための参入障壁が大幅に低くなります。
218.75K