分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

適応型並列デコードによる拡散LLMの高速化拡散スタイルのLLM(dLLM)を22倍高速化することに関する素晴らしい論文です。KV キャッシュを使用すると、高速化をさらに 57 倍に引き上げることができます。 dLLMは、半自己回帰ノイズ除去中に不必要な再マスキングとパディングを多用するデコードを実行するため、時間を無駄にすることがよくあります。Learn2PD は、その無駄を減らすために 2 つの簡単なトリックを追加します。トークンごとのよりスマートな「完了」検出: 小さなフィルターモデルは、トークンがすでに正しいかどうかを判断することを学習します。「完了」とマークされると、二度と触れられることはありません。これにより、絶え間ない再マスキングループが回避され、デコードが大幅に高速化されます。回答が終了したら停止する: テキストの終わりトークンが表示された場合、デコードはすぐに停止します。これにより、特に長い出力の場合、膨大な量のパディングオーバーヘッドが削減されます。品質の低下をほとんど行わずに、大幅な速度向上を実現します。GSM8K (数学問題) では、精度は基本的に変わらず、1024 トークンで速度が 22×向上しました。出力が長い場合、高速化はさらに大きくなります。 KV キャッシュと連携: キャッシュのトリックと組み合わせると、確実な精度でスピードアップを 57× まで引き上げることができます。軽量で簡単に追加:フィルターは~2Kパラメータを持つ小さなMLPです。基本モデルを再トレーニングするのではなく、フィルターを事後トレーニングしてデコードループにドロップするだけです。

トップ

ランキング

お気に入り