トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
環境スケーリングの理由 //
環境スケーリングは、エージェント型AIにおいてモデルスケーリングと同じくらい重要かもしれません。
現在のAI研究は、強力なエージェント型AIモデルを構築することは単により良い推論だけではないことを示唆しています。また、より良い環境のためでもあります。
現在、AIエージェントを訓練する際の基本的な方法は、静的な軌道や人間のデモンストレーションを収集することです。これにはより多くのデータ、より多くの例、そして注釈作業が必要です。
しかし、静的なデータでは動的な意思決定を教えられません。このように訓練されたモデルは、実際のエージェントタスクの長期的で目標志向の性質に苦戦します。
この新しい研究では、単にデータをスケーリングするだけでなく、インタラクティブなトレーニング環境の多様性と複雑さを体系的に拡大するフレームワークNex-N1を導入します。
エージェントの能力は模倣ではなく、相互作用から生まれます。さらなるデモを集める代わりに、自然言語仕様から多様なエージェントアーキテクチャやワークフローを自動的に生成するインフラを構築しました。
このシステムは3つの要素で構成されています。NexAU(Agent Universe)は、単純な構成から複雑なエージェント階層を生成するユニバーサルエージェントフレームワークを提供します。NexA4A(Agent for Agent)は、自然言語から多様なエージェントアーキテクチャを自動的に統合します。NexGAPは、現実世界のMCPツールを統合してグラウンディング軌道合成を行うことで、シミュレーションと現実のギャップを埋めます。
業績:
- DeepSeek-V3.1を搭載したDeepSeek-V3.1を搭載したDeep-N1は80.2点で、ベースモデルの42.8点を上回る成績を収めています。
- SWEベンチ検証では、Qwen3-32B-Nex-N1はベースモデルの12.9%に対し50.5%の達成率を達成しています。
- BFCL v4のツール使用において、Nex-N1(65.3)はGPT-5(61.6)を上回る性能を発揮します。
43のコーディングシナリオにおける実際のプロジェクト開発における人間評価では、Nex-N1は64.5%のケースでClaude Sonnet 4.5に勝つか同点、GPT-5に対しては約70%のケースで勝つか同点です。
また、Nex-N1上でディープリサーチエージェントを構築し、Deep Research Benchmarkで47.0%の成果を上げ、スライドやリサーチポスターを含む可視化されたレポート生成機能を備えています。
紙:

トップ
ランキング
お気に入り

