研究发布: 📘从计算到智能:基于强化学习驱动的去中心化AI投资地图 🧠 训练范式 预训练构建基础;后训练正成为主要战场。强化学习(RL)正在成为更好推理和决策的引擎,后训练通常占总计算的~5–10%。它的需求——大规模部署、奖励信号生成和可验证训练——自然映射到去中心化网络和区块链原语,以实现协调、激励和可验证的执行/结算。
🌐 终局 Web3 重写了智能的生产——解锁低成本的全球计算部署,并通过社区治理实现主权对齐——将贡献者从标记劳动转变为数据权益利益相关者,并在训练者、对齐者和用户之间更公平地分配价值。
🧭 市场地图 本报告在三个领域对 RL × Web3 进行基准测试:算法(@NousResearch/DisTrO)、系统(@PrimeIntellect, @gensynai, @Gradient_HQ)和机制设计(@grail_ai/Bittensor, @FractionAI_xyz)。
⚙️ 核心逻辑: “解耦–验证–激励” 🔌 解耦:将计算密集型、通信轻量的部署外包给全球长尾GPU;将带宽密集的参数更新保留在集中式/核心节点上。 🧾 可验证性:使用ZK或学习证明(PoL)在开放网络中强制执行诚实计算。 💰 激励:代币化机制调节计算供应和数据质量,减轻奖励游戏/过拟合。
29