跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-4.5%
USELESS
+5.36%
IKUN
+9.36%
gib
+3.43%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+0.76%
ALON
+9.24%
LAUNCHCOIN
+1.28%
GOONC
-1.18%
KLED
-1.88%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.15%
Boopa
+6.3%
PORK
0.00%
主页
Max Ryabinin
大规模深度学习与科研@togethercompute Learning@home/群体意识作者(DeDLOC、SWARM、Petals)
查看原文
Max Ryabinin
12月12日 04:19
我很高兴看到这个项目发布,它是由@couplefire12在Together实习期间领导的🔥 如果你对在不可验证的环境中使用强化学习的推理感兴趣,请务必看看!
Locke Cai
12月12日 01:30
用于推理的强化学习通常依赖于验证者——这对数学很有效,但对创意写作或开放式研究来说却很棘手。 认识一下 RARO:一种新的范式,通过对抗游戏教会 LLMs 推理,而不是验证。 没有验证者。没有环境。只有演示。🧵👇
207
Max Ryabinin
12月5日 02:02
很高兴分享我们最近关于 AutoJudge 的研究,这是一种解码技术,结合了: - 通过放宽分布匹配约束来加速推理 - 由于自监督训练协议,易于使用和可扩展性 今天在 #NeurIPS2025 进行演讲! (1/9)
609
Max Ryabinin
12月4日 01:06
🧑🍳
Together AI
12月4日 00:36
我们正在迈出在 AI Native Cloud 上实现生产级强化学习的第一步。 AI 和 @metaai 的团队正在合作,将高性能的强化学习带入真实的自主系统——长时间推理、工具使用和多步骤工作流程。 查看第一个 TorchForge 集成。
103
热门
排行
收藏