跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+5.37%
USELESS
+3.98%
IKUN
+7.56%
gib
+13.36%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+1.77%
ALON
+3.58%
LAUNCHCOIN
+0.12%
GOONC
+2.04%
KLED
+3.34%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.06%
Boopa
+7.33%
PORK
+4.05%
主页
Ronak Malde ✈️ NeurIPS 2025
现实@GoogleDeepmind |前一研究@windsurf_ai(Deepmind资料) |@stanford
查看原文
Ronak Malde ✈️ NeurIPS 2025
1月9日 01:03
在LLM历史上一个很酷的鲜为人知的事实 - 每个实验室的工具调用格式都非常不同,长久以来这一直是一个相当重要的秘密。 Nous Research是第一个开源他们的Hermes工具调用格式和模型的实验室,这在2024年时击败了BFCL工具调用排行榜,并向人们展示了一个可靠的工具格式和解析器。 紧接着,Qwen也开始使用Hermes工具格式,现在所有Qwen模型至今仍在使用它。Hermes格式也成为我们在Windsurf的swe-1模型的基石。 看到这个实验室的贡献在开源中延续,真的很酷。 这看起来是这样的: <|im_start|>assistant <tool_call> {name: args:} </tool_call> <|im_end|>
Nous Research
1月7日 03:39
介绍 NousCoder-14b,一个具有竞争力的奥林匹克编程模型。 我们最新的博客详细介绍了来自广泛实验和日志的完整发现,发布了完整的堆栈 - RL 环境、基准和在 Atropos 中构建的工具,所有这些都可以通过我们的开放训练堆栈完全复现。 NousCoder-14b 由驻校研究员 @JoeLi5050 在 4 天内使用 48 个 B200s 对 Qwen3-14B 进行了后训练,使用我们的 Atropos 框架和 @modal 的自动缩放器。它的 Pass@1 准确率为 67.87%,比 Qwen 的基线准确率提高了 7.08%。
17
Ronak Malde ✈️ NeurIPS 2025
1月1日 15:31
2024年是代理人的一年 2025年是强化学习的一年 2026年将是持续学习的一年
30
Ronak Malde ✈️ NeurIPS 2025
2025年12月22日
这可能是我今年最喜欢的论文🤯 Rich Sutton声称,当前的强化学习方法无法实现持续学习,因为它们无法在之前的知识基础上进行积累,每次的回合都是从头开始。 瑞士的研究人员引入了Meta-RL,可能会破解这个难题。通过元学习目标在多个回合中进行优化,这样可以激励智能体先探索,然后再利用。然后反思之前的失败,以便为未来的智能体运行做准备。 整体而言,结果令人难以置信,论文也非常值得一读。 作者:@YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic
16
热门
排行
收藏