跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
探索 Web3 Giveaway 活动,每周丰厚奖励等您来领取
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-0.8%
USELESS
+21.78%
IKUN
-19.47%
gib
-0.85%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.83%
ALON
+3.57%
LAUNCHCOIN
+9.13%
GOONC
-1.01%
KLED
-15.6%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.43%
Boopa
-3.86%
PORK
-0.62%
主页
Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
查看原文
Andrej Karpathy
9月9日 23:36
有点傻,但我从2007年第一次发布会以来,每年都观看苹果发布会的直播,期待新款iPhone。虽然这没什么意义,但没关系。今天上午10点直播(还有1.5小时)。今年,我再次希望能有一款我知道不会推出的iPhone mini。安息。
477.84K
6.42K
Andrej Karpathy
9月6日 01:38
我再次祝贺OpenAI成功推出GPT-5 Pro。这是我第三次在复杂/棘手的问题上反复挣扎了一个小时,然后5 Pro只用了10分钟就给出了可以直接使用的代码。我让CC阅读了5 Pro的版本,它写了两段文字来赞美它(非常温馨)。如果你没有给它最棘手的问题,你可能会错过一些东西。
2.42M
12.67K
Andrej Karpathy
2025年8月28日
在预训练时代,重要的是互联网文本。你主要希望拥有一个大型、多样化、高质量的互联网文档集合来学习。 在监督微调时代,重要的是对话。雇佣合同工来为问题创建答案,有点像你在 Stack Overflow / Quora 等地方看到的,但更针对 LLM 的用例。 我认为上述两者都不会消失,但在这个强化学习的时代,现在重要的是环境。与上述不同,它们给 LLM 提供了实际互动的机会——采取行动、查看结果等。这意味着你可以希望比统计专家模仿做得更好。它们可以用于模型训练和评估。但就像以前一样,现在的核心问题是需要一个大型、多样化、高质量的环境集合,作为 LLM 练习的练习场。 在某种程度上,我想起了 OpenAI 的第一个项目(gym),这正是一个希望建立一个大型环境集合的框架,但那是在 LLM 之前。因此,这些环境是当时简单的学术控制任务,比如 cartpole、ATARI 等。@PrimeIntellect 环境中心(以及 GitHub 上的 `verifiers` 仓库)构建了现代化版本,专门针对 LLM,这是一个伟大的努力/想法。今年早些时候,我建议有人构建类似的东西: 环境具有这样的特性,一旦框架的骨架到位,原则上社区/行业可以在许多不同领域并行化,这令人兴奋。 最后的想法——就个人和长期而言,我对环境和代理互动持乐观态度,但对强化学习持悲观态度。我认为奖励函数非常可疑,我认为人类并不使用 RL 来学习(也许他们在某些运动任务等方面使用,但在智力问题解决任务中并不使用)。人类使用不同的学习范式,这些范式显著更强大且样本效率更高,而这些范式尚未得到适当的发明和扩展,尽管早期的草图和想法已经存在(例如,“系统提示学习”的想法,将更新移动到令牌/上下文而不是权重,并可选择将其提炼为权重,作为一个类似于睡眠的单独过程)。
Prime Intellect
2025年8月28日
介绍环境中心 RL环境是下一波AI进步的关键瓶颈,但大型实验室正在封锁它们 我们建立了一个社区平台,用于众包开放环境,以便任何人都可以为开源AGI做出贡献
800.34K
7.01K
热门
排行
收藏