热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
昨晚我教 nanochat d32 如何计算草莓中的 'r'(或类似变体)。我认为这是一个很好的/有趣的例子,展示如何为 nanochat 添加功能,我在这里写了一份完整的指南:
这通过一个新的合成任务 `SpellingBee` 完成,该任务生成用户请求此类问题的示例,以及助手的理想解决方案。然后我们在这些示例上进行中期训练/SFT 微调,以赋予 LLM 这种能力,或者通过 RL 进一步训练,使其更强大。尤其是在较小的模型规模上,有许多细节需要正确处理,指南逐步讲解了这些细节。简要概述如下:
- 你必须确保用户提示/查询的多样性
- 对于像 nanochat 这样的小模型,必须非常注意标记化细节,以使任务对 LLM 来说更容易。特别是,你必须小心空格,然后必须将推理计算分散到多个部分解决方案的标记中:首先我们将单词标准化为引号,然后拼写出来(以打破标记),然后我们迭代并保持一个显式计数器,等等。
- 我鼓励模型以两种不同的方式解决模型:一种是手动方式(在脑海中进行心算),另一种是通过 nanochat 可以访问的 Python 解释器的工具使用。这有点像 "烟雾和镜子",因为目前每个解决方案都是 "干净的",没有错误。可以调整任务以模拟错误并通过示例演示恢复,或者运行 RL。最有可能的是,两者的结合效果最佳,前者作为 RL 的先验,并提供可供其使用的内容。
如果 nanochat 是一个更大的模型,你会期望或希望这种能力在某个时刻更容易 "显现"。但由于 nanochat d32 的 "大脑" 大约是 ~蜜蜂的大小,如果我们想让它计算草莓中的 r,我们必须通过在数据中过度表示它来实现,以鼓励模型更早地学习它。但它有效!:)

502.86K
我非常喜欢新的 DeepSeek-OCR 论文。这是一个不错的 OCR 模型(可能比 dots 差一点),是的,数据收集等等,但无论如何这并不重要。
对我来说,更有趣的部分(尤其是作为一个内心深处是计算机视觉的人,暂时伪装成自然语言专家)是像素是否比文本更适合输入到 LLMs。文本标记是否浪费且糟糕,作为输入。
也许更合理的是,所有输入到 LLMs 的内容应该永远只是图像。即使你碰巧有纯文本输入,也许你会更愿意将其渲染后再输入:
- 更多的信息压缩(见论文)=> 更短的上下文窗口,更高的效率
- 显著更多的通用信息流 => 不仅仅是文本,例如粗体文本、彩色文本、任意图像。
- 输入现在可以轻松地以双向注意力处理,并作为默认,而不是自回归注意力 - 强大得多。
- 删除分词器(在输入时)!!我已经抱怨过我有多不喜欢分词器。分词器很丑,分离,不是端到端的阶段。它“引入”了 Unicode、字节编码的所有丑陋,它继承了很多历史包袱,安全/越狱风险(例如,续续字节)。它使得两个在视觉上看起来相同的字符在网络内部看起来像两个完全不同的标记。一个微笑的表情符号看起来像一个奇怪的标记,而不是一个... 实际的微笑面孔,像素和所有的转移学习都带来了。分词器必须去。
OCR 只是许多有用的视觉 -> 文本任务之一。而文本 -> 文本任务可以被转化为视觉 -> 文本任务。反之则不然。
所以用户消息是图像,但解码器(助手的响应)仍然是文本。如何现实地输出像素就不那么明显了……或者你是否想这样做。
现在我还得抵制冲动,想要制作一个仅限图像输入的 nanochat 版本...

vLLM2025年10月20日
🚀 DeepSeek-OCR — 来自 @deepseek_ai 的新一代 OCR,探索 LLM 的光学上下文压缩,运行速度极快,使用 vLLM ⚡(在 A100-40G 上约 2500 tokens/s) — 由 vllm==0.8.5 提供支持,支持 day-0 模型。
🧠 在保持 97% OCR 准确率的情况下,将视觉上下文压缩高达 20×,在 <10× 的情况下。
📄 在 OmniDocBench 上使用更少的视觉 tokens 超越 GOT-OCR2.0 和 MinerU2.0。
🤝 vLLM 团队正在与 DeepSeek 合作,将官方 DeepSeek-OCR 支持引入下一个 vLLM 版本 — 使多模态推理更快、更易于扩展。
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.91M
很不错的简短帖子,说明了简单文本(离散)扩散是多么简单。
扩散(即并行、迭代去噪、顶部)是图像/视频中普遍的生成范式,但自回归(即从左到右底部)是文本中的主导范式。对于音频,我看到了一些两者的结合。
许多扩散论文看起来有点复杂,但如果你去掉数学形式主义,你会得到简单的基线算法,例如更接近于连续流匹配的东西,或者在离散中像这样的东西。这是你的香草变压器,但具有双向注意力,在你的“令牌画布”中,你根据噪声调度迭代地重新采样和重新掩蔽所有令牌,直到在最后一步获得最终样本。(双向注意力更强大,如果你用它进行训练,你会得到更强的自回归语言模型,不幸的是,这使得训练变得更加昂贵,因为现在你无法在序列维度上并行化)。
因此,自回归是在令牌画布上执行`.append(token)`,而只关注向后,而扩散则是用`.setitem(idx, token)`刷新整个令牌画布,同时双向关注。人类思维天真地感觉更像是自回归,但很难说在某些潜在的思维空间中没有更多类似扩散的成分。感觉很有可能你可以进一步在它们之间插值,或者进一步概括它们。这是LLM堆栈中的一个组成部分,仍然感觉有点可替代。
现在我必须抵制将nanochat与扩散训练的冲动。

Nathan Barry2025年10月21日
BERT 只是一个单一的文本扩散步骤! (1/n)
当我第一次阅读关于语言扩散模型的内容时,我惊讶地发现它们的训练目标只是掩码语言建模(MLM)的一个概括,这是我们自 2018 年以来一直在做的事情。
我想到的第一个问题是:“我们能否微调一个类似 BERT 的模型来进行文本生成?”
663.35K
热门
排行
收藏

