DeepSeek OCR 掉了……但老實說,同一天發布的 Glyph [1] 展示了更有趣的東西:3–4 倍的上下文壓縮和填充成本降低,對於長上下文的 QA 和摘要沒有性能損失,這在許多情況下比 OCR 更不平凡。 如果這對更困難的代理任務成立,那將是一個嚴重的飛躍。 在成本方面: - 填充成本急劇下降 - 使用 DSA 時,解碼節省較為適中 因此,影響取決於你的代理工作流程有多重輸入(例如,深入研究與從頭編碼)。 還有相關的: - BLT 擴展 [2,3] 改善了相對於 BPE 基線的擴展;Glyph 的激進壓縮主要有助於填充,而對解碼的幫助不大(使用 DSA)。 - BLT 化可能進一步幫助 Glyph 降低解碼成本。 - 子代理對延遲和上下文長度的減少影響更大。簡單而強大。 - 而且用小型 LM 替換視覺編碼器仍然是一個未解決的問題。