DeepSeek OCR ist gefallen ... aber ehrlich gesagt, Glyph [1], das am selben Tag veröffentlicht wurde, zeigte etwas Interessanteres: 3–4× Kontextkompression und Kostenreduktion beim Infilling, ohne Leistungseinbußen bei Long-Context QA und Zusammenfassungen, was in vielen Fällen viel weniger trivial ist als OCR. Wenn das für schwierigere agentische Aufgaben gilt, wäre das ein ernsthafter Sprung. Kostenmäßig: - Die Infilling-Kosten sinken drastisch - Die Einsparungen beim Decoding sind moderater, wenn DSA aktiviert ist Der Einfluss hängt also davon ab, wie inputlastig Ihr agentischer Workflow ist (z. B. tiefgehende Forschung vs. Programmierung von Grund auf). Auch relevant: - BLT-Erweiterungen [2,3] verbesserten das Scaling gegenüber der BPE-Basislinie; die aggressive Kompression von Glyph hilft hauptsächlich beim Infilling, nicht viel beim Decoding (mit DSA). - BLT-fication könnte Glyph helfen, die Decoding-Kosten weiter zu senken. - Subagenten haben einen größeren Einfluss auf die Latenz und die Reduzierung der Kontextlänge. Einfach, aber wirkungsvoll. - Und der Austausch von Vision-Encodern gegen kleine LMs ist immer noch eine offene Frage.