Seria GLM-4.6V a sosit🚀 - GLM-4.6V (106B): model vizual-limbaj de referință cu context 128K - GLM-4.6V-Flash (9B): versiune ultra-rapidă, ușoară pentru sarcini locale și cu latență redusă Prima Apelare Funcțională nativă din familia modelelor de viziune GLM Greutăţi: Încearcă acum GLM-4.6V: API: Blog tehnologic: Prețuri API (la fiecare 1M tokens): - GLM-4.6V: 0.6 $ intrare / 0.9 $ ieșire - GLM-4.6V-Flash: Gratuit
GLM-4.6V poate accepta intrări multimodale de diverse tipuri și poate genera automat conținut de înaltă calitate, structurat, intercalat imagine-text.
GLM-4.6V oferă un flux de lucru multimodal de căutare și analiză de la un capăt la altul, permițând modelului să treacă fără întreruperi de la percepția vizuală la recuperarea online, la raționament și la răspunsul final.
Am optimizat GLM-4.6V pentru dezvoltarea frontend, scurtând semnificativ ciclul "design to code".
GLM-4.6V aliniază encoderul vizual cu o lungime contextuală de 128K, conferind modelului o capacitate masivă de memorie. În practică, acest lucru echivalează cu procesarea a ~150 de pagini de documente complexe, 200 de pagini de diapozitive sau un videoclip de o oră într-o singură trecere de inferență.
Modelul poate realiza rezumare globală a videoclipurilor lungi, păstrând totodată capacitatea de a realiza raționamente detaliate pe indicii temporale, cum ar fi rezumarea evenimentelor de gol și a timestamp-urilor într-un meci complet de fotbal.
227