🚨Команда DeepSeek разработала дешевый длинный контекст для LLM: примерно в 3,5 раза дешевле предзаполнение и примерно в 10 раз дешевле декодирование при 128k контексте на этапе вывода с тем же качеством. Не могу не любить единственную лабораторию AI на переднем крае, которая публикует открытую модель и отличные открытые исследования!
Технический отчет:
31,6K