🚨DeepSeek-tiimi mursi halvan pitkän kontekstin LLM:ille: ~3.5x halvempi esitäyttö ja ~10x halvempi dekoodaus 128k:n kontekstissa päättelyssä samalla laadulla. En voi olla rakastamatta ainoaa eturintaman tekoälylaboratoriota, joka julkaisee avoimen mallin ja upean avoimen tutkimuksen!
Tekninen raportti:
31,6K