Institut pro základní modely MBZUAI zveřejnil model K2-V2, model uvažování 70B, který je na děleném #1 v našem Indexu otevřenosti a je prvním modelem ze SAE na našich žebříčcích 📖 Sdílený lídr v otevřenosti: K2-V2 se připojuje k OLMo 3 32B Think na vrchol Indexu otevřenosti umělé analýzy – našeho nově zveřejněného, standardizovaného, nezávisle hodnoceného měřítka otevřenosti AI modelů napříč dostupností a transparentností. MBZUAI šel dál než jen otevřený přístup a licencování vah modelu – poskytuje plný přístup k datům před a po trénování. Také publikují metodiku a kód s povolenou licencí Apache, která umožňuje volné použití pro jakýkoli účel. To činí z K2-V2 cenný příspěvek pro open source komunitu a umožňuje efektivnější doladění. Odkazy najdete níže! 🧠 Silný středně velký (40-150B) model s otevřenými váhami: S hodnotou 70B dosahuje K2-V2 skóre 46 v našem Indexu inteligence díky režimu High Reasoning. To ho řadí nad Llama Nemotron Super 49B v1.5, ale pod Qwen3 Next 80B A3B. Model má relativní sílu v následovnosti výuky s 60 % v IFBench 🇦🇪 První účastník SAE v našich žebříčcích: V moři převážně amerických a čínských modelů vyniká K2-V2 jako první zástupce SAE v našich žebříčcích a druhý účastník z Blízkého východu po izraelských laboratořích AI21. K2-V2 je první model MBZUAI, který jsme otestovali, ale laboratoř již dříve vydala modely se zvláštním zaměřením na reprezentaci jazyků včetně egyptské arabštiny a hindštiny 📊 Nižší způsoby uvažování snižují používání tokenů a halucinace: K2-V2 má 3 způsoby uvažování, přičemž režim Vysokého uvažování využívá značných ~130 milionů tokenů k dokončení našeho Indexu inteligence. Režim Medium však snižuje používání tokenů o ~6x, přičemž v našem indexu inteligence klesne jen o 6 bodů. Zajímavé je, že nižší způsoby uvažování dosahují lepších výsledků v našem indexu znalostí a halucinací, AA-Vševědoucnost, díky snížené tendenci k halucinacím
K2-V2 je v otevřenosti na stejné úrovni lídrem a nachází se na Pareto hranici otevřenosti versus inteligence
Model má silný výkon mezi středně velkými (parametry 40–150B) modely s otevřenými váhami
Režim High Reasoning má značné využití tokenů, ale Medium snižuje jejich využití o ~6x s pouhým poklesem v našem Indexu inteligence o 6 bodů
Nižší způsoby uvažování dosahují lepších výsledků v indexu vševědoucnosti umělé analýzy, protože méně halucinují
Individuální výsledky benchmarku. Všechny benchmarky byly provedeny jako podobné napříč modely a nezávisle
Další analýza o umělé analýze: Odkaz HuggingFace 🤗 včetně váh, dat, tréninkového kódu a technické zprávy:
Příspěvky od MBZUAI a IFM:
32,47K