Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Institut pro základní modely MBZUAI zveřejnil model K2-V2, model uvažování 70B, který je na děleném #1 v našem Indexu otevřenosti a je prvním modelem ze SAE na našich žebříčcích
📖 Sdílený lídr v otevřenosti: K2-V2 se připojuje k OLMo 3 32B Think na vrchol Indexu otevřenosti umělé analýzy – našeho nově zveřejněného, standardizovaného, nezávisle hodnoceného měřítka otevřenosti AI modelů napříč dostupností a transparentností. MBZUAI šel dál než jen otevřený přístup a licencování vah modelu – poskytuje plný přístup k datům před a po trénování. Také publikují metodiku a kód s povolenou licencí Apache, která umožňuje volné použití pro jakýkoli účel. To činí z K2-V2 cenný příspěvek pro open source komunitu a umožňuje efektivnější doladění. Odkazy najdete níže!
🧠 Silný středně velký (40-150B) model s otevřenými váhami: S hodnotou 70B dosahuje K2-V2 skóre 46 v našem Indexu inteligence díky režimu High Reasoning. To ho řadí nad Llama Nemotron Super 49B v1.5, ale pod Qwen3 Next 80B A3B. Model má relativní sílu v následovnosti výuky s 60 % v IFBench
🇦🇪 První účastník SAE v našich žebříčcích: V moři převážně amerických a čínských modelů vyniká K2-V2 jako první zástupce SAE v našich žebříčcích a druhý účastník z Blízkého východu po izraelských laboratořích AI21. K2-V2 je první model MBZUAI, který jsme otestovali, ale laboratoř již dříve vydala modely se zvláštním zaměřením na reprezentaci jazyků včetně egyptské arabštiny a hindštiny
📊 Nižší způsoby uvažování snižují používání tokenů a halucinace: K2-V2 má 3 způsoby uvažování, přičemž režim Vysokého uvažování využívá značných ~130 milionů tokenů k dokončení našeho Indexu inteligence. Režim Medium však snižuje používání tokenů o ~6x, přičemž v našem indexu inteligence klesne jen o 6 bodů. Zajímavé je, že nižší způsoby uvažování dosahují lepších výsledků v našem indexu znalostí a halucinací, AA-Vševědoucnost, díky snížené tendenci k halucinacím

K2-V2 je v otevřenosti na stejné úrovni lídrem a nachází se na Pareto hranici otevřenosti versus inteligence

Model má silný výkon mezi středně velkými (parametry 40–150B) modely s otevřenými váhami

Režim High Reasoning má značné využití tokenů, ale Medium snižuje jejich využití o ~6x s pouhým poklesem v našem Indexu inteligence o 6 bodů

Nižší způsoby uvažování dosahují lepších výsledků v indexu vševědoucnosti umělé analýzy, protože méně halucinují

Individuální výsledky benchmarku. Všechny benchmarky byly provedeny jako podobné napříč modely a nezávisle

Další analýza o umělé analýze:
Odkaz HuggingFace 🤗 včetně váh, dat, tréninkového kódu a technické zprávy:
Příspěvky od MBZUAI a IFM:
32,47K
Top
Hodnocení
Oblíbené
