MBZUAIs Institute of Foundation Models har lansert K2-V2, en 70B-resonnementmodell som er delt #1 i vår Openness Index, og er den første modellen på våre topplister fra UAE 📖 Delt leder i åpenhet: K2-V2 slutter seg til OLMo 3 32B Think på toppen av Artificial Analysis Openness Index – vårt nylig lanserte, standardiserte, uavhengig vurderte mål på åpenhet for AI-modeller på tvers av tilgjengelighet og åpenhet. MBZUAI gikk utover åpen tilgang og lisensiering av modellvektene – de gir full tilgang til data før og etter trening. De publiserer også opplæringsmetodikk og kode med en tillatende Apache-lisens som tillater fri bruk til alle formål. Dette gjør K2-V2 til et verdifullt bidrag til open source-miljøet og muliggjør mer effektiv finjustering. Se lenkene nedenfor! 🧠 Sterk mellomstor (40-150B) åpen vektmodell: Ved 70B scorer K2-V2 46 på vår Intelligensindeks med sin høye resonneringsmodus. Dette plasserer den over Llama Nemotron Super 49B v1.5, men under Qwen3 Next 80B A3B. Modellen har en relativ styrke i instruksjon og følger med en score på 60 % i IFBench 🇦🇪 Første UAE-deltaker på våre topplister: I et hav av hovedsakelig amerikanske og kinesiske modeller skiller K2-V2 seg ut som den første representanten av UAE på våre topplister, og den andre deltakeren fra Midtøsten etter Israels AI21-laboratorier. K2-V2 er den første MBZUAI-modellen vi har benchmarket, men laboratoriet har tidligere gitt ut modeller med særlig fokus på språkrepresentasjon, inkludert egyptisk arabisk og hindi 📊 Lavere resonneringsmoduser reduserer bruk av tokens og hallusinasjoner: K2-V2 har 3 resonnementmoduser, hvor High reasoning-modusen bruker hele ~130 millioner tokens for å fullføre vår Intelligensindeks. Imidlertid reduserer Medium-modusen token-bruken med ~6x med bare et 6 poeng fall i vår Intelligensindeks. Interessant nok scorer lavere resonnementsmoduser bedre i vår kunnskaps- og hallusinasjonsindeks, AA-Omniscience, på grunn av redusert tendens til hallusinasjoner
K2-V2 er en delt leder i åpenhet, og befinner seg på Pareto-grensen mellom åpenhet og intelligens
Modellen har sterk ytelse blant mellomstore (40-150B parametere) åpne vekt-modeller
High reasoning-modusen har betydelig token-bruk, men Medium reduserer token-bruken med ~6x med bare et 6-poengs fall i vår Intelligence Index
Lavere resonnementsmoduser presterer bedre i Artificial Analysis Omniscience Index, siden de hallusinerer mindre
Individuelle referanseresultater. Alle benchmarks har blitt kjørt like-for-like på tvers av modellene og uavhengig
Videre analyse av kunstig analyse: HuggingFace-lenke 🤗 inkludert vekter, data, treningskode og teknisk rapport:
Innlegg av MBZUAI og IFM:
32,47K