Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MBZUAIs Institute of Foundation Models har lansert K2-V2, en 70B-resonnementmodell som er delt #1 i vår Openness Index, og er den første modellen på våre topplister fra UAE
📖 Delt leder i åpenhet: K2-V2 slutter seg til OLMo 3 32B Think på toppen av Artificial Analysis Openness Index – vårt nylig lanserte, standardiserte, uavhengig vurderte mål på åpenhet for AI-modeller på tvers av tilgjengelighet og åpenhet. MBZUAI gikk utover åpen tilgang og lisensiering av modellvektene – de gir full tilgang til data før og etter trening. De publiserer også opplæringsmetodikk og kode med en tillatende Apache-lisens som tillater fri bruk til alle formål. Dette gjør K2-V2 til et verdifullt bidrag til open source-miljøet og muliggjør mer effektiv finjustering. Se lenkene nedenfor!
🧠 Sterk mellomstor (40-150B) åpen vektmodell: Ved 70B scorer K2-V2 46 på vår Intelligensindeks med sin høye resonneringsmodus. Dette plasserer den over Llama Nemotron Super 49B v1.5, men under Qwen3 Next 80B A3B. Modellen har en relativ styrke i instruksjon og følger med en score på 60 % i IFBench
🇦🇪 Første UAE-deltaker på våre topplister: I et hav av hovedsakelig amerikanske og kinesiske modeller skiller K2-V2 seg ut som den første representanten av UAE på våre topplister, og den andre deltakeren fra Midtøsten etter Israels AI21-laboratorier. K2-V2 er den første MBZUAI-modellen vi har benchmarket, men laboratoriet har tidligere gitt ut modeller med særlig fokus på språkrepresentasjon, inkludert egyptisk arabisk og hindi
📊 Lavere resonneringsmoduser reduserer bruk av tokens og hallusinasjoner: K2-V2 har 3 resonnementmoduser, hvor High reasoning-modusen bruker hele ~130 millioner tokens for å fullføre vår Intelligensindeks. Imidlertid reduserer Medium-modusen token-bruken med ~6x med bare et 6 poeng fall i vår Intelligensindeks. Interessant nok scorer lavere resonnementsmoduser bedre i vår kunnskaps- og hallusinasjonsindeks, AA-Omniscience, på grunn av redusert tendens til hallusinasjoner

K2-V2 er en delt leder i åpenhet, og befinner seg på Pareto-grensen mellom åpenhet og intelligens

Modellen har sterk ytelse blant mellomstore (40-150B parametere) åpne vekt-modeller

High reasoning-modusen har betydelig token-bruk, men Medium reduserer token-bruken med ~6x med bare et 6-poengs fall i vår Intelligence Index

Lavere resonnementsmoduser presterer bedre i Artificial Analysis Omniscience Index, siden de hallusinerer mindre

Individuelle referanseresultater. Alle benchmarks har blitt kjørt like-for-like på tvers av modellene og uavhengig

Videre analyse av kunstig analyse:
HuggingFace-lenke 🤗 inkludert vekter, data, treningskode og teknisk rapport:
Innlegg av MBZUAI og IFM:
32,47K
Topp
Rangering
Favoritter
