Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Onafhankelijke analyse van AI-modellen en hostingproviders - kies het beste model en de beste API-provider voor uw use-case
Artificial Analysis is in de nieuwste aflevering van @latentspacepod met @Swyx
Oprichters @_micah_h en @grmcameron bespreken:
➤ Oorsprongsverhaal van Artificial Analysis
➤ De staat van AI-benchmarking
➤ Onze nieuwste benchmarks, waaronder AA-Omniscience, GDPval-AA en Openness Index
Link hieronder!

105
TII, een AI-lab van een universiteit in de VAE, heeft Falcon-H1R-7B uitgebracht, een klein open gewichten redeneer model dat goed vergelijkbaar is met modellen van een vergelijkbare grootte
🧠 Sterke intelligentiescore onder <12B modellen: Falcon-H1R-7B scoort 16 op onze bijgewerkte Artificial Analysis Intelligence Index v4.0 - voor op NVIDIA Nemotron Nano 12B V2, maar onder Qwen3 VL 8B. Het model is goed gepositioneerd op de Pareto-grens voor Intelligentie versus Totaal Aantal Parameters voor vergelijkbare modellen. Ten opzichte van andere modellen <12B presteert Falcon-H1R-7B bijzonder goed in 3 individuele evaluaties - Humanity’s Last Exam (redeneren en kennis), 𝜏²-Bench Telecom (agentic tool gebruik), en IFBench (instructie opvolging)
🇦🇪 Tweede VAE leaderboard deelnemer: Na MBZUAI’s K2-V2 is Falcon-H1R-7B het tweede model van een VAE-gebaseerde organisatie op onze leaderboards, temidden van een zee van Amerikaanse en Chinese modellen. Opgericht door de regering van Abu Dhabi, is het Technology Innovation Institute (TII) een wereldwijd onderzoekscentrum wiens missie is om de grenzen van kennis te verleggen, en is actief op meerdere gebieden, waaronder energie, kwantumtechnologie en cryptografie. Ze hebben meer dan 100 open gewichten modellen en varianten op Huggingface
📖 Gematigd open model: Falcon-H1R-7B scoort 44 in de Artificial Analysis Openness Index - onze nieuw vrijgegeven, gestandaardiseerde, onafhankelijk beoordeelde maatstaf voor de openheid van AI-modellen op het gebied van beschikbaarheid en transparantie. Dit plaatst het voor op OpenAI’s gpt-oss-20B, maar achter Qwen3 VL8B. Onze meest open modellen, van MBZUAI en Allen Institute for AI, delen de leaderboard op 89, gedreven door grotere transparantie en toegang tot hun trainingsmethodologie en data
📈 Hoge output tokens: Het model gebruikte 140M tokens om onze Intelligence Index te voltooien. Dit plaatst het onder GLM-4.7, maar hoger dan de meeste andere modellen - zowel in zijn groottecategorie als onder frontier modellen
📘 Verwachte kennis voor zijn grootte, gematigde hallucinatiegraad: AA-Omniscience is onze nieuw vrijgegeven benchmark die feitelijke kennis en hallucinatie van modellen meet. Falcon-H1R-7B ontvangt een gematigde score van -62. Zijn kennisnauwkeurigheidsscore (14) ligt binnen de verwachtingen, gezien we een sterke correlatie zien tussen modelgrootte en nauwkeurigheid (hoeveel feiten het model correct herinnert). Het model hallucineert 87% van de tijd wanneer het antwoorden niet correct herinnert - een gematigde score onder frontier modellen en kleine open gewichten modellen alike
Gefeliciteerd met de lancering @TIIuae !

9,78K
Boven
Positie
Favorieten

