TII, лабораторія штучного інтелекту університету в ОАЕ, випустила Falcon-H1R-7B — невелику модель відкритих ваг, яка добре порівнюється з моделями подібного розміру 🧠 Високий показник інтелекту серед моделей <12B: Falcon-H1R-7B отримує 16 балів за нашим оновленим індексом інтелекту штучного аналізу v4.0 — випереджаючи NVIDIA Nemotron Nano 12B V2, але нижче Qwen3 VL 8B. Модель добре позиціонується на межі Парето для інтелекту проти загальних параметрів для порівнянних моделей. Порівняно з іншими моделями <12B, Falcon-H1R-7B особливо добре працює у трьох окремих оцінках — Human's Last Exam (міркування та знання), τ²-Bench Telecom (використання агентного інструменту) та IFBench (виконання інструкцій) 🇦🇪 Другий учасник таблиці лідерів ОАЕ: Після K2-V2 від MBZUAI, Falcon-H1R-7B став другою моделлю від організації з ОАЕ на наших таблицях лідерів серед моря американських і китайських моделей. Заснований урядом Абу-Дабі, Інститут технологічних інновацій (TII) — це глобальний дослідницький центр, місія якого — розширювати межі знань, і який працює у багатьох сферах, включно з енергетикою, квантовими технологіями та криптографією. У них понад 100 відкритих моделей і варіантів Huggingface 📖 Помірно відкрита модель: Falcon-H1R-7B отримує 44 бали в Індексі відкритості штучного аналізу — нашому нововипущеному, стандартизованому, незалежно оціненому показнику відкритості моделі ШІ за доступністю та прозорістю. Це ставить її попереду gpt-oss-20B від OpenAI, але позаду Qwen3 VL8B. Наші найвідкритіші моделі, від MBZUAI та Allen Institute for AI, зрівняються з лідерами на 89-му місці, завдяки більшій прозорості та доступу до їхньої методології навчання та даних 📈 Токени з високим виходом: Модель використовувала 140 мільйонів токенів для завершення нашого Індексу Інтелекту. Це ставить його нижче за GLM-4.7, але вище за більшість інших моделей — як у категорії розмірів, так і серед моделей Frontier 📘 Очікувані знання для розміру, помірний рівень галюцинацій: AA-Omniscience — наш нещодавно випущений бенчмарк, що вимірює фактичні знання та галюцинації моделей. Falcon-H1R-7B отримує помірний бал -62. Її показник точності знань (14) відповідає очікуванням, оскільки ми бачимо сильну кореляцію між розміром моделі та точністю (скільки фактів модель правильно запам'ятовує). Модель бачить галюцинації у 87% випадків, коли неправильно запам'ятовує відповіді — помірний бал як серед моделей фронтиру, так і для моделей з малими відкритими вагами Вітаємо з запуском @TIIuae!
Falcon-H1R-7B — друга модель компанії з ОАЕ у наших лідербордах, серед моря американських і китайських моделей
Falcon-H1R-7B має середній бал у Індексі відкритості штучного аналізу
Модель використовувала 140M токенів для завершення нашого Індексу Інтелекту — нижче GLM-4.7, але вище за більшість інших моделей
Falcon-H1R-7B отримує помірний бал за AA-Omniscience, з очікуваними знаннями щодо розміру та помірною частотою галюцинацій
Порівняно з аналогічними моделями, Falcon-H1R-7B добре показує результати у Human's Last Exam (мислення та знання), τ²-Bench Telecom (використання агентних інструментів) та IFBench (виконання інструкцій)
Подальший аналіз штучного аналізу: Посилання на Hugging Face 🤗: Технічний звіт:
32,17K