TII, một phòng thí nghiệm AI thuộc một trường đại học ở UAE, đã phát hành Falcon-H1R-7B, một mô hình lý luận với trọng số nhỏ mở mà so sánh tốt với các mô hình có kích thước tương tự 🧠 Điểm số trí tuệ mạnh trong số các mô hình <12B: Falcon-H1R-7B đạt 16 trong Chỉ số Phân tích Trí tuệ Nhân tạo v4.0 được cập nhật của chúng tôi - đứng trước NVIDIA Nemotron Nano 12B V2, nhưng thấp hơn Qwen3 VL 8B. Mô hình này được định vị tốt trên biên Pareto cho Trí tuệ so với Tổng số Tham số cho các mô hình tương đương. So với các mô hình khác <12B, Falcon-H1R-7B hoạt động đặc biệt tốt trong 3 đánh giá cá nhân - Kỳ thi Cuối cùng của Nhân loại (lý luận và kiến thức), 𝜏²-Bench Telecom (sử dụng công cụ tác động), và IFBench (tuân theo hướng dẫn) 🇦🇪 Người tham gia bảng xếp hạng UAE thứ hai: Sau K2-V2 của MBZUAI, Falcon-H1R-7B là mô hình thứ hai từ một tổ chức có trụ sở tại UAE trên bảng xếp hạng của chúng tôi, giữa một biển các mô hình của Mỹ và Trung Quốc. Được thành lập bởi chính phủ Abu Dhabi, Viện Đổi mới Công nghệ (TII) là một trung tâm nghiên cứu toàn cầu có sứ mệnh mở rộng ranh giới của tri thức, và hoạt động trên nhiều lĩnh vực bao gồm năng lượng, công nghệ lượng tử và mật mã. Họ có hơn 100 mô hình và biến thể trọng số mở trên Huggingface 📖 Mô hình mở vừa phải: Falcon-H1R-7B đạt 44 trong Chỉ số Mở của Phân tích Trí tuệ Nhân tạo - thước đo mới được phát hành, tiêu chuẩn hóa, đánh giá độc lập về độ mở của mô hình AI dựa trên tính khả dụng và tính minh bạch. Điều này đặt nó đứng trước gpt-oss-20B của OpenAI, nhưng đứng sau Qwen3 VL8B. Các mô hình mở nhất của chúng tôi, bởi MBZUAI và Viện Allen cho AI, đồng hạng trên bảng xếp hạng với 89, được thúc đẩy bởi tính minh bạch lớn hơn và quyền truy cập vào phương pháp đào tạo và dữ liệu của họ 📈 Số lượng token đầu ra cao: Mô hình đã sử dụng 140 triệu token để hoàn thành Chỉ số Trí tuệ của chúng tôi. Điều này xếp nó dưới GLM-4.7, nhưng cao hơn hầu hết các mô hình khác - cả trong danh mục kích thước của nó và trong số các mô hình tiên phong 📘 Kiến thức dự kiến cho kích thước của nó, tỷ lệ ảo hóa vừa phải: AA-Omniscience là thước đo mới được phát hành của chúng tôi đo lường kiến thức thực tế và ảo hóa của các mô hình. Falcon-H1R-7B nhận được điểm số vừa phải là -62. Điểm số chính xác về kiến thức của nó (14) nằm trong kỳ vọng, vì chúng tôi thấy có mối tương quan mạnh giữa kích thước mô hình và độ chính xác (bao nhiêu sự thật mà mô hình nhớ chính xác). Mô hình ảo hóa 87% thời gian khi nó không nhớ đúng câu trả lời - một điểm số vừa phải trong số các mô hình tiên phong và các mô hình trọng số mở nhỏ Chúc mừng về việc ra mắt @TIIuae !
Falcon-H1R-7B là mẫu thứ hai từ một công ty có trụ sở tại UAE trong bảng xếp hạng của chúng tôi, giữa một biển các mẫu từ Mỹ và Trung Quốc.
Falcon-H1R-7B có điểm số trung bình trong Chỉ số Mở của Phân tích Nhân tạo
Mô hình đã sử dụng 140 triệu token để hoàn thành Chỉ số Trí tuệ của chúng tôi - thấp hơn GLM-4.7, nhưng cao hơn hầu hết các mô hình khác.
Falcon-H1R-7B nhận được điểm số trung bình trong AA-Omniscience, với kiến thức dự kiến cho kích thước của nó và tỷ lệ ảo giác trung bình.
So với các mô hình tương đương, Falcon-H1R-7B hoạt động tốt trong Kỳ Thi Cuối Cùng của Nhân Loại (lập luận và kiến thức), 𝜏²-Bench Telecom (sử dụng công cụ có tính chủ động), và IFBench (tuân theo hướng dẫn)
Phân tích thêm về Phân tích Nhân tạo: Liên kết Hugging Face 🤗: Báo cáo kỹ thuật:
23,53K