DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

METR %100 "güvenli" değil ama en değerli kıyaslamalardan biri olmaya devam ediyor çünkü yetkin ve iyi kaynaklara sahip bir ekip tarafından yönetiliyor; bu ekip, eğitim için kamuya açık olmayan birçok farklı görevi içeriyor. Diğer kıyaslamalar, AI'ların cevapları önceden bilmesi (özel tutma setleriyle çözülür) veya görevlerde gerçek anlamda (çeşitli görevlerin olması ile çözülür) tarafından 'oyunlaştırılabilir'. ... Benchmarklar bazı açılardan da karışık olabilir (örneğin, "SWE-Bench Verified" öncesi orijinal SWE-Bench yanlışlıkla çözülemeyen bazı sorunlar yaşanmış). Bence farklı kıyaslamalar seviyelere uyuyor bence. METR, altın standart bir Tier 1 değerlendirmesi gibi hissettiriyor. ARC-AGI ve FrontierMath da o kadar kötü değil, muhtemelen Tier 2 gibi. SWE-Bench, zaten METR'iniz olduğunda biraz daha az önemli görünüyor. Matematik ve mühendislik dışında daha fazla üst düzey kıyasa ihtiyacım var. ARC-AGI-3 (video oyunları olan) için heyecanlıyım.

En İyiler

Sıralama

Takip Listesi