Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR %100 "güvenli" değil ama en değerli kıyaslamalardan biri olmaya devam ediyor çünkü yetkin ve iyi kaynaklara sahip bir ekip tarafından yönetiliyor; bu ekip, eğitim için kamuya açık olmayan birçok farklı görevi içeriyor.
Diğer kıyaslamalar, AI'ların cevapları önceden bilmesi (özel tutma setleriyle çözülür) veya görevlerde gerçek anlamda (çeşitli görevlerin olması ile çözülür) tarafından 'oyunlaştırılabilir'. ... Benchmarklar bazı açılardan da karışık olabilir (örneğin, "SWE-Bench Verified" öncesi orijinal SWE-Bench yanlışlıkla çözülemeyen bazı sorunlar yaşanmış).
Bence farklı kıyaslamalar seviyelere uyuyor bence. METR, altın standart bir Tier 1 değerlendirmesi gibi hissettiriyor. ARC-AGI ve FrontierMath da o kadar kötü değil, muhtemelen Tier 2 gibi. SWE-Bench, zaten METR'iniz olduğunda biraz daha az önemli görünüyor. Matematik ve mühendislik dışında daha fazla üst düzey kıyasa ihtiyacım var. ARC-AGI-3 (video oyunları olan) için heyecanlıyım.
En İyiler
Sıralama
Takip Listesi
