Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA'dan harika bir kağıt.
Genel amaçlı akıl yürütme modellerini RL ile eğitmek karmaşıktır.
Farklı alan alanlarının yanıt süreleri ve doğrulama süreleri çok farklıdır. Matematik hızlı sembolik doğrulama kullanır. Kod, yavaş yürütme tabanlı doğrulama gerektirir. Hizalama ödül modeli puanları gerektirir.
Tüm bu heterojen istemleri bir arada birleştirmek altyapıyı karmaşık hale getirir, eğitimi yavaşlatır ve hiperparametre ayarlamasını zorlaştırır.
Bu yeni araştırma, modelleri her şeyi karıştırmak yerine alanlar arasında ardışık olarak eğiten Cascade RL adlı bir çerçeveyi tanıtıyor. Önce hizalama için RLHF, sonra komut takip RL, sonra matematik RL, ardından kod RL, ardından yazılım mühendisliği RL.
Bu ardışık yaklaşım, felaket unutmaya karşı dirençlidir. Gerçek hayatta model kendi deneyimini üretir, bu yüzden eski davranışlar ödülle ilgili kalırsa kalır. Önceki verilerin kaybolduğu denetimli öğrenmenin aksine, RL tam hedeflere uymak yerine kümülatif ödülü optimize eder.
RLHF, bir adım öncesi olarak, sadece tercih optimizasyonunun ötesinde akıl yürütme yeteneğini artırıyor, çünkü çok fazla ayrıntı ve tekrarı azaltıyor. Sonraki alana özgü RL aşamaları nadiren önceki performansı zayıflatır ve hatta iyileştirebilir.
İşte sonuçlar:
14B modeli, LiveCodeBench v5/v6/Pro'da kendi SFT öğretmeni DeepSeek-R1-0528 (671B)'yi geride bırakıyor. Nemotron-Cascade-8B, LiveCodeBench v6'da %71,1 oranına ulaşıyor; DeepSeek-R1-0528 ile %73,3 ile karşılaştırılabilir, ancak 84 kat daha küçük oluyor. 14B modeli, IOI 2025'te gümüş madalya performansı elde etti.
Ayrıca, birleşik akıl yürütme modellerinin hem düşünme hem de düşünme modlarında etkili çalışabildiğini, özel düşünme modelleriyle farkı kapatarak her şeyi tek bir modelde tutabileceğini göstermektedirler.
Makale:
Akademimizde etkili AI Ajanları oluşturmayı öğrenin:

En İyiler
Sıralama
Takip Listesi
