Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tampaknya orang lain menyatu untuk menggunakan vllm v1 logprob untuk rasio kepentingan untuk memperbaiki masalah stabilitas.
Saya pikir saya memiliki ptsd dari jenis crash rl ini

18 jam lalu
Hanya dengan beberapa baris kode, perbaikan yang disarankan Feng (@fengyao1909) - menerapkan pengambilan sampel kepentingan pada kebijakan perilaku - menyelesaikan ketidakstabilan pelatihan dalam kasus saya (gandum). Saya percaya hasilnya dapat digeneralisasi ke kerangka kerja RL lainnya juga. Kerja bagus, Feng!

4,82K
Teratas
Peringkat
Favorit