Tampaknya orang lain menyatu untuk menggunakan vllm v1 logprob untuk rasio kepentingan untuk memperbaiki masalah stabilitas. Saya pikir saya memiliki ptsd dari jenis crash rl ini
Zichen Liu
Zichen Liu18 jam lalu
Hanya dengan beberapa baris kode, perbaikan yang disarankan Feng (@fengyao1909) - menerapkan pengambilan sampel kepentingan pada kebijakan perilaku - menyelesaikan ketidakstabilan pelatihan dalam kasus saya (gandum). Saya percaya hasilnya dapat digeneralisasi ke kerangka kerja RL lainnya juga. Kerja bagus, Feng!
4,82K