Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya menjadi semakin yakin bahwa RL dan teknik serupa hanya menemukan kembali bagaimana manusia belajar.
Pikirkan tentang itu:
Pertama, model telah dilatih sebelumnya pada bahasa formal (pada dasarnya aturan tata bahasa bebas konteks) yang menghasilkan "subnet sintaksis" dalam model.
Di atas subnet ini, "bahasa nyata" (kumpulan data internet) kemudian ditumpangkan dalam pelatihan model aktual (dalam konteks bahasa formal ini pada dasarnya disebut tata bahasa tanpa batas)
Tapi kemudian... Ini adalah cara yang sama bayi manusia belajar bahasa, bukan?
Kami datang "pra-terlatih" dengan subnet sintaksis untuk memahami bentuk dasar bahasa (irama transfer informasi, proto-tata bahasa) dan kemudian "memaksakan" bahasa aktual yang kita pelajari di atasnya.
Hal-hal yang menarik!
Teratas
Peringkat
Favorit
