Dalam retrospeksi, sulit dipercaya bahwa tidak ada yang repot-repot mengimplementasikan jaringan saraf multi-layer dengan penurunan gradien stokastik dasar pada tahun 1997 pada 3dfx Voodoo, beberapa tahun sebelum GPU pertama Nvidia pada tahun 1999. Potongan-potongan itu pada dasarnya ada di sana untuk LLM kecil.
Jika Anda bisa menunjukkan bahwa itu dapat menghasilkan cuplikan bahasa Inggris yang valid yang tidak ada dalam data pelatihan, itu mungkin mendapat perhatian yang cukup dari ahli bahasa komputasi untuk menggali lebih banyak. Mungkin kita bisa mencapai output level GPT-3 bertahun-tahun sebelumnya, bahkan jika itu 100x lebih banyak $/token
Saya membeli kartu yang tepat itu pada tahun 1998 dan menggunakannya untuk memainkan GLQuake. Seandainya saya malah menggunakan waktu itu untuk mempelajari lebih banyak aljabar linier dan C++, karena saya sudah tertarik dengan jaringan saraf pada saat itu. Sulit untuk mengingat betapa ketinggalan mode metode "koneksionis" pada saat itu.
3,89K