Nhìn lại, thật khó để tin rằng không ai bận tâm triển khai một mạng nơ-ron đa lớp với phương pháp giảm dần ngẫu nhiên cơ bản vào năm 1997 trên 3dfx Voodoo, chỉ vài năm trước khi GPU đầu tiên của Nvidia ra mắt vào năm 1999. Tất cả các mảnh ghép cơ bản đều đã có sẵn cho một LLM nhỏ.
Nếu bạn có thể chứng minh rằng nó có thể tạo ra các đoạn văn tiếng Anh hợp lệ không có trong dữ liệu đào tạo, điều đó có thể đã thu hút đủ sự chú ý từ các nhà ngôn ngữ học tính toán để họ đào sâu hơn. Có thể chúng ta đã có thể đạt được đầu ra ở cấp độ GPT-3 sớm hơn nhiều năm, ngay cả khi nó tốn 100 lần nhiều $/token.
Tôi đã mua chính cái thẻ đó vào năm 1998 và đã sử dụng nó để chơi GLQuake. Giá mà tôi đã sử dụng thời gian đó để học thêm về đại số tuyến tính và C++, vì tôi đã quan tâm đến mạng nơ-ron vào thời điểm đó. Thật khó để nhớ rằng các phương pháp "kết nối" đã lỗi thời như thế nào vào thời điểm đó.
3,9K