En retrospectiva, es difícil creer que nadie se molestara en implementar una red neuronal de múltiples capas con un descenso de gradiente estocástico básico en 1997 en la 3dfx Voodoo, un par de años antes incluso del primer GPU de Nvidia en 1999. Las piezas estaban básicamente todas ahí para un pequeño LLM.
Si hubieras podido demostrar que podía generar fragmentos de inglés válido que no estaban en los datos de entrenamiento, eso podría haber llamado la atención suficiente de los lingüistas computacionales para profundizar más. Tal vez podríamos haber llegado a un nivel de salida de GPT-3 años antes, incluso si costaba 100 veces más $/token.
Compré esa tarjeta exacta en 1998 y la usé para jugar GLQuake. Ojalá en lugar de eso hubiera usado ese tiempo para aprender más álgebra lineal y C++, porque ya estaba interesado en redes neuronales en ese momento. Es difícil recordar lo fuera de moda que estaban los métodos "conexistas" en ese entonces.
3,89K