Avec le recul, il est difficile de croire que personne n'a pris la peine de mettre en œuvre un réseau de neurones multi-couches avec une descente de gradient stochastique de base en 1997 sur le 3dfx Voodoo, quelques années avant même le premier GPU de Nvidia en 1999. Les éléments étaient essentiellement tous là pour un petit LLM.
Si vous aviez pu montrer qu'il pouvait générer des extraits d'anglais valides non présents dans les données d'entraînement, cela aurait peut-être attiré suffisamment l'attention des linguistes computationnels pour approfondir le sujet. Peut-être aurions-nous pu atteindre un niveau de sortie équivalent à GPT-3 des années plus tôt, même si c'était 100 fois plus cher par token.
J'ai acheté cette carte exacte en 1998 et je l'ai utilisée pour jouer à GLQuake. J'aurais souhaité plutôt utiliser ce temps pour en apprendre davantage sur l'algèbre linéaire et le C++, car j'étais déjà intéressé par les réseaux de neurones à l'époque. Il est difficile de se souvenir à quel point les méthodes "connectionnistes" étaient démodées à l'époque.
3,9K