Jälkikäteen ajateltuna on vaikea uskoa, että kukaan ei vaivautunut toteuttamaan monikerroksista hermoverkkoa, jossa on stokastinen gradienttilasku vuonna 1997 3dfx Voodoossa, pari vuotta ennen jopa Nvidian ensimmäistä GPU:ta vuonna 1999. Palaset olivat periaatteessa kaikki siellä pientä LLM:ää varten.
Jos olisit voinut osoittaa, että se voisi tuottaa pätkiä kelvollista englantia, joka ei ole koulutustiedoissa, se olisi saattanut saada tarpeeksi huomiota laskennallisilta kielitieteilijöiltä kaivautuakseen lisää. Ehkä olisimme voineet päästä GPT-3-tasolle vuosia aiemmin, vaikka se olisi ollut 100 kertaa enemmän $/token
Ostin juuri tuon kortin vuonna 1998 ja käytin sitä GLQuaken pelaamiseen. Toivon, että olisin sen sijaan käyttänyt tuon ajan oppiakseni lisää lineaarista algebraa ja C++:aa, koska olin jo tuolloin kiinnostunut neuroverkoista. On vaikea muistaa, kuinka epämuodissa "konnektionistiset" menetelmät olivat tuohon aikaan.
228