Оглядываясь назад, трудно поверить, что никто не потрудился реализовать многослойную нейронную сеть с базовым стохастическим градиентным спуском еще в 1997 году на 3dfx Voodoo, за пару лет до появления первого GPU от Nvidia в 1999 году. Все элементы для создания крошечного LLM были в основном на месте.
Если бы вы могли показать, что это может генерировать фрагменты валидного английского языка, не входящие в обучающие данные, это могло бы привлечь достаточно внимания со стороны вычислительных лингвистов, чтобы они углубились в это. Возможно, мы могли бы достичь уровня вывода GPT-3 на годы раньше, даже если это стоило бы в 100 раз больше $/токен.
Я купил ту самую карту в 1998 году и использовал её для игры в GLQuake. Жаль, что вместо этого я не потратил время на изучение линейной алгебры и C++, потому что в то время уже интересовался нейронными сетями. Трудно вспомнить, насколько "коннекционистские" методы были не в моде в то время.
226