Ironiskt nog ser transformatorer hela sitt kontextfönster som en påse med tokens som helt saknar sammanhang. Vi använder positionskodning för att kontextualisera ordningen på tokens. Men modeller är fortfarande ständigt förvirrade över vilken token som kom och sa av vem. Varför ingen källkodskodning?
Vem som sa vad är ungefär lika grundläggande för mening som när de sa det. Vad skulle hända om vi kodade till varje en token källan, oavsett om det är från systemet, utvecklaren, användaren, själva modellen, modellens tänkande tokens, en opålitlig 3:e part, ett visst verktyg ...
Detta är mer eller mindre en 2D-positionskodning där den vertikala dimensionen anger vem och den horisontella anger när. Det verkar som om det skulle spara mycket huvudvärk. Föreställ dig att allas röster, inklusive din egen och din inre monolog, lät exakt likadant.
@wokohomo @Theurgistic Detta är hela poängen med tokenizern, mer eller mindre – annars skulle du alltid träna direkt på en enkel linjär projektion av råbyten.
30,78K