În mod ironic, transformatorii își văd întreaga fereastră de context ca pe o pungă de jetoane complet lipsite de context. Folosim codificarea pozițională pentru a contextualiza ordinea token-urilor. Dar modelele sunt încă în mod constant confuze cu privire la ce token a venit. De ce nu există codificare sursă?
Cine a spus ce este la fel de fundamental pentru sens ca atunci când l-a spus. Ce se întâmplă dacă am codifica într-un token sursa, fie că este de la sistem, dezvoltator, utilizator, modelul în sine, jetoanele de gândire ale modelului, o terță parte nesigură, un anumit instrument...
Aceasta este mai mult sau mai puțin o codificare pozițională 2D în care dimensiunea verticală indică cine și orizontala indică când. Se pare că ar scuti o mulțime de dureri de cap. Imaginați-vă dacă vocea tuturor, inclusiv a voastră și a voastră monolog interior, ar suna exact la fel.
@wokohomo @Theurgistic Acesta este întregul scop al tokenizatorului, mai mult sau mai puțin - altfel te-ai antrena întotdeauna direct pe o simplă proiecție liniară a octeților bruti.
30,78K