Irónicamente, los transformadores ven toda su ventana de contexto como una bolsa de tokens que carece por completo de contexto. Usamos codificación posicional para contextualizar el orden de los tokens. Pero los modelos todavía están constantemente confundidos sobre qué token vino y quién lo dijo. ¿Por qué no hay codificación de fuente?
¿Quién dijo qué es tan fundamental para el significado como cuando lo dijo? ¿Qué pasaría si codificáramos en cada uno un token la fuente, ya sea del sistema, el desarrollador, el usuario, el modelo en sí, los tokens de pensamiento del modelo, un tercero no confiable, una herramienta en particular...
Esta es más o menos una codificación posicional 2D donde la dimensión vertical indica quién y la horizontal indica cuándo. Parece que ahorraría muchos dolores de cabeza. Imagínese si la voz de todos, incluida la suya y su monólogo interior, sonara exactamente igual.
@wokohomo @Theurgistic Este es el objetivo del tokenizador, más o menos, de lo contrario, siempre entrenaría directamente en una proyección lineal simple de los bytes sin procesar.
30.78K