Ironicamente, os transformers veem toda a sua janela de contexto como um saco de tokens totalmente desprovidos de contexto. Usamos codificação posicional para contextualizar a ordem dos tokens. Mas os modelos ainda estão constantemente confusos sobre qual token foi dito por quem. Por que não há codificação de origem?
Quem disse o quê é tão fundamental para o significado quanto quando o disseram. E se codificássemos em cada token a fonte, seja do sistema, do desenvolvedor, do usuário, do próprio modelo, dos tokens de pensamento do modelo, de um terceiro não confiável, de uma ferramenta particular...
Isto é mais ou menos uma codificação posicional 2D onde a dimensão vertical indica quem e a horizontal indica quando. Parece que isso economizaria muitas dores de cabeça. Imagine se a voz de todos, incluindo a sua e o seu monólogo interno, soasse exatamente igual.
@wokohomo @Theurgistic Este é o ponto principal do tokenizer, mais ou menos — caso contrário, você sempre treinaria diretamente em uma projeção linear simples dos bytes brutos.
30,77K