Ironiquement, les transformateurs voient leur fenêtre de contexte entière comme un sac de jetons totalement dépourvu de contexte. Nous utilisons l'encodage positionnel pour contextualiser l'ordre des jetons. Mais les modèles sont toujours constamment confus sur quel jeton a été dit par qui. Pourquoi pas d'encodage source ?
Qui a dit quoi est aussi fondamental pour le sens que quand ils l'ont dit. Que se passerait-il si nous encodions dans chaque jeton la source, que ce soit du système, du développeur, de l'utilisateur, du modèle lui-même, des jetons de pensée du modèle, d'un tiers non fiable, d'un outil particulier…
C'est plus ou moins un encodage positionnel 2D où la dimension verticale indique qui et l'horizontale indique quand. On dirait que cela pourrait éviter beaucoup de maux de tête. Imaginez si la voix de tout le monde, y compris la vôtre et votre monologue intérieur, sonnait exactement de la même manière.
@wokohomo @Theurgistic C'est tout l'intérêt du tokenizer, plus ou moins — sinon vous entraîneriez toujours directement sur une simple projection linéaire des octets bruts.
31,2K