Иронично, что трансформеры рассматривают свое полное окно контекста как мешок токенов, полностью лишенный контекста. Мы используем позиционное кодирование, чтобы контекстуализировать порядок токенов. Но модели все еще постоянно путаются, какой токен был сказан кем. Почему нет кодирования источника?
Кто сказал, что это так же фундаментально для смысла, как и когда они это сказали. Что если мы закодируем в каждый токен источник, будь то система, разработчик, пользователь, сам модель, токены мышления модели, ненадежная третья сторона, конкретный инструмент...
Это более или менее 2D позиционное кодирование, где вертикальное измерение указывает на то, кто, а горизонтальное — на то, когда. Похоже, это сэкономит много нервов. Представьте, если бы голос каждого, включая ваш собственный и ваш внутренний монолог, звучал точно так же.
@wokohomo @Theurgistic Это и есть основная идея токенизатора, более или менее — в противном случае вы всегда будете обучаться непосредственно на простой линейной проекции сырых байтов.
30,79K