哇,AI可以在阅读文档时学习吗? 来自Astera Institute、NVIDIA等的研究人员提出了一种新方法,将长上下文建模视为一个持续学习问题。 他们使用标准的Transformer,但它通过下一个标记预测实时“学习”文本,将上下文压缩到自己的参数中。 在扩展到长上下文方面,它的表现优于Mamba 2和Gated DeltaNet,同时在处理128K输入时比全注意力快2.7倍。 长上下文的端到端测试时间训练 论文: