蛋白质语言模型刚刚升级。介绍 Profluent-E1:一个免费的、灵活的、前沿的蛋白质序列编码器。 E1 采用检索增强技术,从多个序列中学习。经过超过 4T 令牌训练的模型,参数仅为 150M-600M,E1 在零-shot 功能和无监督结构任务中处于 SOTA 水平。它提升了蛋白质表示学习的标准,并且今天可以免费获得。