Các mô hình ngôn ngữ protein vừa được nâng cấp. Gặp gỡ Profluent-E1: một bộ mã hóa chuỗi protein miễn phí, linh hoạt và tiên tiến. E1 được xây dựng với việc tăng cường truy xuất để học từ nhiều chuỗi khác nhau. Các mô hình được đào tạo trên 4T token với chỉ 150M-600M tham số, E1 là SOTA cho các nhiệm vụ chức năng không giám sát và cấu trúc không giám sát. Nó nâng cao tiêu chuẩn cho việc học đại diện protein và hiện đã có sẵn miễn phí.