Hôm nay, chúng tôi xin thông báo về Kosmos, nhà khoa học AI mới nhất của chúng tôi, hiện đã có thể sử dụng. Người dùng ước tính Kosmos thực hiện công việc của 6 tháng chỉ trong một ngày. Một lần chạy có thể đọc 1.500 tài liệu và viết 42.000 dòng mã. Ít nhất 79% các phát hiện của nó có thể tái tạo. Kosmos đã thực hiện 7 phát hiện cho đến nay, mà chúng tôi sẽ công bố hôm nay, trong các lĩnh vực từ khoa học thần kinh đến khoa học vật liệu và di truyền lâm sàng, với sự hợp tác của các beta tester học thuật của chúng tôi. Ba trong số những phát hiện này đã tái tạo các phát hiện chưa công bố; bốn là những đóng góp mới, đã được xác thực cho tài liệu khoa học. Khoa học được tăng tốc bởi AI đã đến. Đổi mới cốt lõi của chúng tôi trong Kosmos là việc sử dụng một mô hình thế giới có cấu trúc, được cập nhật liên tục. Như đã mô tả trong báo cáo kỹ thuật của chúng tôi, mô hình thế giới của Kosmos cho phép nó xử lý một lượng thông tin lớn hơn nhiều so với những gì có thể chứa trong bối cảnh của ngay cả những mô hình ngôn ngữ có bối cảnh dài nhất, cho phép nó tổng hợp nhiều thông tin hơn và theo đuổi các mục tiêu nhất quán trong khoảng thời gian dài hơn so với Robin hoặc bất kỳ tác nhân nào khác trước đây của chúng tôi. Trong khía cạnh này, chúng tôi tin rằng Kosmos là tác nhân ngôn ngữ tiêu tốn tính toán nhiều nhất được phát hành cho đến nay trong bất kỳ lĩnh vực nào, và là nhà khoa học AI có khả năng nhất hiện có. Việc sử dụng một mô hình thế giới liên tục cũng cho phép các quỹ đạo Kosmos đơn lẻ tạo ra các đầu ra rất phức tạp mà yêu cầu nhiều bước nhảy logic quan trọng. Như với tất cả các hệ thống của chúng tôi, Kosmos được thiết kế với sự minh bạch và khả năng xác minh trong tâm trí: mọi kết luận trong báo cáo của Kosmos có thể được truy tìm qua nền tảng của chúng tôi đến các dòng mã cụ thể hoặc các đoạn văn cụ thể trong tài liệu khoa học đã truyền cảm hứng cho nó, đảm bảo rằng các phát hiện của Kosmos luôn có thể được kiểm toán. Chúng tôi cũng đang sử dụng cơ hội này để thông báo về việc ra mắt Edison Scientific, một công ty con thương mại mới của FutureHouse, sẽ tập trung vào việc thương mại hóa các tác nhân của chúng tôi và áp dụng chúng để tự động hóa nghiên cứu khoa học trong phát hiện thuốc và hơn thế nữa. Edison sẽ tiếp quản việc quản lý nền tảng FutureHouse, nơi bạn có thể truy cập Kosmos cùng với các tác nhân Literature, Molecules và Precedent (trước đây là Crow, Phoenix và Owl). Edison sẽ tiếp tục cung cấp mức sử dụng miễn phí cho người dùng thông thường và học thuật, đồng thời cũng cung cấp giới hạn tỷ lệ cao hơn và các tính năng bổ sung cho những người dùng cần chúng. Bạn có thể đọc thêm về công ty con này trên blog của chúng tôi, bên dưới. Một vài lưu ý quan trọng nếu bạn định thử Kosmos. Đầu tiên, Kosmos khác với nhiều công cụ AI khác mà bạn có thể đã chơi, bao gồm cả các tác nhân khác của chúng tôi. Nó giống hơn với một công cụ Nghiên cứu Sâu hơn là một chatbot: nó cần một chút thời gian để tìm ra cách để yêu cầu nó một cách hiệu quả, và chúng tôi đã cố gắng bao gồm các hướng dẫn về điều này để giúp (xem bên dưới). Hiện tại, nó có giá 200 đô la cho mỗi lần chạy (200 tín dụng cho mỗi lần chạy, và 1 đô la/tín dụng), với một số mức sử dụng miễn phí cho các học giả. Đây là mức giá rất ưu đãi; những người đăng ký cho các Gói Đăng ký Sáng lập ngay bây giờ có thể khóa mức giá 1 đô la/tín dụng vô thời hạn, nhưng giá cuối cùng có thể sẽ cao hơn. Một lần nữa, đây không phải là chatbot mà là công cụ nghiên cứu, thứ bạn chạy trên các mục tiêu có giá trị cao khi cần. Một số caveats cũng cần được lưu ý. Đầu tiên, chúng tôi thấy rằng 80% các phát hiện của Kosmos có thể tái tạo, điều này cũng có nghĩa là 20% không thể - một số điều nó nói sẽ sai. Ngoài ra, Kosmos chắc chắn tạo ra các đầu ra tương đương với nhiều tháng lao động của con người, nhưng nó cũng thường đi vào những ngõ cụt hoặc theo đuổi những phát hiện có ý nghĩa thống kê nhưng không liên quan đến khoa học. Chúng tôi thường chạy Kosmos nhiều lần trên cùng một mục tiêu để lấy mẫu các con đường nghiên cứu khác nhau mà nó có thể đi. Vẫn còn một số vấn đề về giao diện người dùng và những thứ như vậy, mà chúng tôi đang làm việc để cải thiện. Cuối cùng, chúng tôi nhận thức rằng con số 6 tháng lớn hơn nhiều so với ước tính của các phòng thí nghiệm AI khác, như METR, về độ dài của các nhiệm vụ mà các tác nhân AI hiện có thể thực hiện. Bạn có thể đọc thảo luận về điều này trong bài viết trên blog của chúng tôi. Xin chúc mừng lớn đến đội ngũ của chúng tôi đã thực hiện điều này, do @ludomitch và @michaelathinks dẫn dắt: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. Một lời cảm ơn đặc biệt đến @m_skarlinski và đội ngũ của anh ấy đã xây dựng lại nền tảng cho lần ra mắt này, đặc biệt là Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 và nhiều người khác. Công việc này sẽ không thể thực hiện được nếu không có những đóng góp đáng kể từ các cộng tác viên học thuật @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani, và @RandallBateman3. Chúng tôi cũng muốn cảm ơn nhiều người ủng hộ của chúng tôi, đặc biệt là @ericschmidt, người đã là một đồng minh tuyệt vời. Chúng tôi sẽ có nhiều điều để nói về các nhà tài trợ của chúng tôi sớm!