今天,我們宣布 Kosmos,我們最新的 AI 科學家,現在可以使用。 用戶估計 Kosmos 一天能完成 6 個月的工作。一個運行可以閱讀 1,500 篇論文並編寫 42,000 行代碼。至少 79% 的發現是可重現的。到目前為止,Kosmos 已經做出了 7 項發現,我們今天將其發布,涵蓋從神經科學到材料科學和臨床遺傳學的領域,並與我們的學術測試者合作。其中三項發現重現了未發表的結果;四項是對科學文獻的全新、經過驗證的貢獻。AI 加速的科學已經來臨。 Kosmos 的核心創新在於使用結構化、持續更新的世界模型。正如我們的技術報告中所描述的,Kosmos 的世界模型使其能夠處理比即使是最長上下文語言模型所能容納的更多信息,從而使其能夠綜合更多信息並在比 Robin 或我們其他任何先前代理更長的時間範圍內追求一致的目標。在這方面,我們相信 Kosmos 是迄今為止在任何領域中釋放的計算密集型語言代理,並且是當前最強大的 AI 科學家。使用持久的世界模型還使單個 Kosmos 軌跡能夠產生需要多次重大邏輯跳躍的高度複雜的輸出。與我們所有的系統一樣,Kosmos 的設計考慮了透明性和可驗證性:Kosmos 報告中的每一個結論都可以通過我們的平台追溯到具體的代碼行或啟發它的科學文獻中的具體段落,確保 Kosmos 的發現始終可以完全審計。 我們還利用這個機會宣布 Edison Scientific 的推出,這是 FutureHouse 的一個新的商業分支,將專注於商業化我們的代理並將其應用於自動化藥物發現及其他科學研究。Edison 將接管 FutureHouse 平台的管理,您可以在此訪問 Kosmos 以及我們的文獻、分子和先例代理(之前的 Crow、Phoenix 和 Owl)。Edison 將繼續為休閒用戶和學者提供免費的使用層級,同時為需要的用戶提供更高的速率限制和額外功能。您可以在我們的博客上閱讀更多有關這個分支的信息。 如果您打算嘗試 Kosmos,請注意幾個重要事項。首先,Kosmos 與您可能使用過的許多其他 AI 工具不同,包括我們的其他代理。它更像是一個深度研究工具,而不是聊天機器人:需要一些時間來弄清楚如何有效地提示它,我們已經嘗試提供指導來幫助(見下文)。目前每次運行的費用為 200 美元(每次運行 200 個積分,每個積分 1 美元),學者有一些免費的使用層級。這是大幅折扣;現在註冊創始訂閱的人可以無限期鎖定 1 美元/積分的價格,但最終價格可能會更高。再次強調,這不是聊天機器人,而是研究工具,您可以根據需要在高價值目標上運行。 還需要注意一些警告。首先,我們發現 80% 的 Kosmos 發現是可重現的,這也意味著 20% 不是——它所說的某些事情將是錯誤的。此外,Kosmos 確實產生的輸出相當於幾個月的人類勞動,但它也經常陷入無意義的統計顯著性發現。我們經常在同一目標上多次運行 Kosmos,以便採樣它可以採取的各種研究途徑。用戶界面等方面仍然有許多粗糙的邊緣,我們正在努力改進。最後,我們知道 6 個月的數字遠高於其他 AI 實驗室(如 METR)對 AI 代理目前能執行的任務長度的估計。您可以在我們的博客文章中閱讀有關此的討論。 對於我們的團隊表示衷心的祝賀,特別是 @ludomitch 和 @michaelathinks 領導的團隊:Angela Yiu、@benjamin0chang、@sidn137、Edwin Melville-Green、Albert Bou、@arvissulovari、Oz Wassie、@jonmlaurent。特別感謝 @m_skarlinski 和他的團隊重建了這個平台以便於此次發布,尤其是 Andy Cai @notAndyCai、Richard Magness、Remo Storni、Tyler Nadolski @_tnadolski、Mayk Caldas @maykcaldas、Sam Cox @samcox822 等人。 這項工作得以實現,離不開學術合作者 @mathieubourdenx、@EricLandsness、@bdanubius、@physicistnevans、Tonio Buonassisi、@BGomes_1905、Shriya Reddy、@marthafoiani 和 @RandallBateman3 的重要貢獻。 我們還要感謝我們眾多的支持者,特別是 @ericschmidt,他一直是我們的巨大盟友。我們將很快對我們的支持者有更多的發言!