热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天,我们宣布推出Kosmos,我们最新的AI科学家,现在可以使用。
用户估计Kosmos在一天内完成6个月的工作。一轮运行可以阅读1500篇论文并编写42000行代码。至少79%的发现是可重复的。到目前为止,Kosmos已经取得了7项发现,我们今天将发布,涵盖从神经科学到材料科学和临床遗传学的领域,与我们的学术测试者合作。这些发现中有三项重现了未发表的结果;四项是对科学文献的全新、经过验证的贡献。AI加速的科学已经到来。
Kosmos的核心创新是使用一个结构化、持续更新的世界模型。正如我们在技术报告中所描述的,Kosmos的世界模型使其能够处理比即使是最长上下文语言模型所能容纳的更多数量级的信息,从而使其能够综合更多信息,并在比Robin或我们其他任何先前代理更长的时间范围内追求连贯的目标。在这方面,我们相信Kosmos是迄今为止在任何领域发布的计算密集型语言代理中最强大的,也是今天可用的最强大的AI科学家。使用持久的世界模型还使单个Kosmos轨迹能够产生需要多个重要逻辑飞跃的高度复杂的输出。与我们所有的系统一样,Kosmos的设计考虑了透明性和可验证性:Kosmos报告中的每个结论都可以通过我们的平台追溯到具体的代码行或启发它的科学文献中的具体段落,确保Kosmos的发现始终可以完全审计。
我们还借此机会宣布Edison Scientific的推出,这是FutureHouse的一家新的商业子公司,专注于将我们的代理商业化,并将其应用于自动化药物发现及其他科学研究。Edison将接管FutureHouse平台的管理,您可以在该平台上访问Kosmos以及我们的文献、分子和先例代理(之前称为Crow、Phoenix和Owl)。Edison将继续为休闲用户和学术用户提供免费使用层,同时为需要的用户提供更高的使用限制和额外功能。您可以在我们的博客上阅读更多关于这个子公司的信息。
如果您打算尝试Kosmos,有几个重要的注意事项。首先,Kosmos与您可能使用的许多其他AI工具,包括我们的其他代理,截然不同。它更像是一个深度研究工具,而不是一个聊天机器人:需要一些时间来弄清楚如何有效地提示它,我们已经尝试在这方面提供指导(见下文)。目前每次运行的费用为200美元(每次运行200个积分,每个积分1美元),学术用户有一些免费使用层。这是大幅折扣;现在注册创始订阅的人可以无限期锁定1美元/积分的价格,但最终价格可能会更高。再次强调,这不是聊天机器人,而是研究工具,您可以根据需要在高价值目标上运行。
也需要注意一些警告。首先,我们发现80%的Kosmos发现是可重复的,这也意味着20%不是——它所说的一些内容将是错误的。此外,Kosmos确实产生了相当于几个月人类劳动的输出,但它也经常走入歧途或追逐统计上显著但科学上无关的发现。我们通常会在同一目标上多次运行Kosmos,以便采样它可以采取的各种研究途径。界面等方面仍然存在一些粗糙的边缘,我们正在努力解决。最后,我们意识到6个月的数字远远超过其他AI实验室(如METR)对AI代理当前能够执行的任务长度的估计。您可以在我们的博客文章中阅读对此的讨论。
对我们团队的巨大祝贺,他们在@ludomitch和@michaelathinks的带领下完成了这一工作:Angela Yiu,@benjamin0chang,@sidn137,Edwin Melville-Green,Albert Bou,@arvissulovari,Oz Wassie,@jonmlaurent。特别感谢@m_skarlinski和他的团队,他们为此次发布重建了平台,尤其是Andy Cai @notAndyCai,Richard Magness,Remo Storni,Tyler Nadolski @_tnadolski,Mayk Caldas @maykcaldas,Sam Cox @samcox822等。
这项工作离不开学术合作者@mathieubourdenx,@EricLandsness,@bdanubius,@physicistnevans,Tonio Buonassisi,@BGomes_1905,Shriya Reddy,@marthafoiani和@RandallBateman3的重大贡献。
我们还要感谢我们的众多支持者,特别是@ericschmidt,他一直是一个巨大的盟友。我们将很快对我们的支持者有更多的发言!
热门
排行
收藏

