Heute kündigen wir Kosmos an, unseren neuesten AI Scientist, der jetzt verfügbar ist. Benutzer schätzen, dass Kosmos in einem einzigen Tag 6 Monate Arbeit erledigt. Ein Durchlauf kann 1.500 Arbeiten lesen und 42.000 Zeilen Code schreiben. Mindestens 79 % seiner Ergebnisse sind reproduzierbar. Kosmos hat bisher 7 Entdeckungen gemacht, die wir heute veröffentlichen, in Bereichen von Neurowissenschaften bis Materialwissenschaft und klinischer Genetik, in Zusammenarbeit mit unseren akademischen Beta-Testern. Drei dieser Entdeckungen reproduzierten unveröffentlichte Ergebnisse; vier sind neue, validierte Beiträge zur wissenschaftlichen Literatur. AI-beschleunigte Wissenschaft ist hier. Unsere Kerninnovation in Kosmos ist die Verwendung eines strukturierten, kontinuierlich aktualisierten Weltmodells. Wie in unserem technischen Bericht beschrieben, ermöglicht es Kosmos' Weltmodell, Größenordnungen mehr Informationen zu verarbeiten, als in den Kontext selbst der längsten Sprachmodelle passen könnten, was es ihm ermöglicht, mehr Informationen zu synthetisieren und kohärente Ziele über längere Zeiträume zu verfolgen als Robin oder einer unserer anderen vorherigen Agenten. In dieser Hinsicht glauben wir, dass Kosmos der rechenintensivste Sprachagent ist, der bisher in irgendeinem Bereich veröffentlicht wurde, und bei weitem der fähigste AI Scientist, der heute verfügbar ist. Die Verwendung eines persistierenden Weltmodells ermöglicht es auch, dass einzelne Kosmos-Trajektorien hochkomplexe Ausgaben erzeugen, die mehrere signifikante logische Sprünge erfordern. Wie bei all unseren Systemen wurde Kosmos mit Transparenz und Überprüfbarkeit im Hinterkopf entwickelt: Jede Schlussfolgerung in einem Kosmos-Bericht kann über unsere Plattform bis zu den spezifischen Codezeilen oder den spezifischen Passagen in der wissenschaftlichen Literatur zurückverfolgt werden, die sie inspiriert haben, was sicherstellt, dass die Ergebnisse von Kosmos jederzeit vollständig überprüfbar sind. Wir nutzen auch diese Gelegenheit, um die Gründung von Edison Scientific anzukündigen, einem neuen kommerziellen Spinout von FutureHouse, das sich darauf konzentrieren wird, unsere Agenten zu kommerzialisieren und sie zur Automatisierung wissenschaftlicher Forschung in der Arzneimittelentdeckung und darüber hinaus anzuwenden. Edison wird die Verwaltung der FutureHouse-Plattform übernehmen, auf der Sie Kosmos zusammen mit unseren Literatur-, Moleküle- und Präzedenzagenten (früher Crow, Phoenix und Owl) nutzen können. Edison wird weiterhin kostenlose Nutzung für Gelegenheitsbenutzer und Akademiker anbieten, während auch höhere Nutzungslimits und zusätzliche Funktionen für Benutzer angeboten werden, die sie benötigen. Sie können mehr über diesen Spinout in unserem Blog unten lesen. Einige wichtige Hinweise, wenn Sie Kosmos ausprobieren möchten. Erstens, Kosmos ist anders als viele andere AI-Tools, mit denen Sie möglicherweise gespielt haben, einschließlich unserer anderen Agenten. Es ist ähnlicher zu einem Deep Research-Tool als zu einem Chatbot: Es dauert eine Weile, um herauszufinden, wie man es effektiv anregt, und wir haben versucht, Richtlinien dazu beizufügen, um zu helfen (siehe unten). Es kostet derzeit 200 $/Durchlauf (200 Credits pro Durchlauf und 1 $/Credit), mit etwas kostenloser Nutzung für Akademiker. Dies ist stark rabattiert; Personen, die sich jetzt für Gründungsabonnements anmelden, können den Preis von 1 $/Credit auf unbestimmte Zeit sichern, aber der Preis wird letztendlich wahrscheinlich höher sein. Nochmals, dies ist weniger ein Chatbot und mehr ein Forschungstool, etwas, das Sie nach Bedarf auf hochpriorisierte Ziele anwenden. Einige Vorbehalte sind ebenfalls angebracht. Erstens stellen wir fest, dass 80 % der Ergebnisse von Kosmos reproduzierbar sind, was auch bedeutet, dass 20 % es nicht sind – einige Dinge, die es sagt, werden falsch sein. Außerdem produziert Kosmos sicherlich Ausgaben, die dem Äquivalent von mehreren Monaten menschlicher Arbeit entsprechen, aber es geht auch oft in Sackgassen oder verfolgt statistisch signifikante, aber wissenschaftlich irrelevante Ergebnisse. Wir führen Kosmos oft mehrere Male mit demselben Ziel aus, um die verschiedenen Forschungsansätze zu sampeln, die es verfolgen kann. Es gibt immer noch einige grobe Kanten in der Benutzeroberfläche und so weiter, an denen wir arbeiten. Schließlich sind wir uns bewusst, dass die 6-Monats-Zahl viel höher ist als die Schätzungen anderer AI-Labore, wie METR, über die Länge der Aufgaben, die AI-Agenten derzeit ausführen können. Sie können darüber in unserem Blogbeitrag diskutieren. Herzlichen Glückwunsch an unser Team, das dies zusammengestellt hat, geleitet von @ludomitch und @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. Ein besonderer Dank geht an @m_skarlinski und sein Team, das die Plattform für diesen Start neu aufgebaut hat, insbesondere Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 und viele mehr. Diese Arbeit wäre ohne bedeutende Beiträge von akademischen Mitarbeitern @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani und @RandallBateman3 nicht möglich gewesen. Wir möchten auch unseren zahlreichen Unterstützern danken, insbesondere @ericschmidt, der ein großartiger Verbündeter war. Wir werden bald mehr über unsere Unterstützer sagen!