Idag presenterar vi Kosmos, vår senaste AI Scientist, som är tillgänglig för användning nu. Användare uppskattar att Kosmos gör 6 månaders arbete på en enda dag. En körning kan läsa 1 500 papper och skriva 42 000 rader kod. Minst 79 % av dess resultat är reproducerbara. Kosmos har hittills gjort 7 upptäckter, som vi släpper idag, inom områden som sträcker sig från neurovetenskap till materialvetenskap och klinisk genetik, i samarbete med våra akademiska betatestare. Tre av dessa upptäckter reproducerade opublicerade resultat; Fyra av dem är netto nya, validerade bidrag till den vetenskapliga litteraturen. AI-accelererad vetenskap är här. Vår kärninnovation i Kosmos är användningen av en strukturerad, kontinuerligt uppdaterad världsmodell. Som beskrivs i vår tekniska rapport gör Kosmos världsmodell det möjligt för den att bearbeta storleksordningar mer information än vad som skulle få plats i kontexten för ens de språkmodeller som har den längsta kontexten, vilket gör att den kan syntetisera mer information och sträva efter sammanhängande mål över längre tidshorisonter än Robin eller någon av våra andra tidigare agenter. I detta avseende tror vi att Kosmos är den mest beräkningsintensiva språkagenten som hittills släppts inom något område, och den överlägset mest kapabla AI-forskaren som finns tillgänglig idag. Användningen av en beständig världsmodell gör det också möjligt för enskilda Kosmos-banor att producera mycket komplexa utdata som kräver flera betydande logiska språng. Som med alla våra system är Kosmos utformat med transparens och verifierbarhet i åtanke: varje slutsats i en Kosmos-rapport kan spåras genom vår plattform till de specifika kodraderna eller de specifika avsnitten i den vetenskapliga litteraturen som inspirerade den, vilket säkerställer att Kosmos resultat alltid är fullt granskningsbara. Vi tar också tillfället i akt att tillkännage lanseringen av Edison Scientific, en ny kommersiell avknoppning av FutureHouse, som kommer att fokusera på att kommersialisera våra agenter och använda dem för att automatisera vetenskaplig forskning inom läkemedelsupptäckt och därefter. Edison kommer att ta över hanteringen av FutureHouse-plattformen, där du kan få tillgång till Kosmos tillsammans med våra Literature-, Molecules- och Precedent-agenter (tidigare Crow, Phoenix och Owl). Edison kommer att fortsätta att erbjuda gratis användning för tillfälliga användare och akademiker, samtidigt som de erbjuder högre hastighetsgränser och ytterligare funktioner för användare som behöver dem. Du kan läsa mer om denna spinout på vår blogg nedan. Några viktiga noteringar om du ska prova Kosmos. För det första skiljer sig Kosmos från många andra AI-verktyg som du kanske har spelat med, inklusive våra andra agenter. Det liknar mer ett Deep Research-verktyg än en chatbot: det tar lite tid att ta reda på hur man uppmanar det effektivt, och vi har försökt att inkludera riktlinjer för detta för att hjälpa till (se nedan). Det kostar $200/körning just nu (200 krediter per körning och $1/kredit), med viss kostnadsfri nivåanvändning för akademiker. Detta är kraftigt rabatterat; personer som registrerar sig för Founding Subscriptions nu kan låsa in priset på $1/kredit på obestämd tid, men priset kommer i slutändan förmodligen att bli högre. Återigen, detta är mindre chatbot och mer forskningsverktyg, något du kör på högvärdiga mål efter behov. Vissa förbehåll är också motiverade. För det första finner vi att 80 % av Kosmos fynd är reproducerbara, vilket också betyder att 20 % inte är det -- vissa saker som sägs vara felaktiga. Dessutom producerar Kosmos förvisso resultat som motsvarar flera månaders mänskligt arbete, men det går också ofta ner i kaninhål eller jagar statistiskt signifikanta men vetenskapligt irrelevanta resultat. Vi kör ofta Kosmos flera gånger på samma mål för att prova de olika forskningsvägar som det kan ta. Det finns fortfarande ett gäng grova kanter på användargränssnittet och liknande, som vi arbetar med. Slutligen är vi medvetna om att 6-månaderssiffran är mycket större än uppskattningar från andra AI-laboratorier, som METR, om längden på de uppgifter som AI-agenter för närvarande kan utföra. Du kan läsa diskussionen om detta i vårt blogginlägg. Stort grattis till vårt team som satte ihop detta, lett av @ludomitch och @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. En särskild shout out till @m_skarlinski och hans team som byggde om plattformen för denna lansering, särskilt Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 och mer. Detta arbete skulle inte ha varit möjligt utan betydande bidrag från akademiska medarbetare @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani och @RandallBateman3. Vi vill också tacka våra många supportrar, särskilt @ericschmidt, som har varit en fantastisk allierad. Vi kommer att ha mer att säga om våra supportrar snart!