Oggi annunciamo Kosmos, il nostro più recente AI Scientist, disponibile per l'uso ora. Gli utenti stimano che Kosmos faccia il lavoro di 6 mesi in un solo giorno. Un'esecuzione può leggere 1.500 articoli e scrivere 42.000 righe di codice. Almeno il 79% delle sue scoperte è riproducibile. Kosmos ha fatto 7 scoperte finora, che stiamo rilasciando oggi, in aree che vanno dalle neuroscienze alla scienza dei materiali e alla genetica clinica, in collaborazione con i nostri beta tester accademici. Tre di queste scoperte hanno riprodotto risultati non pubblicati; quattro sono contributi nuovi e validati alla letteratura scientifica. La scienza accelerata dall'AI è qui. La nostra innovazione principale in Kosmos è l'uso di un modello del mondo strutturato e continuamente aggiornato. Come descritto nel nostro rapporto tecnico, il modello del mondo di Kosmos gli consente di elaborare ordini di grandezza di informazioni in più rispetto a quanto potrebbe contenere il contesto anche dei modelli di linguaggio a contesto più lungo, permettendogli di sintetizzare più informazioni e perseguire obiettivi coerenti su orizzonti temporali più lunghi rispetto a Robin o a qualsiasi altro dei nostri agenti precedenti. In questo senso, crediamo che Kosmos sia l'agente linguistico più intensivo in termini di calcolo rilasciato finora in qualsiasi campo, e di gran lunga il più capace AI Scientist disponibile oggi. L'uso di un modello del mondo persistente consente anche a singole traiettorie di Kosmos di produrre output altamente complessi che richiedono più salti logici significativi. Come con tutti i nostri sistemi, Kosmos è progettato con trasparenza e verificabilità in mente: ogni conclusione in un rapporto di Kosmos può essere tracciata attraverso la nostra piattaforma fino alle specifiche righe di codice o ai passaggi specifici nella letteratura scientifica che l'hanno ispirata, garantendo che le scoperte di Kosmos siano completamente auditabili in ogni momento. Stiamo anche utilizzando questa opportunità per annunciare il lancio di Edison Scientific, una nuova spinout commerciale di FutureHouse, che si concentrerà sulla commercializzazione dei nostri agenti e sull'applicazione di essi per automatizzare la ricerca scientifica nella scoperta di farmaci e oltre. Edison prenderà in carico la gestione della piattaforma FutureHouse, dove puoi accedere a Kosmos insieme ai nostri agenti Literature, Molecules e Precedent (precedentemente Crow, Phoenix e Owl). Edison continuerà a offrire un utilizzo gratuito per utenti occasionali e accademici, offrendo anche limiti di utilizzo più elevati e funzionalità aggiuntive per gli utenti che ne hanno bisogno. Puoi leggere di più su questa spinout nel nostro blog, qui sotto. Alcuni appunti importanti se intendi provare Kosmos. In primo luogo, Kosmos è diverso da molti altri strumenti AI con cui potresti aver giocato, inclusi i nostri altri agenti. È più simile a uno strumento di Ricerca Profonda che a un chatbot: ci vuole del tempo per capire come interrogarlo in modo efficace, e abbiamo cercato di includere linee guida su questo per aiutare (vedi sotto). Costa $200/esecuzione in questo momento (200 crediti per esecuzione, e $1/credito), con un po' di utilizzo gratuito per gli accademici. Questo è fortemente scontato; le persone che si iscrivono per le Sottoscrizioni Fondatrici ora possono bloccare il prezzo di $1/credito indefinitamente, ma il prezzo probabilmente sarà più alto in ultima analisi. Ancora una volta, questo è meno un chatbot e più uno strumento di ricerca, qualcosa che esegui su obiettivi di alto valore secondo necessità. Sono anche necessarie alcune avvertenze. In primo luogo, scopriamo che l'80% delle scoperte di Kosmos sono riproducibili, il che significa anche che il 20% non lo sono: alcune cose che dice saranno sbagliate. Inoltre, Kosmos produce certamente output equivalenti a diversi mesi di lavoro umano, ma spesso si perde in sentieri secondari o insegue risultati statisticamente significativi ma scientificamente irrilevanti. Spesso eseguiamo Kosmos più volte sullo stesso obiettivo per campionare i vari percorsi di ricerca che può intraprendere. Ci sono ancora un sacco di imperfezioni nell'interfaccia utente e simili, su cui stiamo lavorando. Infine, siamo consapevoli che la cifra di 6 mesi è molto maggiore delle stime di altri laboratori AI, come METR, riguardo alla lunghezza dei compiti che gli agenti AI possono attualmente svolgere. Puoi leggere discussioni su questo nel nostro post del blog. Enormi congratulazioni al nostro team che ha messo tutto questo insieme, guidato da @ludomitch e @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. Un particolare ringraziamento a @m_skarlinski e al suo team che ha ricostruito la piattaforma per questo lancio, in particolare Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 e altri. Questo lavoro non sarebbe stato possibile senza significativi contributi da parte di collaboratori accademici @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani e @RandallBateman3. Vogliamo anche ringraziare i nostri numerosi sostenitori, in particolare @ericschmidt, che è stato un alleato straordinario. Avremo di più da dire sui nostri sostenitori presto!