Hari ini, kami mengumumkan Kosmos, Ilmuwan AI terbaru kami, yang tersedia untuk digunakan sekarang. Pengguna memperkirakan Kosmos melakukan 6 bulan bekerja dalam satu hari. Satu kali berjalan dapat membaca 1.500 makalah dan menulis 42.000 baris kode. Setidaknya 79% dari temuannya dapat direproduksi. Kosmos telah membuat 7 penemuan sejauh ini, yang kami rilis hari ini, di berbagai bidang mulai dari ilmu saraf hingga ilmu material dan genetika klinis, bekerja sama dengan penguji beta akademik kami. Tiga dari penemuan ini mereproduksi temuan yang tidak dipublikasikan; empat adalah kontribusi baru yang divalidasi untuk literatur ilmiah. Sains yang dipercepat AI ada di sini. Inovasi inti kami di Kosmos adalah penggunaan model dunia yang terstruktur dan terus diperbarui. Seperti yang dijelaskan dalam laporan teknis kami, model dunia Kosmos memungkinkannya untuk memproses lebih banyak informasi daripada yang dapat masuk ke dalam konteks model bahasa konteks terpanjang sekalipun, memungkinkannya untuk mensintesis lebih banyak informasi dan mengejar tujuan yang koheren dalam cakrawala waktu yang lebih lama daripada Robin atau agen kami sebelumnya yang lain. Dalam hal ini, kami percaya Kosmos adalah agen bahasa paling intensif komputasi yang dirilis sejauh ini di bidang apa pun, dan sejauh ini Ilmuwan AI paling cakap yang tersedia saat ini. Penggunaan model dunia yang persisten juga memungkinkan lintasan Kosmos tunggal untuk menghasilkan output yang sangat kompleks yang membutuhkan beberapa lompatan logis yang signifikan. Seperti semua sistem kami, Kosmos dirancang dengan mempertimbangkan transparansi dan verifikasi: setiap kesimpulan dalam laporan Kosmos dapat ditelusuri melalui platform kami ke baris kode tertentu atau bagian spesifik dalam literatur ilmiah yang menginspirasinya, memastikan bahwa temuan Kosmos dapat diaudit sepenuhnya setiap saat. Kami juga menggunakan kesempatan ini untuk mengumumkan peluncuran Edison Scientific, spinout komersial baru dari FutureHouse, yang akan berfokus pada komersialisasi agen kami dan menerapkannya untuk mengotomatiskan penelitian ilmiah dalam penemuan obat dan seterusnya. Edison akan mengambil alih pengelolaan platform FutureHouse, di mana Anda dapat mengakses Kosmos bersama agen Sastra, Molekul, dan Preseden kami (sebelumnya Crow, Phoenix, dan Owl). Edison akan terus menawarkan penggunaan tingkat gratis untuk pengguna biasa dan akademisi, sementara juga menawarkan batas tarif yang lebih tinggi dan fitur tambahan bagi pengguna yang membutuhkannya. Anda dapat membaca lebih lanjut tentang spinout ini di blog kami, di bawah ini. Beberapa catatan penting jika Anda akan mencoba Kosmos. Pertama, Kosmos berbeda dari banyak alat AI lain yang mungkin pernah Anda mainkan, termasuk agen kami yang lain. Ini lebih mirip dengan alat Penelitian Mendalam daripada chatbot: butuh waktu untuk mencari tahu cara memintanya secara efektif, dan kami telah mencoba menyertakan pedoman tentang ini untuk membantu (lihat di bawah). Biayanya $200/run sekarang (200 kredit per run, dan $1/kredit), dengan beberapa penggunaan tingkat gratis untuk akademisi. Ini sangat didiskon; orang yang mendaftar untuk Langganan Pendiri sekarang dapat mengunci harga $1/kredit tanpa batas waktu, tetapi harganya pada akhirnya mungkin akan lebih tinggi. Sekali lagi, ini lebih sedikit chatbot dan lebih banyak alat penelitian, sesuatu yang Anda jalankan pada target bernilai tinggi sesuai kebutuhan. Beberapa peringatan juga diperlukan. Pertama, kami menemukan bahwa 80% temuan Kosmos dapat direproduksi, yang juga berarti 20% tidak - beberapa hal yang dikatakan akan salah. Juga, Kosmos tentu saja menghasilkan hasil yang setara dengan beberapa bulan kerja manusia, tetapi juga sering turun ke lubang kelinci atau mengejar temuan yang signifikan secara statistik namun tidak relevan secara ilmiah. Kami sering menjalankan Kosmos beberapa kali dengan tujuan yang sama untuk mengambil sampel berbagai jalan penelitian yang dapat diambil. Masih ada banyak tepi kasar pada UI dan semacamnya, yang sedang kami kerjakan. Akhirnya, kami menyadari bahwa angka 6 bulan jauh lebih besar daripada perkiraan laboratorium AI lainnya, seperti METR, tentang panjang tugas yang dapat dilakukan Agen AI saat ini. Anda dapat membaca pembahasan tentang ini di posting blog kami. Selamat banyak kepada tim kami yang menyatukan ini, yang dipimpin oleh @ludomitch dan @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. Teriakan khusus untuk @m_skarlinski dan timnya yang membangun kembali platform untuk peluncuran ini, terutama Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 dan banyak lagi. Pekerjaan ini tidak akan mungkin terjadi tanpa kontribusi signifikan dari kolaborator akademis @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani, dan @RandallBateman3. Kami juga ingin berterima kasih kepada banyak pendukung kami, terutama @ericschmidt, yang telah menjadi sekutu yang luar biasa. Kami akan segera mengatakan lebih banyak tentang pendukung kami!