Hoje, estamos anunciando o Kosmos, nosso mais novo cientista de IA, disponível para uso agora. Os usuários estimam que o Kosmos faz 6 meses de trabalho em um único dia. Uma execução pode ler 1.500 artigos e escrever 42.000 linhas de código. Pelo menos 79% de suas descobertas são reprodutíveis. A Kosmos fez 7 descobertas até agora, que estamos lançando hoje, em áreas que vão da neurociência à ciência dos materiais e genética clínica, em colaboração com nossos testadores beta acadêmicos. Três dessas descobertas reproduziram descobertas não publicadas; quatro são contribuições líquidas novas e validadas para a literatura científica. A ciência acelerada por IA está aqui. Nossa principal inovação no Kosmos é o uso de um modelo mundial estruturado e continuamente atualizado. Conforme descrito em nosso relatório técnico, o modelo de mundo da Kosmos permite processar ordens de magnitude mais informações do que poderia caber no contexto até mesmo dos modelos de linguagem de contexto mais longo, permitindo sintetizar mais informações e perseguir objetivos coerentes em horizontes de tempo mais longos do que Robin ou qualquer um de nossos outros agentes anteriores. A esse respeito, acreditamos que o Kosmos é o agente de linguagem mais intensivo em computação lançado até agora em qualquer campo e, de longe, o cientista de IA mais capaz disponível hoje. O uso de um modelo de mundo persistente também permite que trajetórias únicas do Kosmos produzam saídas altamente complexas que exigem vários saltos lógicos significativos. Como em todos os nossos sistemas, o Kosmos foi projetado com transparência e verificabilidade em mente: todas as conclusões em um relatório do Kosmos podem ser rastreadas por meio de nossa plataforma até as linhas específicas de código ou as passagens específicas da literatura científica que o inspiraram, garantindo que as descobertas do Kosmos sejam totalmente auditáveis em todos os momentos. Também estamos aproveitando esta oportunidade para anunciar o lançamento da Edison Scientific, um novo spinout comercial da FutureHouse, que se concentrará na comercialização de nossos agentes e na aplicação deles para automatizar a pesquisa científica na descoberta de medicamentos e além. Edison assumirá o gerenciamento da plataforma FutureHouse, onde você pode acessar o Kosmos junto com nossos agentes de Literatura, Moléculas e Precedentes (anteriormente Crow, Phoenix e Owl). A Edison continuará a oferecer o uso do nível gratuito para usuários casuais e acadêmicos, além de oferecer limites de taxa mais altos e recursos adicionais para usuários que precisam deles. Você pode ler mais sobre esse spinout em nosso blog, abaixo. Algumas notas importantes se você for experimentar o Kosmos. Em primeiro lugar, o Kosmos é diferente de muitas outras ferramentas de IA com as quais você pode ter jogado, incluindo nossos outros agentes. É mais semelhante a uma ferramenta de Pesquisa Profunda do que a um chatbot: leva algum tempo para descobrir como solicitá-lo de forma eficaz e tentamos incluir diretrizes sobre isso para ajudar (veja abaixo). Custa US $ 200 / execução agora (200 créditos por execução e US $ 1 / crédito), com algum uso de nível gratuito para acadêmicos. Isso é muito descontado; as pessoas que se inscrevem para as Assinaturas Fundadoras agora podem bloquear o preço de US$ 1/crédito indefinidamente, mas o preço provavelmente será mais alto. Novamente, isso é menos chatbot e mais ferramenta de pesquisa, algo que você executa em alvos de alto valor, conforme necessário. Algumas ressalvas também são justificadas. Em primeiro lugar, descobrimos que 80% das descobertas do Kosmos são reproduzíveis, o que também significa que 20% não são - algumas coisas que ele diz que estarão erradas. Além disso, o Kosmos certamente produz resultados equivalentes a vários meses de trabalho humano, mas também costuma cair em tocas de coelho ou perseguir descobertas estatisticamente significativas, mas cientificamente irrelevantes. Freqüentemente, executamos o Kosmos várias vezes no mesmo objetivo, a fim de amostrar os vários caminhos de pesquisa que ele pode seguir. Ainda há um monte de arestas na interface do usuário e tal, nas quais estamos trabalhando. Por fim, estamos cientes de que o número de 6 meses é muito maior do que as estimativas de outros laboratórios de IA, como o METR, sobre a duração das tarefas que os agentes de IA podem executar atualmente. Você pode ler a discussão sobre isso em nossa postagem no blog. Parabéns à nossa equipe que montou isso, liderada por @ludomitch e @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie @jonmlaurent. Um grito especial para @m_skarlinski e sua equipe que reconstruíram a plataforma para este lançamento, especialmente Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 e muito mais. Este trabalho não teria sido possível sem contribuições significativas de colaboradores acadêmicos @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani e @RandallBateman3. Também queremos agradecer aos nossos inúmeros apoiadores, especialmente @ericschmidt, que tem sido um tremendo aliado. Teremos mais a dizer sobre nossos apoiadores em breve!