Hoje, estamos a anunciar o Kosmos, o nosso mais recente Cientista AI, disponível para uso agora. Os utilizadores estimam que o Kosmos faz 6 meses de trabalho em um único dia. Uma execução pode ler 1.500 artigos e escrever 42.000 linhas de código. Pelo menos 79% das suas descobertas são reproduzíveis. O Kosmos fez 7 descobertas até agora, que estamos a divulgar hoje, em áreas que vão desde a neurociência até à ciência dos materiais e genética clínica, em colaboração com os nossos testadores beta académicos. Três dessas descobertas reproduziram resultados não publicados; quatro são novas contribuições validadas para a literatura científica. A ciência acelerada por AI está aqui. A nossa inovação central no Kosmos é o uso de um modelo de mundo estruturado e continuamente atualizado. Como descrito no nosso relatório técnico, o modelo de mundo do Kosmos permite-lhe processar ordens de magnitude mais informações do que poderia caber no contexto mesmo dos modelos de linguagem de maior contexto, permitindo-lhe sintetizar mais informações e perseguir objetivos coerentes ao longo de horizontes de tempo mais longos do que o Robin ou qualquer um dos nossos outros agentes anteriores. Neste aspecto, acreditamos que o Kosmos é o agente de linguagem mais intensivo em computação lançado até agora em qualquer campo, e de longe o Cientista AI mais capaz disponível hoje. O uso de um modelo de mundo persistente também permite que trajetórias únicas do Kosmos produzam saídas altamente complexas que requerem múltiplos saltos lógicos significativos. Como com todos os nossos sistemas, o Kosmos é projetado com transparência e verificabilidade em mente: cada conclusão em um relatório do Kosmos pode ser rastreada através da nossa plataforma até as linhas específicas de código ou os trechos específicos na literatura científica que a inspiraram, garantindo que as descobertas do Kosmos sejam totalmente auditáveis em todos os momentos. Estamos também a aproveitar esta oportunidade para anunciar o lançamento da Edison Scientific, uma nova empresa comercial derivada da FutureHouse, que se concentrará na comercialização dos nossos agentes e na sua aplicação para automatizar a pesquisa científica na descoberta de medicamentos e além. A Edison assumirá a gestão da plataforma FutureHouse, onde você pode acessar o Kosmos juntamente com os nossos agentes de Literatura, Moléculas e Precedente (anteriormente Crow, Phoenix e Owl). A Edison continuará a oferecer uso em nível gratuito para utilizadores casuais e académicos, enquanto também oferece limites de taxa mais altos e recursos adicionais para utilizadores que os necessitam. Você pode ler mais sobre esta derivação no nosso blog, abaixo. Algumas notas importantes se você vai experimentar o Kosmos. Em primeiro lugar, o Kosmos é diferente de muitas outras ferramentas de AI que você pode ter experimentado, incluindo os nossos outros agentes. É mais semelhante a uma ferramenta de Pesquisa Profunda do que a um chatbot: leva algum tempo para descobrir como solicitá-lo de forma eficaz, e tentamos incluir diretrizes sobre isso para ajudar (veja abaixo). Custa $200/executar agora (200 créditos por execução, e $1/crédito), com algum uso em nível gratuito para académicos. Isso é fortemente descontado; as pessoas que se inscreverem para Assinaturas Fundadoras agora podem garantir o preço de $1/crédito indefinidamente, mas o preço provavelmente será mais alto no final. Novamente, isso é menos chatbot e mais ferramenta de pesquisa, algo que você executa em alvos de alto valor conforme necessário. Algumas advertências também são necessárias. Em primeiro lugar, descobrimos que 80% das descobertas do Kosmos são reproduzíveis, o que também significa que 20% não são -- algumas coisas que ele diz estarão erradas. Além disso, o Kosmos certamente produz saídas que equivalem a vários meses de trabalho humano, mas também frequentemente se perde em buracos de coelho ou persegue descobertas estatisticamente significativas, mas cientificamente irrelevantes. Muitas vezes executamos o Kosmos várias vezes no mesmo objetivo para amostrar as várias avenidas de pesquisa que ele pode seguir. Ainda há várias arestas ásperas na interface do utilizador e afins, nas quais estamos a trabalhar. Finalmente, estamos cientes de que a cifra de 6 meses é muito maior do que as estimativas de outros laboratórios de AI, como o METR, sobre a duração das tarefas que os Agentes AI podem atualmente realizar. Você pode ler discussões sobre isso na nossa postagem no blog. Grandes parabéns à nossa equipe que montou isso, liderada por @ludomitch e @michaelathinks: Angela Yiu, @benjamin0chang, @sidn137, Edwin Melville-Green, Albert Bou, @arvissulovari, Oz Wassie, @jonmlaurent. Um agradecimento especial a @m_skarlinski e sua equipe que reconstruíram a plataforma para este lançamento, especialmente Andy Cai @notAndyCai, Richard Magness, Remo Storni, Tyler Nadolski @_tnadolski, Mayk Caldas @maykcaldas, Sam Cox @samcox822 e mais. Este trabalho não teria sido possível sem contribuições significativas de colaboradores académicos @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Tonio Buonassisi, @BGomes_1905, Shriya Reddy, @marthafoiani, e @RandallBateman3. Também queremos agradecer aos nossos numerosos apoiantes, especialmente @ericschmidt, que tem sido um aliado tremendo. Teremos mais a dizer sobre os nossos apoiantes em breve!