Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Vincent Weisser
@primeintellect генеральний директор / Відкритий суперінтелект та інфраструктура / Автоматизація штучного інтелекту та науки
Автоматизація наукових відкриттів може бути найважливішою річчю, яку може зробити штучний інтелект.
«Космос» компанії Edison Scientific проводить багатоденні експерименти і вже зробив сім підтверджених відкриттів.
Автономна наука стає реальністю.
Надихаюча робота @SGRodriques @andrewwhite01 та команди!

Sam Rodriques5 лист., 23:00
Сьогодні ми представляємо Kosmos, нашого найновішого вченого в галузі штучного інтелекту, який вже доступний для використання.
За оцінками користувачів, «Космос» виконує 6 місяців роботи за один день. За один тираж можна прочитати 1500 статей і написати 42 000 рядків коду. Принаймні 79% його висновків є відтворюваними. На даний момент Kosmos зробив 7 відкриттів, які ми випускаємо сьогодні, в різних областях від неврології до матеріалознавства і клінічної генетики, у співпраці з нашими академічними бета-тестерами. Три з цих відкриттів відтворювали неопубліковані знахідки; Чотири з них – це чисті нові, підтверджені внески в наукову літературу. Наука, прискорена штучним інтелектом, вже тут.
Нашою основною інновацією в Kosmos є використання структурованої, постійно оновлюваної моделі світу. Як описано в нашому технічному звіті, модель світу Kosmos дозволяє йому обробляти на порядки більше інформації, ніж могло б поміститися в контекст навіть мовних моделей з найдовшим контекстом, що дозволяє їй синтезувати більше інформації та переслідувати узгоджені цілі на більш тривалих часових горизонтах, ніж Robin або будь-який з наших інших попередніх агентів. У цьому відношенні ми вважаємо, що Kosmos є найбільш інтенсивним обчислювальним мовним агентом, випущеним на даний момент у будь-якій галузі, і на сьогоднішній день найпотужнішим вченим у галузі штучного інтелекту. Використання постійної моделі світу також дозволяє одиничним траєкторіям Космосу давати дуже складні виходи, які вимагають кількох значних логічних стрибків. Як і всі наші системи, Kosmos розроблений з урахуванням прозорості та можливості перевірки: кожен висновок у звіті Kosmos можна простежити через нашу платформу до конкретних рядків коду або конкретних уривків у науковій літературі, які надихнули його, гарантуючи, що висновки Kosmos завжди повністю піддаються аудиту.
Ми також використовуємо цю можливість, щоб оголосити про запуск Edison Scientific, нового комерційного відгалуження FutureHouse, який буде зосереджений на комерціалізації наших агентів та застосуванні їх для автоматизації наукових досліджень у галузі відкриття ліків та за їх межами. Едісон візьме на себе управління платформою FutureHouse, де ви зможете отримати доступ до Kosmos разом з нашими агентами літератури, молекул і прецедентів (раніше Crow, Phoenix і Owl). Edison продовжуватиме пропонувати безкоштовне використання для звичайних користувачів і науковців, а також пропонуватиме вищі обмеження швидкості та додаткові функції для користувачів, яким вони потрібні. Детальніше про цей спінут ви можете прочитати в нашому блозі, нижче.
Кілька важливих зауважень, якщо ви збираєтеся спробувати Kosmos. По-перше, Kosmos відрізняється від багатьох інших інструментів штучного інтелекту, з якими ви, можливо, грали, включаючи інших наших агентів. Він більше схожий на інструмент Deep Research, ніж на чат-бот: потрібен деякий час, щоб з'ясувати, як його ефективно запустити, і ми спробували включити рекомендації щодо цього, щоб допомогти (див. нижче). Зараз він коштує 200 доларів США за пробіг (200 кредитів за пробіжку та 1 долар США за кредит), з деяким безкоштовним використанням рівня для науковців. На це надається значна знижка; люди, які підписуються на підписку Founding Subscriptions, можуть зафіксувати ціну в 1 долар США за кредит на невизначений термін, але в кінцевому підсумку ціна, ймовірно, буде вищою. Знову ж таки, це не чат-бот, а більше інструмент для досліджень, те, що ви запускаєте для досягнення цінних цілей за потреби.
Деякі застереження також виправдані. По-перше, ми виявили, що 80% висновків Kosmos є відтворюваними, що також означає, що 20% такими не є – деякі речі, про які він говорить, будуть неправильними. Крім того, Kosmos, безумовно, виробляє результати, які еквівалентні кільком місяцям людської праці, але він також часто йде в кролячі нори або переслідує статистично значущі, але науково нерелевантні знахідки. Ми часто запускаємо Kosmos кілька разів з однією і тією ж метою, щоб взяти зразки різних напрямків дослідження, які він може охопити. Є ще купа шорсткостей в інтерфейсі і тому подібному, над якими ми працюємо. Нарешті, ми усвідомлюємо, що цифра в 6 місяців набагато більша, ніж оцінки інших лабораторій штучного інтелекту, таких як METR, щодо тривалості завдань, які агенти штучного інтелекту можуть виконувати в даний час. Дискусію про це ви можете прочитати в нашому блозі.
Величезні вітання нашій команді, яка зібрала це разом, на чолі з @ludomitch та @michaelathinks: Анджела Ю, @benjamin0chang, @sidn137, Едвін Мелвілл-Грін, Альберт Бу, @arvissulovari, Оз Вассі, @jonmlaurent. Особлива подяка @m_skarlinski та його команді, яка перебудувала платформу для цього запуску, особливо Енді Кай @notAndyCai, Річарду Магнессу, Ремо Сторні, Тайлеру Надольскі @_tnadolski, Майку Калдасу @maykcaldas, Сему Коксу @samcox822 та іншим.
Ця робота була б неможливою без значного внеску академічних співробітників @mathieubourdenx, @EricLandsness, @bdanubius, @physicistnevans, Тоніо Буонассісі, @BGomes_1905, Шрії Редді, @marthafoiani та @RandallBateman3.
Ми також хочемо подякувати нашим численним прихильникам, особливо @ericschmidt, яка була величезним союзником. Скоро ми матимемо що сказати про наших прихильників!
9,22K
У Environment Hub з'явилася підтримка evals - будь-яке RL-середовище можна оцінити за допомогою найпопулярніших моделей.

Prime Intellect4 лист., 08:45
Оцінювання, що проводяться в прямому ефірі
Оцінюйте середовища безпосередньо на нашій платформі, не потребуючи CLI
9,76K
Найкращі
Рейтинг
Вибране

