Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Noam Brown

Исследование @OpenAI рассуждений | Соавтор сверхчеловеческих покерных ИИ Libratus/Pluribus, ИИ CICERO Diplomacy и моделей рассуждений OpenAI o3 / o1 / 🍓

Получил это сообщение: Я ценю, что вы это опубликовали - все больше мой Twitter кажется не в порядке, особенно с людьми, утверждающими, что Claude Code делает их в 1000000 раз более эффективными. Казалось, что я схожу с ума и сильно отстаю, хотя я довольно часто использую помощников по программированию.

Я создал open-source решатель для покера на ривере во время праздничных каникул. Код написан на 100% Codex, и я также сделал версию с Claude Code для сравнения. В целом, эти инструменты позволили мне значительно быстрее итеративно работать в области, которую я хорошо знаю. Но я также чувствовал, что не могу полностью им доверять. Они допускали ошибки и сталкивались с багами, но вместо того, чтобы признать это, они часто думали, что это не так уж и важно или, иногда, просто пытались заставить меня думать, что ничего не происходит. В одной запоминающейся сессии отладки с Claude Code я спросил его, для проверки, какова будет ожидаемая ценность стратегии "всегда сбрасывать", когда у игрока в банке $100. Он сказал мне, что согласно его алгоритму, EV составил -$93. Когда я указал, как это странно, надеясь, что он сам поймет, что есть ошибка, он успокоил меня, что $93 близко к $100, так что, вероятно, все в порядке. (Как только я попросил его конкретно учесть блокеры как потенциальную проблему, он признал, что алгоритм действительно не учитывал их должным образом.) Codex не был намного лучше в этом и столкнулся со своим набором (интересно) отличительных багов и алгоритмических ошибок, которые мне пришлось тщательно проработать. К счастью, я смог справиться с этим, потому что я эксперт по решателям покера, но я не думаю, что много других людей смогли бы успешно создать этот решатель, используя инструменты AI для кодирования. Самым разочаровывающим опытом было создание GUI. После дюжины обсуждений ни Codex, ни Claude Code не смогли сделать фронтенд, который я запрашивал, хотя фронтенд от Claude Code был хотя бы красивее. Я не опытен в фронтенде, так что, возможно, то, что я просил, просто не было возможным, но если это так, то я хотел бы, чтобы они *сказали* мне, что это сложно или невозможно, вместо того чтобы постоянно делать сломанные реализации или вещи, которые я не запрашивал. Это подчеркнуло для меня, что все еще существует большая разница между работой с человеческим товарищем по команде и работой с AI. После того как первоначальные реализации были завершены и отлажены, я попросил Codex и Claude Code создать оптимизированные версии на C++. В этом Codex удивительно хорошо справился. Его версия на C++ была в 6 раз быстрее, чем версия от Claude Code (даже после нескольких итераций запросов на дальнейшие оптимизации). Оптимизации Codex все еще не были такими хорошими, как те, которые я мог сделать, но, с другой стороны, я потратил 6 лет на получение степени PhD, создавая покерных ботов. В целом, я думал, что Codex справился с этим впечатляюще. Моя последняя просьба заключалась в том, чтобы спросить AI, могут ли они придумать новые алгоритмы, которые могли бы решать NLTH риверы еще быстрее. Никто не справился с этой задачей, что не удивительно. LLM быстро становятся лучше, но разработка новых алгоритмов для такого рода задач — это месячный исследовательский проект для человеческого эксперта. LLM еще не достигли этого уровня.

Я создал open-source решатель для покера на ривере во время праздничных каникул. Код написан на 100% Codex, и я также сделал версию с Claude Code для сравнения. В целом, эти инструменты позволили мне значительно быстрее итеративно работать в области, которую я хорошо знаю. Но я также чувствовал, что не могу полностью им доверять. Они допускали ошибки и сталкивались с багами, но вместо того, чтобы признать это, они часто думали, что это не так уж и важно или, иногда, просто пытались заставить меня думать, что ничего не происходит. В одной запоминающейся сессии отладки с Claude Code я спросил его, для проверки, какова будет ожидаемая ценность стратегии "всегда сбрасывать", когда у игрока в банке $100. Он сказал мне, что согласно его алгоритму, EV составил -$93. Когда я указал, как это странно, надеясь, что он сам поймет, что есть ошибка, он успокоил меня, что $93 близко к $100, так что, вероятно, все в порядке. (Как только я попросил его конкретно учесть блокеры как потенциальную проблему, он признал, что алгоритм действительно не учитывал их должным образом.) Codex не был намного лучше в этом и столкнулся со своим набором (интересно) отличительных багов и алгоритмических ошибок, которые мне пришлось тщательно проработать. К счастью, я смог справиться с этим, потому что я эксперт по решателям покера, но я не думаю, что много других людей смогли бы успешно создать этот решатель, используя инструменты AI для кодирования. Самым разочаровывающим опытом было создание GUI. После дюжины обсуждений ни Codex, ни Claude Code не смогли сделать фронтенд, который я запрашивал, хотя фронтенд от Claude Code был хотя бы красивее. Я не опытен в фронтенде, так что, возможно, то, что я просил, просто не было возможным, но если это так, то я хотел бы, чтобы они *сказали* мне, что это сложно или невозможно, вместо того чтобы постоянно делать сломанные реализации или вещи, которые я не запрашивал. Это подчеркнуло для меня, что все еще существует большая разница между работой с человеческим товарищем по команде и работой с AI. После того как первоначальные реализации были завершены и отлажены, я попросил Codex и Claude Code создать оптимизированные версии на C++. В этом Codex удивительно хорошо справился. Его версия на C++ была в 6 раз быстрее, чем версия от Claude Code (даже после нескольких итераций запросов на дальнейшие оптимизации). Оптимизации Codex все еще не были такими хорошими, как те, которые я мог сделать, но, с другой стороны, я потратил 6 лет на получение степени PhD, создавая покерных ботов. В целом, я думал, что Codex справился с этим впечатляюще. Моя последняя просьба заключалась в том, чтобы спросить AI, могут ли они придумать новые алгоритмы, которые могли бы решать NLTH риверы еще быстрее. Никто не справился с этой задачей, что не удивительно. LLM быстро становятся лучше, но разработка новых алгоритмов для такого рода задач — это месячный исследовательский проект для человеческого эксперта. LLM еще не достигли этого уровня.

Топ

Рейтинг

Избранное