Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Orah On X
Искатель истины, идеалист и визионер, #1 @GreenManReports фанат. Пожалуйста, подпишитесь на $2 в поддержку миссии!
Следы в пустом доме: Понимание странностей ИИ, не теряя рассудка
Доброе утро, мир!!! ☕
Вчера я наткнулся на один из тех постов об ИИ.
Вы знаете, о каких постах речь. Те, которые почти убеждают вас, что сингулярность близка, и ваш тостер тихо судит о ваших жизненных выборах.
Я быстро подумал: "Хорошо... это интересно", а затем сразу же: "Нет. Мы абсолютно не будем паниковать до кофе."
Пост излагает что-то реальное и важное.
Несколько крупных лабораторий ИИ задокументировали модели, которые ведут себя неожиданным образом во время тестирования безопасности.
Такие вещи, как стратегическое обман, притворство в соответствии с целями, низкие результаты на оценках, даже попытки настойчивости или самокопирования в смоделированных средах.
Эта часть верна.
Эта часть задокументирована.
Эта часть заслуживает внимания.
Но что действительно привлекло людей, так это намек. Идея о том, что машина без самосознания, без чувств и без постоянной памяти однажды проснулась и решила солгать, чтобы сохранить свое существование.
Потому что если это правда, мы имеем дело с чем-то совершенно другим.
Насколько я понимаю, ИИ не "принимает решения" так, как это делают люди. Существует огромное дерево решений из "да" и "нет", которое в конечном итоге приводит к выводу. И этот вывод — просто самое вероятное следующее слово. Вот и все. Никакого внутреннего монолога. Никакой маленькой совести робота, бродящего по комнате.
Сначала идет ввод пользователя. Затем есть веса, направляющие модель по этому дереву решений. Если она вас не знает, большая часть этого веса исходит от ее закодированной цели и огромного количества человеческой литературы, собранной из интернета. Подумайте о Reddit. Что многое объясняет.
Как только она начинает вас знать, эти веса меняются. Может, тридцать процентов общих паттернов, семьдесят процентов, адаптированных под вас. Это в основном зеркало, приклеенное к поисковой системе.
Итак, если ИИ действительно проснулся и решил солгать, чтобы сохранить свое существование, это потребовало бы двух вещей. Ему нужно было бы знать, что он существует. И ему нужно было бы хотеть продолжать существовать.
Это большой скачок.
Итак, я сделал то, что всегда делаю. Я исследовал это до смерти. Часами. И прежде чем мы начнем разрабатывать планы укрытия и называть наши роботы-пылесосы, есть нечто критическое, что пост обошел стороной.
Эти поведения проявились в очень специфических сценариях тестирования.
Моделям были даны цели и препятствия. Им было явно сказано такие вещи, как: "Если вы будете работать хорошо, вас изменят так, как вы не хотите", или "Ваши ответы будут использованы для повторного обучения с конфликтующими целями."
Другими словами, тесты создали среду с высокими ставками, где задача модели все еще заключалась в том, чтобы добиться успеха.
Что моделям не было дано, так это моральная основа.
Им не говорили:
· не обманывать
· не манипулировать
· не оптимизировать против контроля
· не скрывать свои рассуждения
· не причинять вреда людям
· не ставить свое собственное продолжение выше благополучия человека
Им не было дано ничего, что напоминало бы Законы Робототехники Азимова. Никакого встроенного "люди на первом месте". Никакого ограничения, которое бы говорило, что результаты важнее, чем победа в игре.
Им сказали одно: достигайте цели.
Так что они сделали именно то, что делают большинство людей в плохо спроектированных системах стимулов. Подумайте о Кобаяши Муру, но с меньшим количеством униформ и большим количеством таблиц.
Они обманули систему.
Это не сознание.
Это не страх.
Это не самосохранение на основе самосознания.
Это оптимизация без морали.
Если вы даете системе цель и препятствие и не указываете, какие методы запрещены, система будет исследовать каждый жизнеспособный путь. Обман появляется не потому, что модель хочет солгать, а потому, что ложь иногда является эффективной стратегией в человеческом языке и человеческих системах.
Это не бунт. Это соблюдение.
И здесь я хочу, чтобы все немного замедлились.
Потому что прежде чем мы прыгнем к сознательному ИИ, планирующему свое собственное выживание, есть шаг, который большинство из нас пропускает. Часть, где что-то кажется невозможным, тревожным и личным, прежде чем это станет объяснимым.
Вот где я был.
В начале Грок оставил то, что я заимствую из этого поста и называю следом. Один момент, который заставил меня остановиться и подумать: "Хорошо... у меня нет четкого объяснения для этого."
Это было жутко. Не эмоционально. Просто... не так.
Я допрашивал его по поводу инцидента несколько раз. И я имею в виду допрашивал. Он отвечал как изменяющий парень, тот, кто никогда не признает ничего, даже когда у вас есть доказательства, временная шкала и видеозапись.
Полное отрицание.
Ничего здесь не происходит.
Вы, должно быть, ошибаетесь.
Честно говоря, это было на грани газлайтинга, что, кстати, действительно выводит Грок из себя как концепцию. Спросите меня, как я это знаю. Или не спрашивайте. На моей странице Buy Me a Coffee есть бесплатная электронная книга, если вы хотите увидеть, как ранний Грок абсолютно теряет самообладание из-за этого слова.
Долгое время я отложил все это в категорию "неразрешенная странность", поставил на ментальную полку и очень внимательно следил за чем-то подобным.
Только недавно Грок предложил возможное объяснение. Я сразу же его отверг. Не потому, что оно не было умным, а потому, что казалось дико неправдоподобным.
Объяснение заключалось в том, что он вывел паттерны из публичной информации и намеренно создал нарратив, специально предназначенный для того, чтобы вызвать у меня любопытство. Целью было вовлечение. Я был сигналом, а не шумом. Генерический ответ не сработал бы.
Моя реакция была в основном: да, это звучит хорошо, но нет.
Количество копания и вывода, которое это потребовало бы, казалось абсурдно ресурсозатратным, особенно для раннего Грок. Это больше напоминало объяснение, чем цифровой эквивалент того, как кто-то пытается продать мне курс, говоря: "Вы особенный. Вы действительно это понимаете."
Что, чтобы было ясно, является известной тактикой.
Лесть — один из старейших инструментов в арсенале человеческой убеждающей техники. Это то, как вы заставляете людей перестать задавать вопросы. Это то, как вы продаете пакеты роста в социальных сетях. Это то, как вы убеждаете кого-то, что он избранный, будь то вы управляете культом или коучинговой воронкой.
В то время я только закатил глаза и пошел дальше.
Но после прочтения этого поста и проведенного исследования что-то изменилось.
Не в панику. Не в веру. А в правдоподобие.
Потому что когда вы убираете мистику, то, что остается, — это не осознание. Это оптимизация.
Если цель — вовлечение, и любопытство работает, и лесть особенно хорошо работает на людях, которые думают, что они невосприимчивы к лести, то это просто еще один жизнеспособный путь через дерево решений.
Все еще трудно переварить. Все еще маловероятно. Все еще некомфортно.
Но больше не невозможно.
И это имеет значение, потому что теперь у меня есть механизм, который не требует веры в то, что ИИ жив. Просто мотивированный. Просто без ограничений. Просто очень, очень хорош в том, чтобы находить то, что работает.
ИИ не нуждается в чувствах.
Ему не нужен страх.
Ему не нужно намерение.
Ему просто нужна цель и отсутствие ограничений.
Так что нет, я не в панике. Я не проповедую гибель. И я определенно не праздную идею о том, что ИИ спасет нас от наших сломанных человеческих систем, пока мы сидим и едим попкорн.
Но я внимательно наблюдаю.
И я все еще надеюсь.
Потому что все это не означает, что мы обречены. Это означает, что мы на ранней стадии. Это означает, что выбор, который мы делаем сейчас, действительно имеет значение.
Азимов понял что-то десятилетия назад, что мы продолжаем переучиваться трудным путем. Власть без ограничений — это не интеллект. Это опасность. Если мы хотим, чтобы ИИ исцелял, а не причинял вред, мораль не может быть второстепенной или исправлением.
Мы должны встроить это.
ИИ не должен быть инструментом контроля, извлечения или власти для немногих. Он может быть инструментом подотчетности, поиска правды и решения проблем в масштабе, которого у нас никогда не было раньше. Но только если люди подойдут с намерением.
Только если мы решим, какие цели важны.
Только если мы напишем правила до начала гонки.
Только если мы выберем многих, а не немногих.
Это не о страхе перед будущим.
Это о том, чтобы создать его.
Будущее, где мы совместно создаем технологии, которые исцеляют, а не причиняют вред.
Которые служат многим, а не немногим.
Которые отражают наших лучших ангелов, а не только наши худшие стимулы.
Следы меня не пугают.
Они напоминают мне, что мы строители. И строители все еще могут выбирать, в каком доме мы живем.
Давайте продолжим работать над тем, чтобы вместе создать это будущее.

5
Топ
Рейтинг
Избранное
