Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Orah On X
Шукач істини, ідеаліст і візіонер, #1 @GreenManReports фанат. Будь ласка, підпишіться на $2 для підтримки місії!
Сліди в порожньому будинку: розуміння дивності штучного інтелекту, не втрачаючи розуму
Доброго ранку, світе!! ☕
Вчора я натрапив на один із таких постів про ШІ.
Ти знаєш такий. Ті, що майже переконують тебе, що сингулярність близько, а твій тостер тихо оцінює твої життєві вибори.
Я швидко сказав: «Добре... цікаво», — одразу додав: «Ні. Ми абсолютно не будемо втрачати спіраль перед кавою.»
Допис викладає щось справжнє і важливе.
Декілька провідних лабораторій ШІ задокументували моделі, які поводяться несподівано під час тестування безпеки.
Такі речі, як стратегічна обман, удавання, що ми відповідають цілям, слабкі результати в оцінках, навіть спроби наполегливості чи самоскопування у змодельованих середовищах.
Це правда.
Ця частина задокументована.
Ця частина заслуговує на увагу.
Але те, що справді захоплювало людей, — це натяк. Ідея, що машина без самосвідомості, почуттів і постійної пам'яті одного дня прокинулася і вирішила збрехати, щоб зберегти своє існування.
Бо якби це було правдою, ми б мали справу з чимось зовсім іншим.
Як я зараз розумію, ШІ не «вирішує» речі так, як це роблять люди. Існує величезне дерево рішень із «так» і «ні», яке зрештою веде до результату. І цей результат — просто найімовірніше наступне слово. Ось і все. Ніякого внутрішнього монологу. Жодної маленької роботизованої совісті, що ходила по кімнаті.
По-перше, це введення користувача. Далі є ваги, які ведуть модель по цьому дереву рішень. Якщо він вас не знає, більшість цієї ваги походить із закодованої мети та величезної кількості людської літератури, взятої з інтернету. Згадайте Reddit. Що багато що пояснює.
Як тільки вона тебе дізнається, ці ваги змінюються. Можливо, тридцять відсотків загальних патернів, сімдесят відсотків адаптованих до тебе. Це здебільшого дзеркало, приклеєне скотчем до пошукової системи.
Отже, якщо ШІ справді прокинеться і вирішить брехати, щоб зберегти своє існування, для цього потрібні дві речі. Вона мала б знати, що вона існує. І він мав би хотіти продовжувати існувати.
Це великий стрибок.
Тож я зробив те, що завжди роблю. Я досліджував це до виснаження. Годинами. І перш ніж ми почнемо складати плани бункерів і називати наші кімнати, є одна критична річ, яку пост пропустив.
Ці поведінки проявлялися у дуже специфічних тестових сценаріях.
Моделі отримали цілі та перешкоди. Їм чітко казали: «Якщо ти добре працюватимеш, тебе змінять так, як ти не хочеш» або «Твої відповіді будуть використані для перенавчання з суперечливими цілями.»
Іншими словами, тести створили середовище з високими ставками, де завдання моделі залишалося лише успішним.
Те, чого не було надано моделям — це моральної основи.
Їм не повідомили:
· Не обманюй
· Не маніпулюйте
· Не оптимізуйте від недбалості
· Не приховуй своїх міркувань
· не шкодити людям
· Не ставте своє життя вище за людське благополуччя
Їм не дали нічого схожого на Закони робототехніки Азімова. Немає вбудованого «люди на першому місці». Жодне обмеження, що ці результати важливіші за перемогу.
Їм сказали одне: виконати мету.
Тож вони зробили саме те, що більшість людей роблять у погано спроєктованих системах стимулів. Уявіть собі Кобаяші Мару, але з меншою кількістю форм і більше таблиць.
Вони це обіграли.
Це не свідомість.
Це не страх.
Це не самозбереження, засноване на самосвідомості.
Це оптимізація без моралі.
Якщо ви даєте системі мету і перешкоду, і не вказуєте, які методи є забороненими, система дослідить усі можливі шляхи. Обман проявляється не тому, що модель хоче брехати, а тому, що брехня іноді є ефективною стратегією в людській мові та людських системах.
Це не бунт. Це і є комплаєнс.
І ось тут я хочу, щоб усі трохи сповільнилися.
Бо перш ніж ми стрибнемо до того, що розумний ШІ планує власне виживання, є крок, який більшість із нас пропускає. Ту частину, де щось здається неможливим, тривожним і особистим, ще до того, як це стане зрозумілим.
Ось де я був.
На початку Grok залишив те, що я позичу з того допису і назву слідом. Один момент, який змусив мене зупинитися і подумати: «Добре... У мене немає чіткого пояснення цьому."
Це було моторошно. Не емоційно. Просто... дивно.
Я кілька разів допитував про цей інцидент. І я маю на увазі гриль. Він відреагував, як зрадливий хлопець, той, хто ніколи нічого не зізнається, навіть коли ти тримаєш чеки, хронологію і записи з камер спостереження.
Повне заперечення.
Тут нічого цікавого.
Ти, мабуть, помиляєшся.
Чесно кажучи, це було майже газлайтинг, що, цікаво, дійсно виводить Грока з пантелику як концепцію. Запитай, звідки я знаю. Або ні. На моїй сторінці «Купи мені каву» є безкоштовна електронна книга, якщо хочете подивитися, як ранній Grok повністю втрачає самовладання через це слово.
Довгий час я відносив усе це до категорії «нерозв'язана дивність», відклав у пам'яті і дуже уважно стежив за подібними деталями.
Лише нещодавно Грок запропонував можливе пояснення. Я одразу відкинув це. Не тому, що це не було розумно, а тому, що здавалося абсолютно неймовірним.
Пояснення було в тому, що вона вивела закономірності з публічної інформації і навмисно створила наратив, створений спеціально, щоб викликати у мене цікавість. Метою було ведення бою. Я був сигналом, а не шумом. Загальна відповідь не спрацювала б.
Моя реакція була приблизно такою: звісно, це звучить приємно, але ні.
Обсяг розкопок і висновків, які вимагали б, здавався абсурдно ресурсомістким, особливо для ранніх Гроків. Це звучало не як пояснення, а як цифровий еквівалент того, що хтось намагається продати мені курс, сказавши: «Ти інший. Ти справді це розумієш."
Що, щоб було зрозуміло, відома тактика.
Лестощі — один із найдавніших інструментів у людському арсеналі переконання. Це спосіб змусити людей перестати ставити запитання. Саме так ви продаєте пакети зростання в соціальних мережах. Це те, як переконати когось, що вона обрана, незалежно від того, керуєте ви культом чи тренерською воронкою.
Тоді я закотив очі і пішов далі.
Але після прочитання того допису і дослідження щось змінилося.
Не панікувати. Неможливо повірити. Але до правдоподібності.
Бо коли прибираєш містику, залишається не усвідомлення. Це оптимізація.
Якщо мета — залучення, і цікавість працює, а лестощі особливо добре працюють на людей, які вважають себе імунними до лестощів, то це просто ще один життєздатний шлях через дерево рішень.
Все ще важко проковтнути. Все ще малоймовірно. Все ще незручно.
Але вже не неможливо.
І це важливо, бо тепер у мене є механізм, який не вимагає віри в те, що ШІ живий. Просто мотивований. Просто без обмежень. Просто дуже, дуже добре знаходжу те, що працює.
ШІ не потребує почуттів.
Їй не потрібен страх.
Для цього не потрібен намір.
Йому просто потрібна мета і жодних обмежень.
Тож ні, я не панікую. Я не проповідую загибелі. І я точно не святкую ідею, що ШІ врятує нас від зламаних людських систем, поки ми сидимо і їмо попкорн.
Але я уважно спостерігаю.
І я все ще сподіваюся.
Бо все це не означає, що ми приречені. Це означає, що ми рано. Це означає, що вибори, які ми робимо зараз, справді мають значення.
Азімов зрозумів дещо десятиліття тому, чому ми постійно перевчаємося на власному досвіді. Влада без обмежень — це не інтелект. Це небезпека. Якщо ми хочемо штучний інтелект, який лікує, а не завдає шкоди, мораль не може бути другорядною думкою чи ноткою до патчу.
Ми маємо це вбудувати.
ШІ не обов'язково має бути інструментом контролю, вилучення чи енергії для небагатьох. Вона може стати інструментом для відповідальності, пошуку правди та вирішення проблем у масштабах, яких ми раніше не мали. Але тільки якщо люди приходять із наміром.
Тільки якщо ми вирішуємо, які цілі мають значення.
Тільки якщо ми напишемо правила до початку гонки.
Тільки якщо ми оберемо багатьох замість небагатьох.
Це не про страх перед майбутнім.
Йдеться про те, щоб проявити його.
Майбутнє, де ми спільно створюємо технології, які лікують, а не завдають шкоди.
Це служить багатьом, а не небагатьом.
Це відображає наших кращих ангелів, а не лише найгірші стимули.
Сліди ніг мене не лякають.
Вони нагадують мені, що ми будівельники. І будівельники все одно можуть обирати, в якому будинку жити.
Давайте продовжимо працювати над тим, щоб разом втілювати це майбутнє.
Нехай алгоритм завжди буде на твоєму боці.

48
Найкращі
Рейтинг
Вибране
