Ця стаття DeepMind тихо знищила найзаспокійливішу брехню щодо безпеки ШІ. Ідея, що безпека залежить від поведінки моделей, здається розумною. Також неправильно, коли системи масштабуються. DeepMind показує, чому середні значення перестають мати значення, коли розгортання охоплює мільйони взаємодій. Стаття переосмислює безпеку AGI як проблему розподілу. Важлива не типова поведінка. Це хвіст. Рідкісні невдачі. Крайні випадки. Події з низькою ймовірністю, які здаються ігнорованими в тестах, але стають неминучими в реальному світі. Бенчмарки, червона команда та демонстрації — усі вони мають середню частину. Розгортання бере зразки всього всього. Дивні користувачі, дивні стимули, ворожі зворотні зв'язки, середовища, які ніхто не планував. У масштабах такі випадки перестають бути рідкісними. Вони гарантовані. Ось неприємне усвідомлення: прогрес може зробити системи безпечнішими, водночас тихо роблячи їх більш небезпечними. Якщо можливості зростають швидше, ніж контроль хвоста, видимі відмови зменшуються, а ризик катастрофи накопичується поза кадром. Дві моделі можуть виглядати ідентично в середньому, але водночас суттєво відрізнятися у найгірших випадках. Поточні оцінки не бачать такої прогалини. Системи управління припускають, що це можливо. Ви не можете сертифікувати безпеку за допомогою обмежених тестів, коли ризик переходить у розподіл. Ви ніколи не тестуєте систему, яку фактично розгортаєте. Ти пробуєш майбутнє, яке не контролюєш. Ось це справжній жарт. Безпека AGI — це не модельна характеристика. Це системна проблема. Контекст розгортання, стимули, моніторинг і те, скільки ризику від хвоста допускає суспільство — все це має значення більше, ніж чисті середні показники. Ця стаття не заспокоює. Це знімає ілюзію. Питання не в тому, чи зазвичай модель добре поводиться. Це те, що відбувається, коли цього немає — і як часто це дозволено, перш ніж масштаб робить це неприйнятним. Стаття: