Bu DeepMind makalesi, yapay zeka güvenliğindeki en rahatlatıcı yalanı sessizce ortadan kaldırdı. Güvenliğin modellerin çoğu zaman nasıl davrandığıyla ilgili olduğu fikri mantıklı görünüyor. Sistemlerin ölçeklendiği anda da yanlış. DeepMind, dağıtım milyonlarca etkileşime ulaştığında ortalamaların neden önemini kaybettiğini gösteriyor. Makale, AGI güvenliğini bir dağıtım problemi olarak yeniden çerçeveliyor. Önemli olan tipik davranış değil. Kuyruğu sorun. Nadir başarısızlıklar. Uç durumlar. Testlerde göz ardı edilebilecek gibi görünen düşük olasılıklı olaylar, gerçek dünyada kaçınılmaz hale gelir. Benchmarklar, kırmızı takım ve demolar ortayı örnekliyor. Dağıtım her şeyi örnekliyor. Garip kullanıcılar, tuhaf teşvikler, düşmanca geri bildirim döngüleri, kimsenin planlamadığı ortamlar. Ölçekte, bu vakalar nadir olmaktan çıkıyor. Garanti altındadırlar. İşte rahatsız edici bir içgörü: ilerleme sistemleri daha güvenli gösterirken sessizce daha tehlikeli hale getirebilir. Yetenek kuyruk kontrolünden daha hızlı büyürse, görünür arızalar azalır ve ekranda felaket riski biriktirilir. İki model ortalama olarak aynı görünebilir ve en kötü durum davranışlarında yine de büyük farklılıklar gösterir. Mevcut değerlendirmeler bu boşluğu göremiyor. Yönetim çerçeveleri bunun mümkün olduğunu varsayıyor. Dağıtımda risk kaydığında sınırlı testlerle güvenliği onaylayamazsınız. Gerçekten kurduğunuz sistemi asla test etmiyorsunuz. Kontrol etmediğiniz bir geleceği örnek veriyorsunuz. İşte asıl espri bu. AGI güvenliği model bir özellik değildir. Bu bir sistem sorunu. Dağıtım bağlamı, teşvikler, izleme ve toplumun ne kadar kuyruk riskine dayandığı temiz ortalamalardan daha önemlidir. Bu makale rahatlatıcı değil. İllüzyonu ortadan kaldırır. Soru, modelin genellikle iyi davranıp davranmadığı değil. Önemli olan, bunun gerçekleşmediği ve ölçeklenmeden önce ne kadar sık izin verildiği. Makale: