DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Questo articolo di DeepMind ha appena silenziosamente distrutto la menzogna più confortante nella sicurezza dell'IA. L'idea che la sicurezza riguardi il modo in cui i modelli si comportano la maggior parte del tempo sembra ragionevole. È anche sbagliata nel momento in cui i sistemi scalano. DeepMind mostra perché le medie smettono di avere importanza quando il deployment raggiunge milioni di interazioni. L'articolo riformula la sicurezza dell'AGI come un problema di distribuzione. Ciò che conta non è il comportamento tipico. È la coda. Fallimenti rari. Casi limite. Eventi a bassa probabilità che sembrano trascurabili nei test ma diventano inevitabili nel mondo reale. I benchmark, il red-teaming e le dimostrazioni campionano tutti il centro. Il deployment campiona tutto. Utenti strani, incentivi bizzarri, cicli di feedback ostili, ambienti per cui nessuno ha pianificato. Su larga scala, quei casi smettono di essere rari. Sono garantiti. Ecco l'insight scomodo: il progresso può far sembrare i sistemi più sicuri mentre li rende silenziosamente più pericolosi. Se la capacità cresce più velocemente del controllo della coda, i fallimenti visibili diminuiscono mentre il rischio catastrofico si accumula fuori dallo schermo. Due modelli possono sembrare identici in media e differire comunque in modo selvaggio nel comportamento nel peggior caso. Le valutazioni attuali non possono vedere quel divario. I framework di governance presumono di poterlo fare. Non puoi certificare la sicurezza con test finiti quando il rischio vive nel cambiamento di distribuzione. Non stai mai testando il sistema che effettivamente distribuisci. Stai campionando un futuro che non controlli. Questa è la vera punchline. La sicurezza dell'AGI non è un attributo del modello. È un problema di sistemi. Il contesto del deployment, gli incentivi, il monitoraggio e quanto rischio della coda la società tollera contano più delle medie pulite. Questo articolo non rassicura. Rimuove l'illusione. La domanda non è se il modello di solito si comporta bene. È cosa succede quando non lo fa — e quanto spesso è consentito prima che la scala lo renda inaccettabile. Articolo:

Principali

Ranking

Preferiti