Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Această lucrare DeepMind tocmai a ucis în liniște cea mai liniștitoare minciună despre siguranța AI-ului.
Ideea că siguranța ține de comportamentul modelelor de cele mai multe ori pare rezonabilă. De asemenea, este greșit în momentul în care sistemele se scalează. DeepMind arată de ce mediile nu mai contează când implementarea ajunge la milioane de interacțiuni.
Lucrarea reformulează siguranța AGI ca o problemă de distribuție. Ceea ce contează nu este comportamentul tipic. E coada. Eșecuri rare. Cazuri limită. Evenimente cu probabilitate scăzută care par ignorabile în teste, dar devin inevitabile în lumea reală.
Benchmark-urile, red-teaming-ul și demo-urile provează toate mijlocul. Deployment-ul eșantioanează totul. Utilizatori ciudați, stimulente ciudate, bucle de feedback ostile, medii pe care nimeni nu le planificase. La scară largă, aceste cazuri nu mai sunt rare. Sunt garantate.
Iată perspectiva incomodă: progresul poate face sistemele să pară mai sigure, în timp ce le face în tăcere mai periculoase. Dacă capacitatea crește mai repede decât controlul de coadă, defecțiunile vizibile scad, în timp ce riscul catastrofal se adună în afara ecranului.
Două modele pot arăta identic în medie și totuși pot diferi foarte mult în ceea ce privește comportamentul în cel mai rău caz. Evaluările actuale nu pot vedea această diferență. Cadrele de guvernanță presupun că pot.
Nu poți certifica siguranța cu teste finite când riscul se află în schimbarea distribuției. Nu testezi niciodată sistemul pe care îl implementezi efectiv. Experimentezi un viitor pe care nu-l controlezi.
Asta e adevărata glumă.
Siguranța AGI nu este o trăsătură a modelului. Este o problemă de sistem. Contextul de implementare, stimulentele, monitorizarea și cât de mult risc de coadă tolerează societatea contează mai mult decât mediile curate.
Această hârtie nu liniștește. Elimină iluzia.
Întrebarea nu este dacă modelul se comportă de obicei bine.
Este ceea ce se întâmplă când nu se întâmplă — și cât de des este permis acest lucru înainte ca scara să devină inacceptabil.
Hârtie:

Limită superioară
Clasament
Favorite
