Den här DeepMind-artikeln dödade just tyst den mest tröstande lögnen när det gäller AI-säkerhet. Idén att säkerhet oftast handlar om hur modeller beter sig låter rimlig. Det är också fel när system skalar. DeepMind visar varför genomsnitt slutar spela någon roll när implementeringen når miljontals interaktioner. Artikeln omformulerar AGI-säkerhet som ett distributionsproblem. Det som spelar roll är inte typiskt beteende. Det är svansen. Sällsynta misslyckanden. Undantagsfall. Händelser med låg sannolikhet som känns ignorerade i tester men blir oundvikliga i verkliga livet. Benchmarks, red-teaming och demos är alla i mitten. Utplaceringen provar allt. Konstiga användare, märkliga incitament, fientliga återkopplingsslingor, miljöer som ingen planerat för. I stor skala slutar dessa fall att vara sällsynta. De är garanterade. Här är den obekväma insikten: framsteg kan få system att se säkrare ut samtidigt som de tyst gör dem farligare. Om kapaciteten växer snabbare än svanskontrollen minskar synliga fel medan katastrofala risker staplas utanför skärmen. Två modeller kan i genomsnitt se identiska ut och ändå skilja sig kraftigt i värsta tänkbara beteende. Nuvarande utvärderingar kan inte se det gapet. Styrningsramverk förutsätter att de kan. Du kan inte certifiera säkerheten med ändliga tester när risken ligger i distributionsskiftet. Du testar aldrig systemet du faktiskt implementerar. Du samplar en framtid du inte kontrollerar. Det är den verkliga poängen. AGI-säkerhet är inte en modellattribut. Det är ett systemfel. Implementeringskontext, incitament, övervakning och hur mycket svansrisk samhället tolererar är alla viktigare än rena genomsnitt. Detta papper ger ingen lugn. Det tar bort illusionen. Frågan är inte om modellen vanligtvis beter sig bra. Det är vad som händer när det inte gör det – och hur ofta det tillåts innan skalan gör det oacceptabelt. Papper: