Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Herregud... denna artikel kan vara den viktigaste förändringen i hur vi använder LLM:er under hela året.
"Stora kausala modeller från stora språkmodeller."
Det visar att man kan utveckla fullständiga kausala modeller direkt ur en LLM, inte approximationer, inte vibbar – faktiska kausala grafer, kontrafaktuala exempel, interventioner och begränsningskontrollerade strukturer.
Och sättet de gör det på är galet:
Istället för att träna en specialiserad kausal modell ifrågasätter de LLM som en vetenskapsman:
→ extrahera en kandidatkausal graf från text
→ be modellen kontrollera villkorliga independencies
→ upptäcker motsägelser
→ revidera strukturen
→ testar kontrafaktiska och interventionella förutsägelser
→ iterera tills den kausala modellen stabiliseras
Resultatet är något vi aldrig haft förut:
ett kausalt system byggt inom LLM med sin egen latenta världskunskap.
Över benchmarks syntetiska, verkliga, röriga domäner slår dessa LCM:er klassiska metoder för kausala upptäckter eftersom de hämtar från LLM:ns massiva förkunskap istället för bara lokala korrelationer.
Och den kontrafaktiska motiveringen?
Chockerande stark.
Modellen kan svara på "tänk om"-frågor som standardalgoritmer helt misslyckas med, helt enkelt för att den redan "vet" saker om världen som dessa algoritmer inte kan dra slutsatser om enbart data.
Denna artikel antyder en framtid där LLM:er inte bara är mönstermaskiner.
De blir kausala motorsystem som bildar, testar och förfinar strukturella förklaringar av verkligheten.
Om detta skalar upp kommer alla områden som bygger på kausal inferensekonomi, medicin, politik och vetenskap att skrivas om.
LLM:er berättar inte bara vad som händer.
De kommer att berätta varför.

44
Den här DeepMind-artikeln dödade just tyst den mest tröstande lögnen när det gäller AI-säkerhet.
Idén att säkerhet oftast handlar om hur modeller beter sig låter rimlig. Det är också fel när system skalar. DeepMind visar varför genomsnitt slutar spela någon roll när implementeringen når miljontals interaktioner.
Artikeln omformulerar AGI-säkerhet som ett distributionsproblem. Det som spelar roll är inte typiskt beteende. Det är svansen. Sällsynta misslyckanden. Undantagsfall. Händelser med låg sannolikhet som känns ignorerade i tester men blir oundvikliga i verkliga livet.
Benchmarks, red-teaming och demos är alla i mitten. Utplaceringen provar allt. Konstiga användare, märkliga incitament, fientliga återkopplingsslingor, miljöer som ingen planerat för. I stor skala slutar dessa fall att vara sällsynta. De är garanterade.
Här är den obekväma insikten: framsteg kan få system att se säkrare ut samtidigt som de tyst gör dem farligare. Om kapaciteten växer snabbare än svanskontrollen minskar synliga fel medan katastrofala risker staplas utanför skärmen.
Två modeller kan i genomsnitt se identiska ut och ändå skilja sig kraftigt i värsta tänkbara beteende. Nuvarande utvärderingar kan inte se det gapet. Styrningsramverk förutsätter att de kan.
Du kan inte certifiera säkerheten med ändliga tester när risken ligger i distributionsskiftet. Du testar aldrig systemet du faktiskt implementerar. Du samplar en framtid du inte kontrollerar.
Det är den verkliga poängen.
AGI-säkerhet är inte en modellattribut. Det är ett systemfel. Implementeringskontext, incitament, övervakning och hur mycket svansrisk samhället tolererar är alla viktigare än rena genomsnitt.
Detta papper ger ingen lugn. Det tar bort illusionen.
Frågan är inte om modellen vanligtvis beter sig bra.
Det är vad som händer när det inte gör det – och hur ofta det tillåts innan skalan gör det oacceptabelt.
Papper:

43
Topp
Rankning
Favoriter

