Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Cazzo santo… questo documento potrebbe essere il cambiamento più importante nel modo in cui utilizziamo gli LLM quest'anno.
"Modelli Causali Grandi da Modelli di Linguaggio Grandi."
Mostra che puoi far crescere modelli causali completi direttamente da un LLM, non approssimazioni, non vibrazioni, grafi causali reali, controfattuali, interventi e strutture verificate da vincoli.
E il modo in cui lo fanno è pazzesco:
Invece di addestrare un modello causale specializzato, interrogano l'LLM come un scienziato:
→ estrarre un grafo causale candidato dal testo
→ chiedere al modello di controllare le indipendenze condizionali
→ rilevare contraddizioni
→ rivedere la struttura
→ testare controfattuali e previsioni interventistiche
→ iterare fino a quando il modello causale si stabilizza
Il risultato è qualcosa che non abbiamo mai avuto prima:
un sistema causale costruito all'interno dell'LLM utilizzando la sua stessa conoscenza latente del mondo.
Attraverso benchmark sintetici, reali e domini disordinati, questi LCM superano i metodi classici di scoperta causale perché attingono dalla vasta conoscenza pregressa dell'LLM invece di semplici correlazioni locali.
E il ragionamento controfattuale?
Incredibilmente forte.
Il modello può rispondere a domande "cosa succede se" su cui gli algoritmi standard falliscono completamente, semplicemente perché già "sa" cose sul mondo che quegli algoritmi non possono dedurre dai dati da soli.
Questo documento suggerisce un futuro in cui gli LLM non sono solo macchine per riconoscere schemi.
Diventano motori causali, sistemi che formano, testano e affinano spiegazioni strutturali della realtà.
Se questo scala, ogni campo che si basa sull'inferenza causale, economia, medicina, politica, scienza, sta per essere riscritto.
Gli LLM non ti diranno solo cosa succede.
Ti diranno perché.

39
Questo articolo di DeepMind ha appena silenziosamente distrutto la menzogna più confortante nella sicurezza dell'IA.
L'idea che la sicurezza riguardi il modo in cui i modelli si comportano la maggior parte del tempo sembra ragionevole. È anche sbagliata nel momento in cui i sistemi scalano. DeepMind mostra perché le medie smettono di avere importanza quando il deployment raggiunge milioni di interazioni.
L'articolo riformula la sicurezza dell'AGI come un problema di distribuzione. Ciò che conta non è il comportamento tipico. È la coda. Fallimenti rari. Casi limite. Eventi a bassa probabilità che sembrano trascurabili nei test ma diventano inevitabili nel mondo reale.
I benchmark, il red-teaming e le dimostrazioni campionano tutti il centro. Il deployment campiona tutto. Utenti strani, incentivi bizzarri, cicli di feedback ostili, ambienti per cui nessuno ha pianificato. Su larga scala, quei casi smettono di essere rari. Sono garantiti.
Ecco l'insight scomodo: il progresso può far sembrare i sistemi più sicuri mentre li rende silenziosamente più pericolosi. Se la capacità cresce più velocemente del controllo della coda, i fallimenti visibili diminuiscono mentre il rischio catastrofico si accumula fuori dallo schermo.
Due modelli possono sembrare identici in media e differire comunque in modo selvaggio nel comportamento nel peggior caso. Le valutazioni attuali non possono vedere quel divario. I framework di governance presumono di poterlo fare.
Non puoi certificare la sicurezza con test finiti quando il rischio vive nel cambiamento di distribuzione. Non stai mai testando il sistema che effettivamente distribuisci. Stai campionando un futuro che non controlli.
Questa è la vera punchline.
La sicurezza dell'AGI non è un attributo del modello. È un problema di sistemi. Il contesto del deployment, gli incentivi, il monitoraggio e quanto rischio della coda la società tollera contano più delle medie pulite.
Questo articolo non rassicura. Rimuove l'illusione.
La domanda non è se il modello di solito si comporta bene.
È cosa succede quando non lo fa — e quanto spesso è consentito prima che la scala lo renda inaccettabile.
Articolo:

37
Lo stile di prompting interno di Anthropic è completamente diverso da quello che la maggior parte delle persone insegna.
Ho trascorso 3 settimane ad analizzare la loro documentazione ufficiale, la libreria di prompt e gli esempi API.
Solo il 2% degli utenti conosce il prompting strutturato in XML.
Ecco ogni segreto che ho estratto 👇

36
Principali
Ranking
Preferiti
