Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Putain… cet article pourrait être le changement le plus important dans notre utilisation des LLMs cette année.
"Modèles causaux larges issus de modèles de langage larges."
Il montre que l'on peut développer des modèles causaux complets directement à partir d'un LLM, pas des approximations, pas des impressions, de véritables graphes causaux, des contrefactuels, des interventions et des structures vérifiées par des contraintes.
Et la façon dont ils le font est incroyable :
Au lieu d'entraîner un modèle causal spécialisé, ils interrogent le LLM comme un scientifique :
→ extraire un graphe causal candidat à partir du texte
→ demander au modèle de vérifier les indépendances conditionnelles
→ détecter les contradictions
→ réviser la structure
→ tester les contrefactuels et les prédictions interventionnelles
→ itérer jusqu'à ce que le modèle causal se stabilise
Le résultat est quelque chose que nous n'avons jamais eu auparavant :
un système causal construit à l'intérieur du LLM en utilisant sa propre connaissance latente du monde.
À travers des benchmarks synthétiques, des domaines réels et désordonnés, ces LCMs surpassent les méthodes classiques de découverte causale parce qu'ils tirent de l'immense connaissance préalable du LLM au lieu de se baser uniquement sur des corrélations locales.
Et le raisonnement contrefactuel ?
Étonnamment puissant.
Le modèle peut répondre à des questions "et si" sur lesquelles les algorithmes standards échouent complètement, simplement parce qu'il "sait" déjà des choses sur le monde que ces algorithmes ne peuvent pas inférer à partir des données seules.
Cet article laisse entrevoir un avenir où les LLMs ne sont pas seulement des machines à motifs.
Ils deviennent des moteurs causaux, des systèmes qui forment, testent et affinent des explications structurelles de la réalité.
Si cela se développe, chaque domaine qui repose sur l'inférence causale - économie, médecine, politique, science - est sur le point d'être réécrit.
Les LLMs ne vous diront pas seulement ce qui se passe.
Ils vous diront pourquoi.

21
Ce document de DeepMind vient de tuer discrètement le mensonge le plus réconfortant en matière de sécurité de l'IA.
L'idée que la sécurité concerne le comportement des modèles la plupart du temps semble raisonnable. C'est aussi faux au moment où les systèmes se développent. DeepMind montre pourquoi les moyennes cessent d'avoir de l'importance lorsque le déploiement atteint des millions d'interactions.
Le document reformule la sécurité de l'AGI comme un problème de distribution. Ce qui compte, ce n'est pas le comportement typique. C'est la queue. Les échecs rares. Les cas limites. Les événements à faible probabilité qui semblent ignorables dans les tests mais deviennent inévitables dans le monde réel.
Les benchmarks, les tests de résistance et les démonstrations échantillonnent tous le milieu. Le déploiement échantillonne tout. Des utilisateurs étranges, des incitations bizarres, des boucles de rétroaction hostiles, des environnements pour lesquels personne n'a prévu. À grande échelle, ces cas cessent d'être rares. Ils sont garantis.
Voici l'idée inconfortable : le progrès peut faire paraître les systèmes plus sûrs tout en les rendant silencieusement plus dangereux. Si la capacité croît plus vite que le contrôle de la queue, les échecs visibles diminuent tandis que le risque catastrophique s'accumule hors écran.
Deux modèles peuvent sembler identiques en moyenne et pourtant différer énormément dans le comportement en cas de pire scénario. Les évaluations actuelles ne peuvent pas voir cet écart. Les cadres de gouvernance supposent qu'ils le peuvent.
Vous ne pouvez pas certifier la sécurité avec des tests finis lorsque le risque réside dans le changement de distribution. Vous ne testez jamais le système que vous déployez réellement. Vous échantillonnez un avenir que vous ne contrôlez pas.
C'est la véritable chute.
La sécurité de l'AGI n'est pas un attribut du modèle. C'est un problème de systèmes. Le contexte de déploiement, les incitations, la surveillance et combien de risques de queue la société tolère comptent tous plus que des moyennes propres.
Ce document ne rassure pas. Il supprime l'illusion.
La question n'est pas de savoir si le modèle se comporte généralement bien.
C'est ce qui se passe quand il ne le fait pas — et combien de fois cela est permis avant que l'échelle ne le rende inacceptable.
Document :

20
Le style de prompt interne d'Anthropic est complètement différent de ce que la plupart des gens enseignent.
J'ai passé 3 semaines à analyser leur documentation officielle, leur bibliothèque de prompts et des exemples d'API.
Seulement 2 % des utilisateurs connaissent le prompting structuré en XML.
Voici tous les secrets que j'ai extraits 👇

22
Meilleurs
Classement
Favoris
