Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Julian Schrittwieser
Membre du staff technique chez Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Précédent Ingénieur de recherche principal chez DeepMind
J'ai beaucoup aimé discuter avec @mattturck du podcast MAD cette semaine ! Nous avons parlé des tendances en IA, RL et pourquoi cela débloque les Agents, de l'évolutivité et bien plus encore :
liens vers ce dont nous avons parlé et lectures complémentaires :

Matt Turck24 oct. 2025
Ne pas comprendre l'exponentiel, encore une fois ?
Ma conversation avec @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - sur le coup 37, l'échelle de l'apprentissage par renforcement, le prix Nobel pour l'IA, et la frontière de l'IA :
00:00 - Ouverture froide : « Nous ne voyons aucun ralentissement. »
00:32 - Introduction — Rencontrez Julian
01:09 - L'« exponentiel » de l'intérieur des laboratoires de pointe
04:46 - 2026–2027 : des agents qui travaillent toute la journée ; une expertise de niveau expert
08:58 - Référentiels vs réalité : travail à long terme, PIB-Val, valeur utilisateur
10:26 - Coup 37 — que s'est-il réellement passé et pourquoi c'était important
13:55 - Science novatrice : AlphaCode/AlphaTensor → quand l'IA mérite-t-elle un Nobel ?
16:25 - Discontinuité vs progrès fluide (et signes d'avertissement)
19:08 - La pré-formation + RL nous y amène-t-elle ? (débats AGI mis à part)
20:55 - Le « RL from scratch » de Sutton ? L'avis de Julian
23:03 - Le parcours de Julian : Google → DeepMind → Anthropic
26:45 - AlphaGo (apprendre + chercher) en termes simples
30:16 - AlphaGo Zero (pas de données humaines)
31:00 - AlphaZero (un algorithme : Go, échecs, shogi)
31:46 - MuZero (planification avec un modèle du monde appris)
33:23 - Leçons pour les agents d'aujourd'hui : recherche + apprentissage à grande échelle
34:57 - Les LLM ont-ils déjà des modèles du monde implicites ?
39:02 - Pourquoi le RL sur les LLM a pris du temps (stabilité, boucles de rétroaction)
41:43 - Calcul et mise à l'échelle pour le RL — ce que nous voyons jusqu'à présent
42:35 - Frontière des récompenses : préférences humaines, rubriques, RLVR, récompenses de processus
44:36 - Données d'entraînement RL & le « flywheel » (et pourquoi la qualité compte)
48:02 - RL & Agents 101 — pourquoi le RL débloque la robustesse
50:51 - Les constructeurs devraient-ils utiliser le RL en tant que service ? Ou juste des outils + des invites ?
52:18 - Ce qui manque pour des agents fiables (capacité vs ingénierie)
53:51 - Évaluations & Goodhart — benchmarks internes vs externes
57:35 - Interprétabilité mécaniste & « Golden Gate Claude »
1:00:03 - Sécurité & alignement chez Anthropic — comment cela se manifeste dans la pratique
1:03:48 - Emplois : complémentarité humain–IA (avantage comparatif)
1:06:33 - Inégalité, politique, et le cas pour une productivité multipliée par 10 → abondance
1:09:24 - Pensées de clôture
372
En tant que chercheur dans un laboratoire de pointe, je suis souvent surpris de voir à quel point les discussions publiques sont peu conscientes des progrès récents en matière d'IA.
J'ai écrit un article pour résumer les études sur les progrès récents et ce que nous devrions attendre dans les 1 à 2 prochaines années :
649
Meilleurs
Classement
Favoris
