Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Julian Schrittwieser
Anggota Staf Teknis di Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Prev Insinyur Riset Utama di DeepMind
Saya bersenang-senang mengobrol dengan @mattturck dari podcast MAD minggu ini! Kami membahas tren dalam AI, RL, dan mengapa AI, dan mengapa membuka kunci Agen, penskalaan, dan banyak lagi:
Tautan ke apa yang kita bicarakan dan bacaan lebih lanjut:

Matt Turck24 Okt 2025
Gagal memahami eksponensial, lagi?
Percakapan saya dengan @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - tentang Move 37, Scaling RL, Hadiah Nobel untuk AI, dan perbatasan AI:
00:00 - Terbuka dingin: "Kami tidak melihat perlambatan."
00:32 - Intro — Temui Julian
01:09 - "Eksponensial" dari dalam laboratorium perbatasan
04:46 - 2026–2027: agen yang bekerja sehari penuh; Luasnya tingkat ahli
08:58 - Tolok ukur vs kenyataan: pekerjaan jangka panjang, PDB-Val, nilai pengguna
10:26 - Langkah 37 — apa yang sebenarnya terjadi dan mengapa itu penting
13:55 - Sains baru: AlphaCode/AlphaTensor → kapan AI mendapatkan Nobel?
16:25 - Diskontinuitas vs kemajuan yang lancar (dan tanda-tanda peringatan)
19:08 - Apakah pra-pelatihan + RL membawa kita ke sana? (Selain perdebatan AGI)
20:55 - "RL dari awal" Sutton? Pendapat Julian
23:03 - Jalan Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (belajar + mencari) dalam bahasa Inggris sederhana
30:16 - AlphaGo Zero (tanpa data manusia)
31:00 - AlphaZero (satu algoritma: Go, catur, shogi)
31:46 - MuZero (perencanaan dengan model dunia yang dipelajari)
33:23 -Pelajaran untuk agen hari ini: pencarian + pembelajaran dalam skala besar
34:57 - Apakah LLM sudah memiliki model dunia implisit?
39:02 - Mengapa RL pada LLM membutuhkan waktu (stabilitas, loop umpan balik)
41:43 - Komputasi & penskalaan untuk RL — apa yang kita lihat sejauh ini
42:35 - Perbatasan hadiah: prefs manusia, rubrik, RLVR, hadiah proses
44:36 - Data pelatihan RL & "roda gila" (dan mengapa kualitas penting)
48:02 - RL & Agents 101 — mengapa RL membuka ketahanan
50:51 - Haruskah pembangun menggunakan RL-as-a-service? Atau hanya alat + petunjuk?
52:18 - Apa yang hilang untuk agen yang dapat diandalkan (kemampuan vs teknik)
53:51 - Evals & Goodhart — tolok ukur internal vs eksternal
57:35 - Interpretabilitas mekanistik & "Golden Gate Claude"
1:00:03 - Keselamatan & penyelarasan di Anthropic — bagaimana hal itu muncul dalam praktik
1:03:48 - Pekerjaan: komplementaritas manusia-AI (keunggulan komparatif)
1:06:33 - Ketidaksetaraan, kebijakan, dan kasus untuk 10× produktivitas → kelimpahan
1:09:24 - Penutup
43,1K
Teratas
Peringkat
Favorit

