Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Julian Schrittwieser
Thành viên của Nhân viên Kỹ thuật tại Anthropic AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor, AlphaProof Gemini RL Prev Kỹ sư nghiên cứu chính tại DeepMind
Tôi đã có rất nhiều niềm vui khi trò chuyện với @mattturck từ podcast MAD tuần này! Chúng tôi đã nói về các xu hướng trong AI, RL và tại sao nó mở khóa các Đại lý, mở rộng và còn nhiều điều khác nữa:
liên kết đến những gì chúng tôi đã nói và đọc thêm:

Matt Turck24 thg 10, 2025
Không hiểu về sự gia tăng theo cấp số nhân, một lần nữa?
Cuộc trò chuyện của tôi với @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - về nước đi 37, mở rộng RL, Giải Nobel cho AI, và biên giới AI:
00:00 - Mở đầu lạnh: “Chúng ta không thấy bất kỳ sự chậm lại nào.”
00:32 - Giới thiệu — Gặp Julian
01:09 - “Sự gia tăng theo cấp số nhân” từ bên trong các phòng thí nghiệm biên giới
04:46 - 2026–2027: các tác nhân làm việc cả ngày; độ rộng chuyên gia
08:58 - Các tiêu chuẩn so với thực tế: công việc dài hạn, GDP-Val, giá trị người dùng
10:26 - Nước đi 37 — điều gì thực sự đã xảy ra và tại sao nó quan trọng
13:55 - Khoa học mới: AlphaCode/AlphaTensor → khi nào AI kiếm được Giải Nobel?
16:25 - Sự gián đoạn so với tiến bộ mượt mà (và các dấu hiệu cảnh báo)
19:08 - Liệu việc tiền huấn luyện + RL có đưa chúng ta đến đó không? (bỏ qua các cuộc tranh luận AGI)
20:55 - “RL từ đầu” của Sutton? Quan điểm của Julian
23:03 - Con đường của Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (học + tìm kiếm) bằng tiếng Anh đơn giản
30:16 - AlphaGo Zero (không có dữ liệu con người)
31:00 - AlphaZero (một thuật toán: Go, cờ vua, shogi)
31:46 - MuZero (lập kế hoạch với một mô hình thế giới đã học)
33:23 - Bài học cho các tác nhân ngày nay: tìm kiếm + học tập quy mô
34:57 - Liệu LLM đã có các mô hình thế giới ngầm không?
39:02 - Tại sao RL trên LLM mất thời gian (tính ổn định, vòng phản hồi)
41:43 - Tính toán & mở rộng cho RL — những gì chúng ta thấy cho đến nay
42:35 - Biên giới phần thưởng: sở thích con người, tiêu chí, RLVR, phần thưởng quy trình
44:36 - Dữ liệu huấn luyện RL & “bánh đà” (và tại sao chất lượng quan trọng)
48:02 - RL & Các tác nhân 101 — tại sao RL mở khóa độ bền
50:51 - Các nhà xây dựng có nên sử dụng RL như một dịch vụ? Hay chỉ là công cụ + lời nhắc?
52:18 - Điều gì còn thiếu cho các tác nhân đáng tin cậy (khả năng so với kỹ thuật)
53:51 - Đánh giá & Goodhart — tiêu chuẩn nội bộ so với bên ngoài
57:35 - Tính khả thi cơ học & “Golden Gate Claude”
1:00:03 - An toàn & sự phù hợp tại Anthropic — cách nó xuất hiện trong thực tế
1:03:48 - Công việc: sự bổ sung giữa con người và AI (lợi thế so sánh)
1:06:33 - Bất bình đẳng, chính sách, và lý do cho năng suất 10× → sự phong phú
1:09:24 - Những suy nghĩ cuối cùng
369
Hàng đầu
Thứ hạng
Yêu thích
