Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Xây dựng @EurekaLabsAI. Trước đây là Giám đốc AI @ Tesla, nhóm sáng lập @ OpenAI, CS231n / PhD @ Stanford. Tôi thích đào tạo các mạng nơ-ron sâu lớn.
Bài viết mới: miniseries nanochat v1
Cách đúng để nghĩ về LLM là bạn không tối ưu hóa cho một mô hình cụ thể mà cho một gia đình các mô hình được kiểm soát bởi một núm điều chỉnh duy nhất (tính toán mà bạn muốn chi tiêu) để đạt được kết quả tốt hơn một cách liên tục. Điều này cho phép bạn thực hiện khoa học cẩn thận về các quy luật mở rộng và cuối cùng đây là điều mang lại cho bạn sự tự tin rằng khi bạn trả tiền cho "cuộc chạy lớn", việc ngoại suy sẽ hoạt động và tiền của bạn sẽ được chi tiêu hợp lý. Đối với lần phát hành công khai đầu tiên của nanochat, tôi đã tập trung vào quy trình đầu cuối chạy toàn bộ quy trình LLM với tất cả các giai đoạn của nó. Bây giờ, sau khi thực hiện một vài lần chạy trước đó, tôi quay lại để làm rõ một số phần mà tôi đã vội vàng, bắt đầu tất nhiên với việc tiền huấn luyện, điều này vừa nặng về tính toán vừa quan trọng như là nền tảng của trí tuệ và kiến thức trong các mô hình này.
Sau khi điều chỉnh một số siêu tham số tại chỗ, tôi đã thử nghiệm một số mô hình cố định ngân sách FLOPs. (Đối với mỗi mục tiêu FLOPs, bạn có thể huấn luyện một mô hình nhỏ trong thời gian dài, hoặc một mô hình lớn trong thời gian ngắn.) Hóa ra nanochat tuân theo các quy luật mở rộng rất tốt, cơ bản là tái tạo các biểu đồ trong tài liệu Chinchilla:
Đây chỉ là một phiên bản nhỏ của biểu đồ này từ Chinchilla:
Rất quan trọng và khuyến khích, số mũ trên N (các tham số) và D (các token) bằng nhau ở khoảng ~=0.5, vì vậy giống như Chinchilla, chúng tôi có một hằng số (không phụ thuộc vào tính toán) liên kết kích thước mô hình với các chân trời huấn luyện token. Trong Chinchilla, điều này được đo là 20. Trong nanochat, có vẻ như là 8!
Khi chúng tôi có thể huấn luyện các mô hình tối ưu về tính toán, tôi đã thử nghiệm một miniseries từ d10 đến d20, đây là kích thước nanochat có thể thực hiện kích thước lô 2**19 ~= 0.5M trên nút 8XH100 mà không cần tích lũy gradient. Chúng tôi có các biểu đồ huấn luyện đẹp, không giao nhau cho mỗi kích thước mô hình.
Sau đó, phần thú vị là liên kết miniseries v1 này với miniseries GPT-2 và GPT-3 để chúng tôi biết rằng chúng tôi đang đi đúng hướng. Mất mát xác thực có nhiều vấn đề và không thể so sánh, vì vậy thay vào đó tôi sử dụng điểm số CORE (từ tài liệu DCLM). Tôi đã tính toán nó cho GPT-2 và ước lượng nó cho GPT-3, điều này cho phép chúng tôi cuối cùng đặt nanochat một cách đẹp đẽ và trên cùng một thang đo:
Tổng chi phí của miniseries này chỉ khoảng ~$100 (~4 giờ trên 8XH100). Những thí nghiệm này mang lại cho chúng tôi sự tự tin rằng mọi thứ đang hoạt động khá tốt và nếu chúng tôi chi nhiều hơn (vặn núm), chúng tôi sẽ có được các mô hình ngày càng tốt hơn.
Tóm lại: chúng tôi có thể huấn luyện các miniseries tối ưu về tính toán và liên kết chúng với GPT-2/3 thông qua các điểm số CORE mục tiêu, nhưng cần có những cải tiến hơn nữa. Ví dụ, việc khớp với GPT-2 hiện tại cần khoảng ~$500, nhưng theo ý kiến của tôi, nên có thể thực hiện dưới $100 với nhiều công việc hơn.
Bài viết đầy đủ với nhiều chi tiết hơn ở đây:
Và tất cả các điều chỉnh và mã đã được đẩy lên master và mọi người có thể tái tạo những điều này với các tập lệnh bash scaling_laws .sh và miniseries .sh.




1,13K
Chuyến đi hoàn toàn tự động đầu tiên từ bờ biển này sang bờ biển khác trên Tesla FSD V14.2! 2 ngày 20 giờ, 2732 dặm, không có can thiệp nào.
Điều này đặc biệt vì chuyến đi từ bờ biển này sang bờ biển khác là một mục tiêu lớn của đội ngũ lái tự động ngay từ đầu. Rất nhiều giờ đã được dành cho các phiên xem lại clip marathon muộn vào ban đêm để xem xét các can thiệp khi chúng tôi cố gắng thực hiện các chặng đường của chuyến đi theo thời gian - phân loại, phân loại, lập kế hoạch cho tất cả các dự án để thu hẹp khoảng cách và đưa số lượng can thiệp về không.
Thật tuyệt vời khi thấy hệ thống thực sự đạt được điều đó và chúc mừng đội ngũ rất nhiều!

David Moss31 thg 12, 2025
Tôi tự hào thông báo rằng tôi đã hoàn thành thành công chuyến đi tự động hoàn toàn đầu tiên trên thế giới từ bờ biển này sang bờ biển khác của Mỹ!
Tôi đã rời khỏi Tesla Diner ở Los Angeles cách đây 2 ngày và 20 giờ, và giờ đây đã kết thúc tại Myrtle Beach, SC (2,732.4 miles)
Điều này được thực hiện với Tesla FSD V14.2 mà không có bất kỳ sự ngắt kết nối nào, ngay cả khi đỗ xe, bao gồm cả tại các trạm sạc Tesla.

414
Hàng đầu
Thứ hạng
Yêu thích
