dự án Kỹ Thuật LLM từng bước mỗi dự án = một khái niệm được học theo cách khó (tức là thực tế) Phân tách và Nhúng > xây dựng bộ mã hóa byte-pair + đào tạo từ vựng subword của riêng bạn > viết một "trình trực quan hóa token" để ánh xạ từ/đoạn thành ID > one-hot so với nhúng học được: vẽ khoảng cách cosine Nhúng Vị trí > sinusoidal cổ điển so với học được so với RoPE so với ALiBi: trình diễn cả bốn > hoạt hình một chuỗi đồ chơi được "mã hóa vị trí" trong 3D > loại bỏ vị trí—nhìn sự chú ý sụp đổ Tự Chú Ý & Chú Ý Đa Đầu > kết nối tay chú ý điểm sản phẩm cho một token > mở rộng đến đa đầu, vẽ bản đồ nhiệt trọng số theo đầu > che các token tương lai, xác minh thuộc tính nguyên nhân transformers, QKV, & xếp chồng > xếp chồng các triển khai Chú ý với LayerNorm và các phần dư → transformer khối đơn > tổng quát: "mini-former" n khối trên dữ liệu đồ chơi > phân tích Q, K, V: hoán đổi chúng, phá vỡ chúng, xem cái gì nổ Tham số Lấy Mẫu: temp/top-k/top-p ...