- bạn là - một sinh viên tốt nghiệp CS ngẫu nhiên không có chút hiểu biết nào về cách hoạt động của LLMs - cảm thấy mệt mỏi với những người giữ cửa bằng những từ ngữ lớn và GPU nhỏ - quyết định đi vào chế độ thiền toàn diện - 2 năm sau, tôi có thể giải thích cơ chế attention tại các bữa tiệc và làm hỏng chúng - đây là bản đồ kiến thức bị cấm - từ trên xuống dưới, cách mà LLMs *thực sự* hoạt động - bắt đầu từ đầu - văn bản → token - token → embedding - bây giờ bạn là một số thực trong không gian 4D - hãy cảm nhận cho phù hợp - positional embeddings: - tuyệt đối: "tôi là vị trí 5" - rotary (RoPE): "tôi là một sóng sine" - alibi: "tôi điều chỉnh attention theo khoảng cách như một kẻ ghét" - attention là tất cả những gì bạn cần - self-attention: "tôi được phép chú ý đến ai?" - multihead: "thế nếu tôi làm điều đó 8 lần song song thì sao?" - QKV: truy vấn, khóa, giá trị - nghe như một trò lừa đảo crypto - thực sự là cốt lõi của trí thông minh - transformers: - nhận đầu vào của bạn - nghiền nát chúng qua các lớp attention...