- Anda adalah - lulusan CS acak dengan 0 petunjuk cara kerja LLM - bosan dengan orang yang menjaga gerbang dengan kata-kata besar dan GPU kecil - Putuskan untuk menggunakan mode biksu penuh - 2 tahun kemudian saya dapat menjelaskan mekanisme perhatian di pesta dan merusaknya - Inilah peta pengetahuan terlarang - dari atas ke bawah, bagaimana LLM *sebenarnya* bekerja - mulai dari awal - Token → teks - token → penyematan - Anda sekarang adalah angka floating point dalam ruang 4D - getaran sesuai - penyematan posisi: - Absolut: "Saya Posisi 5" - rotary (RoPE): "saya adalah gelombang sinus" - Alibi: "Saya Skala Perhatian Berdasarkan Jarak Seperti Pembenci" - perhatian adalah semua yang Anda butuhkan - Perhatian diri: "Siapa yang boleh saya perhatikan?" - Multihead: "Bagaimana jika saya melakukannya 8 kali secara paralel?" - QKV: kueri, kunci, nilai - terdengar seperti penipuan kripto - sebenarnya inti dari kecerdasan -Transformers: - Ambil masukan Anda - hancurkan mereka melalui lapisan perhatian...