Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Peneliti AI & Insinyur Perangkat Lunak, dalam misi untuk membangun klaster GPU DGX B200
- Anda adalah
- lulusan CS acak dengan 0 petunjuk cara kerja LLM
- bosan dengan orang yang menjaga gerbang dengan kata-kata besar dan GPU kecil
- Putuskan untuk menggunakan mode biksu penuh
- 2 tahun kemudian saya dapat menjelaskan mekanisme perhatian di pesta dan merusaknya
- Inilah peta pengetahuan terlarang
- dari atas ke bawah, bagaimana LLM *sebenarnya* bekerja
- mulai dari awal
- Token → teks
- token → penyematan
- Anda sekarang adalah angka floating point dalam ruang 4D
- getaran sesuai
- penyematan posisi:
- Absolut: "Saya Posisi 5"
- rotary (RoPE): "saya adalah gelombang sinus"
- Alibi: "Saya Skala Perhatian Berdasarkan Jarak Seperti Pembenci"
- perhatian adalah semua yang Anda butuhkan
- Perhatian diri: "Siapa yang boleh saya perhatikan?"
- Multihead: "Bagaimana jika saya melakukannya 8 kali secara paralel?"
- QKV: kueri, kunci, nilai
- terdengar seperti penipuan kripto
- sebenarnya inti dari kecerdasan
-Transformers:
- Ambil masukan Anda
- hancurkan mereka melalui lapisan perhatian
- menormalkan, mengaktifkan, mengulangi
- membuang logit
- selamat, Anda baru saja menyimpulkan token
- Trik pengambilan sampel untuk hasil akhir:
- Suhu: seberapa kacau Anda ingin menjadi
- top-k: hanya sampel dari opsi K teratas
- top-p: sampel dari kelompok token terkecil yang probabilitasnya berjumlah p
- pencarian balok? Jangan pernah bertanya tentang pencarian balok
- KV Cache = kode cheat
- menyimpan kunci & nilai sebelumnya
- memungkinkan Anda melewati pemrosesan ulang token lama
- mengubah model 90B dari "bantu saya saya meleleh" menjadi "jenius waktu nyata"
- peretasan konteks panjang:
- Jendela geser: Pindahkan perhatian seperti pemindai
- Perhatian tak terbatas: hadir jarang, seperti penembak jitu laser
- Lapisan memori: Simpan pikiran seperti buku harian dengan akses baca
- campuran ahli (MoE):
- tidak semua bobot penting
- merutekan token ke sub-jaringan yang berbeda
- hanya aktifkan parameter ~3B dari 80B
- "hanya para ahli yang membalas" energi
- perhatian kueri yang dikelompokkan (GQA):
- Kunci/nilai lebih sedikit daripada kueri
- meningkatkan kecepatan inferensi
- "Saya ingin cepat tanpa menjadi bodoh"
- Normalisasi & aktivasi:
- layernorm, RMSnorm
- Gelu, Silu, Relu
- semuanya terdengar seperti Pokémon yang gagal
- tetapi mereka membuat jaringan stabil dan lancar
- Tujuan pelatihan:
- LM kausal: tebak kata berikutnya
- LM bertopeng: tebak kata yang hilang
- prediksi rentang, isi-dalam-tengah, dll
- LLM dilatih dalam seni menebak dan menjadi mahir dalam hal itu
- Penyetelan rasa:
- Finetuning: bobot baru
- Penyetelan instruksi: "Tolong bertindaklah membantu"
- RLHF: Penguatan dari getaran dan prompt clickbait
- DPO: Optimasi Preferensi Langsung — pada dasarnya "lakukan apa yang didukung manusia"
- Hukum Penskalaan:
- lebih banyak data, lebih banyak parameter, lebih banyak komputasi
- kerugian turun secara terprediksi
- Kecerdasan sekarang menjadi item baris anggaran
- Putaran bonus:
- Kuantisasi:
- kuantisasi pasca-pelatihan (PTQ)
- pelatihan sadar kuantum (QAT)
- model menyusut, inferensi menjadi lebih murah
- GGUF, AWQ, GPTQ — semuanya hanya file zip dengan bumbu ekstra
- Tumpukan pelatihan vs inferensi:
- Deepspeed, Megatron, FSchat — untuk rasa sakit
- vllm, tgi, tensorRT-LLM — untuk kecepatan
- Setiap orang memiliki repositori
- Tidak ada yang membaca dokumen
- Data sintetis:
- Buat set pelatihan Anda sendiri
- model mengajarkan dirinya sendiri
- lingkaran umpan balik pengetahuan dan halusinasi
- Selamat datang di era Ouroboros
- Rahasia Bos Terakhir:
- Anda dapat mempelajari *semua ini* dalam ~2 tahun
- tidak ada PhD
- Tidak ada komputasi 10x
- hanya rasa ingin tahu tanpa henti, bookmark yang bagus, dan larut malam
- elit tidak ingin Anda tahu ini
- tetapi sekarang Anda melakukannya
- memilih untuk bertindak
- mulai sekarang
- membangun model
413
Teratas
Peringkat
Favorit