熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Ahmad
人工智慧研究員和軟體工程師,肩負著建立 DGX B200 GPU 叢集的使命
- 你是
- 一個對 LLM 工作一無所知的隨機計算機科學畢業生
- 厭倦了人們用大詞和小 GPU 來設限
- 決定全心投入修行模式
- 兩年後我可以在聚會上解釋注意力機制並毀掉它們
- 這是禁忌知識地圖
- 從上到下,LLMs *實際上* 是如何工作的
- 從頭開始
- 文本 → 令牌
- 令牌 → 嵌入
- 你現在是 4D 空間中的一個浮點數
- 相應地調整心態
- 位置嵌入:
- 絕對:"我在位置 5"
- 旋轉(RoPE):"我是一條正弦波"
- 藉口:"我根據距離像個仇恨者一樣縮放注意力"
- 注意力是你所需要的一切
- 自注意力:"我可以關注誰?"
- 多頭:"如果我並行做 8 次會怎樣?"
- QKV:查詢,鍵,值
- 聽起來像個加密騙局
- 實際上是智能的核心
- 變換器:
- 接收你的輸入
- 通過注意力層進行處理
- 歸一化,激活,重複
- 傾倒 logits
- 恭喜,你剛剛推斷出一個令牌
- 最終輸出的採樣技巧:
- 溫度:你想要多混亂
- top-k:只從前 K 個選項中採樣
- top-p:從概率總和為 p 的最小令牌組中採樣
- beam search?永遠不要問關於 beam search 的事
- kv 緩存 = 作弊碼
- 保存過去的鍵和值
- 讓你跳過重新處理舊令牌
- 讓一個 90B 模型從 "救命,我在融化" 變成 "實時天才"
- 長上下文技巧:
- 滑動窗口:像掃描儀一樣移動注意力
- 無限注意力:稀疏關注,像激光狙擊手
- 記憶層:像日記一樣存儲想法並具有讀取權限
- 專家混合(MoE):
- 不是所有權重都重要
- 將令牌路由到不同的子網絡
- 只激活 ~3B 參數中的 80B
- "只有專家回覆" 的能量
- 分組查詢注意力(GQA):
- 查詢的鍵/值少於查詢
- 提高推理速度
- "我想快而不傻"
- 歸一化與激活:
- 層歸一化,RMS 歸一化
- gelu,silu,relu
- 它們聽起來像失敗的寶可夢
- 但它們使網絡穩定和平滑
- 訓練目標:
- 因果語言模型:猜測下一個單詞
- 掩碼語言模型:猜測缺失的單詞
- 跨度預測,填空等
- LLMs 訓練於猜測的藝術並變得擅長
- 調優風味:
- 微調:新的權重
- 指令調優:"請表現得有幫助"
- rlhf:來自氛圍和點擊誘餌提示的強化
- dpo:直接偏好優化——基本上是"做人類點贊的事"
- 擴展法則:
- 更多數據,更多參數,更多計算
- 損失可預測地下降
- 智能現在是預算的一項
- 獎勵回合:
- 量化:
- 訓練後量化(PTQ)
- 量化感知訓練(QAT)
- 模型縮小,推理變得更便宜
- gguf,awq,gptq——都是帶有額外調料的壓縮文件
- 訓練與推理堆棧:
- deepspeed,megatron,fschat——為了痛苦
- vllm,tgi,tensorRT-LLM——為了速度
- 每個人都有一個倉庫
- 沒有人閱讀文檔
- 合成數據:
- 生成你自己的訓練集
- 模型自我教學
- 知識與幻覺的反饋循環
- 歡迎來到烏洛波洛斯時代
- 最終 Boss 秘密:
- 你可以在 ~2 年內學會 *所有這些*
- 不需要博士學位
- 不需要 10 倍計算
- 只需無盡的好奇心,好的書籤和熬夜
- 精英們不希望你知道這些
- 但現在你知道了
- 選擇行動
- 現在就開始
- 構建模型
422
熱門
排行
收藏