トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
AI 研究者兼ソフトウェア エンジニア、DGX B200 GPU クラスターの構築をミッションに
ステップバイステップのLLMエンジニアリングプロジェクト
各プロジェクト=1つのコンセプトを苦労(つまり、実際の)方法で学んだ
トークン化と埋め込み
> バイトペアエンコーダーの構築 + 独自のサブワード語彙のトレーニング
> 単語/チャンクを ID にマッピングする「トークン ビジュアライザー」を記述します
> one-hot と learned-embedding: プロットコサイン距離
位置埋め込み
>古典的な正弦波 vs 学習 vs RoPE vs ALiBi: 4 つすべてのデモ
> 3D で「位置エンコード」されるおもちゃのシーケンスをアニメーション化します
> アブレート位置 - 注意が崩壊するのを見てください
セルフアテンションとマルチヘッドアテンション
> 1 つのトークンに対する手作業のワイヤ ドット積の注意
> マルチヘッドにスケールし、ヘッドあたりの体重ヒートマップをプロットします
将来のトークンをマスクする>、因果関係の特性を検証する
変圧器、QKV、スタッキング
> Attention実装をLayerNormと残差をシングルブロックトランスフォーマー→スタックします
>一般化:おもちゃデータのnブロック「ミニフォーマー」
Q、K、Vを解剖する>:それらを交換し、壊し、何が爆発するかを見てください
サンプリングパラメータ:temp/top-k/top-p
サンプラーダッシュボードのコーディング> — temp/k/pとサンプル出力をインタラクティブに調整
> パラメータをスイープする際のエントロピーと出力の多様性をプロットします
> nuke temp=0 (argmax): 繰り返しを見る
KVキャッシュ(高速推論)
KV 状態を記録して再利用する>。高速化とキャッシュなしの測定
> トークンストリームの「キャッシュヒット/ミス」ビジュアライザーを構築する
> 長いシーケンスと短いシーケンスのプロファイル キャッシュ メモリ コスト
ロングコンテキストのトリック:Infini-Attention / Sliding Window
> スライドウィンドウアテンションを実装します。長いドキュメントで損失を測定する
>ベンチマークの「メモリ効率が高い」(再計算、フラッシュ)バリアント
プロットの困惑とコンテキストの長さ>。コンテキストの折りたたみ点の検索
専門家の混合 (MoE)
> 2 エキスパート ルーター レイヤーをコーディングします。トークンを動的にルーティングする
> データセットに対するエキスパート使用率ヒストグラムのプロット
> スパース/ミックススワップをシミュレートします。FLOPの節約を測定する
グループ化されたクエリアテンション
> ミニフォーマーをグループ化されたクエリレイアウトに変換する
> 大ロットでバニラマルチヘッドの速度を測定
> グループ数をアブレートし、レイテンシーをプロットします
正規化とアクティベーション
> LayerNorm、RMSNorm、SwiGLU、GELUを手作業で実装
それぞれをアブレーション>、トレーニング/テストの損失はどうなりますか?
> 活性化分布をレイヤーごとにプロットします
事前トレーニングの目的
> おもちゃのテキストにマスクされた LM と因果関係の LM と接頭辞 LM をトレーニングします
>損失曲線をプロットします。どちらが「英語」を早く学ぶかを比較
それぞれからサンプルを生成する> — 癖に注意
フィネチューニング vs 命令チューニング vs RLHF
> 小さなカスタムデータセットを微調整する
タスクの先頭に ("Summarize: ...") を付けて命令を調整>
> RLHF: 報酬モデルをハッキングし、PPO を 10 ステップ使用し、報酬をプロットする
スケーリング法則とモデル容量
> 小規模、小規模、中規模のモデルをトレーニングする — プロット損失とサイズ
>ベンチマークウォールクロック時間、VRAM、スループット
スケーリング曲線を外挿する>、どれだけ「愚か」になれるでしょうか?
量子化
>コード:PTQ&QAT;GGUF / AWQにエクスポートします。プロット精度の低下
推論/トレーニングスタック:
> HuggingFace から Deepspeed、vLLM、ExLlama にモデルを移植します
> プロファイル スループット、VRAM、3 つすべてのレイテンシ
合成データ
> おもちゃデータの生成、ノイズの追加、重複排除、評価分割の作成
> 実際のシンセでモデルの学習曲線を視覚化する
各プロジェクト = 1 つのコア インサイト。建てる。陰謀。壊す。繰り返す。
>理論上、あまり長く立ち往生しない
コード>、デバッグ、アブレート、さらにはグラフをミーム化します笑
>それぞれを終えて、学んだことを投稿してください
未来の自分は後であなたに感謝するでしょう
37.5K
重要なトピックLLM の仕組みを学ぶには、トークン化と埋め込み> CS Foundation があれば、< 2 年しかかかりません
>位置埋め込み(絶対、ロープ、アリバイ)
>セルフアテンションとマルチヘッドアテンション
>変圧器
>qkv
> サンプリングパラメータ: 温度、top-k top-p
>kvキャッシュ(および推論が速い理由)
> Infini Attention & Sliding Window(長いコンテキストのトリック)
エキスパートの>混在(萌えルーティングレイヤー)
>グループ化されたクエリアテンション
正規化とアクティブ化>
>事前トレーニングの目標(因果関係、マスクなど)
> finetuning vs instruction tuning vs rlhf
>スケーリング法則とモデル容量曲線
ボーナストピック:
>量子化 - QAT と PTQ (GGUFS、AWQ など)
>トレーニングと推論スタック(DeepSpeed、VLLMなど)
>合成データ生成
5.51K
トップ
ランキング
お気に入り