projets d'ingénierie LLM étape par étape en chaque projet = un concept appris à la dure (c'est-à-dire de manière réelle) Tokenisation & Embeddings > construire un encodeur byte-pair + entraîner votre propre vocabulaire de sous-mots > écrire un "visualiseur de tokens" pour mapper des mots/segments à des ID > one-hot vs embedding appris : tracer les distances cosinus Embeddings positionnels > sinusoidal classique vs appris vs RoPE vs ALiBi : démontrer les quatre > animer une séquence jouet étant "position-encodée" en 3D > ablater les positions — regarder l'attention s'effondrer Auto-attention & Attention multi-tête > câbler manuellement l'attention par produit scalaire pour un token > passer à multi-tête, tracer des cartes thermiques de poids par tête > masquer les tokens futurs, vérifier la propriété causale transformers, QKV, & empilement > empiler les implémentations d'Attention avec LayerNorm et résiduels → transformateur à bloc unique > généraliser : "mini-former" à n-blocs sur des données jouets > disséquer Q, K, V : les échanger, les casser, voir ce qui explose Paramètres d'échantillonnage : temp/top-k/top-p ...