- eres - un graduado de CS aleatorio sin idea de cómo funcionan los LLMs - te cansas de que la gente se ponga barreras con palabras grandes y GPUs pequeñas - decides entrar en modo monje total - 2 años después puedo explicar los mecanismos de atención en fiestas y arruinarlas - aquí está el mapa del conocimiento prohibido - de arriba a abajo, cómo funcionan *realmente* los LLMs - comienza desde el principio - texto → tokens - tokens → embeddings - ahora eres un número de punto flotante en un espacio 4D - vibra en consecuencia - embeddings posicionales: - absoluto: “soy la posición 5” - rotatorio (RoPE): “soy una onda sinusoidal” - alibi: “escalo la atención por distancia como un hater” - la atención es todo lo que necesitas - auto-atención: “¿a quién se me permite prestar atención?” - multihead: “¿y si hago eso 8 veces en paralelo?” - QKV: consulta, clave, valor - suena como un fraude criptográfico - en realidad es el núcleo de la inteligencia - transformadores: - toma tus entradas - aplástalas a través de capas de atención...