temas clave para aprender cómo funcionan los llms, todo lo que se necesita es < 2 años si tienes una base en cs > tokenización y embeddings > embeddings posicionales (absolutos, rope, alibi) > autoatención y atención multi-cabeza > transformadores > qkv > parámetros de muestreo: temperatura, top-k top-p > caché kv (y por qué la inferencia es rápida) > atención infinita y ventana deslizante (trucos de contexto largo) > mezcla de expertos (capas de enrutamiento moe) > atención de consulta agrupada > normalización y activaciones > objetivos de preentrenamiento (causal, enmascarado, etc) > ajuste fino vs ajuste por instrucciones vs rlhf > leyes de escalado y curvas de capacidad del modelo temas adicionales: > cuantizaciones - qat vs ptq (ggufs, awq, etc) > pilas de entrenamiento vs inferencia (deepspeed, vllm, etc) > generación de datos sintéticos