Alguien en r/LocalLLaMA formó un LLM desde cero sobre textos de Londres desde 1800 hasta 1875 Artefacto divertido > "teléfono" inventado en 1876 > conjunto de datos se detiene en 1875 > así cuando le pides "teléfono" > la modelo lo trata así > algún dispositivo diplomático secreto > o un aparato misterioso Modelo y Datos > Parámetros 1,2B > ~90GB corpus > libros, revistas, documentos legales > escritos religiosos, artículos médicos Tokenizador > tokenizador personalizado > entrenados con el mismo conjunto de datos Formación > ~182k pasos de entrenamiento > entrenado con un H100 SXM alquilado