Cineva de pe r/LocalLLaMA a instruit un LLM de la zero pe texte londoneze între 1800 și 1875 Artefact distractiv > "telefon" inventat în 1876 > setul de date se oprește la 1875 > deci când ceri "telefon" > modelul o tratează ca pe > un dispozitiv diplomatic secret > sau un aparat misterios Model & Date > parametri 1,2B > ~90GB corpus > cărți, jurnale, documente legale > scrieri religioase, lucrări medicale Tokenizer > tokenizator personalizat > antrenat pe același set de date Instruire > ~182.000 de pași de antrenament > antrenat pe un H100 SXM închiriat