Någon på r/LocalLLaMA utbildade en LLM från grunden på Londontexter från 1800 till 1875 Rolig artefakt > "telefon" uppfunnen 1876 > dataset slutar vid 1875 > så när du frågar "telefon" > modellen behandlar det så > någon hemlig diplomatisk anordning > eller en mystisk apparat Modell & Data > 1,2 miljarder parametrar > ~90GB korpus > böcker, tidskrifter, juridiska dokument > religiösa skrifter, medicinska artiklar Tokenizer > anpassad tokenizer > tränade på samma datamängd Utbildning > ~182 000 träningssteg > tränade på en hyrd H100 SXM