Je to rozumný způsob, jak bootstrapovat laboratoř s nevhodnou GPU, ale překvapuje mě, že MSL to dělá. Ani to nedělám jako GPU střední třída (existují mnohem lepší způsoby)
Bloomberg uvádí, že laboratoř superinteligence META využívá Gemma, open source model OpenAI, a Qwen k trénování svého dalšího velkého modelu s krycím názvem Avocado.
Zajímalo by mě, jaká by byla ideální velikost MOE pro každého? Obvykle pracuji se dvěma tvary, se kterými pracuji, jsou 7A2B a 16B4A, ale ty se stále zdají být spíše na 'velkém' konci, když se mluví o 'malých' modelech