Dette er en rimelig måte å starte opp et dårlig GPU-laboratorium på, men jeg er overrasket over at MSL gjør dette. Jeg gjør ikke engang dette som en GPU-middelklasse (det finnes mye bedre måter)
Bloomberg rapporterer at METAs superintelligenslaboratorium bruker Gemma, OpenAIs åpen kildekode-modell, og Qwen for å trene sin neste store modell, med kodenavn Avocado.
Jeg er nysgjerrig på hva alles ideelle 'tiny' Moe-størrelse ville være? de to formene jeg vanligvis jobber med er 7A2B og 16B4A, men de virker fortsatt å være på den 'store' enden når folk diskuterer 'små' modeller