John Schulman & Thinking Machines: LoRA bez lítosti LoRA nahrazuje každou váhovou matici W z původního modelu upravenou verzí W'=W+γBAW'=W+γBA, kde B a A jsou matice, které mají dohromady mnohem méně parametrů než W. LoRA funguje podobně jako úplné doladění, když: 1. LoRA je aplikována na všechny vrstvy sítě, zejména na vrstvy MLP/MoE, které obsahují většinu parametrů. 2. LoRA není omezena kapacitou, tj. počet trénovatelných parametrů překračuje množství informací, které je třeba se naučit, což lze odhadnout z hlediska velikosti datové sady. Důsledky: Velké (např. biliony parametrů) základní modely lze přizpůsobit za zlomek nákladů na trénování nového modelu.
Příspěvek Thinking Machines: Gemini o výpočetních požadavcích pro LoRA na hraničním modelu - stále impozantní, ale počet použitých parametrů je menší než 1 % celkové velikosti modelu (předtrénování).
4,29K