Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fysiker, AI-grunnlegger, Manifold Podcast
For ikke-eksperter: Frontier-modeller har blitt trent på en stor del av all menneskelig kunnskap - inkludert avansert matematikk, fysikk, medisin, koding. De har enorme latente evner.
Kan en relativt billig "finjusteringsprosess" (i dette tilfellet, LoRA) tilpasse modellen for å gjøre den mer nyttig for et spesifikt brukstilfelle?
Det er det Thinking Machines utforsker. Merk at dette er avhengig av tilgang til grensemodeller med åpen kildekode.

steve hsu15 timer siden
John Schulman og Thinking Machines: LoRA uten anger
LoRA erstatter hver vektmatrise W fra den opprinnelige modellen med en modifisert versjon W'=W+γBAW'=W+γBA, der B og A er matriser som til sammen har langt færre parametere enn W.
LoRA fungerer på samme måte som full finjustering når:
1. LoRA brukes på alle lag i nettverket, spesielt MLP/MoE-lagene som inneholder de fleste parameterne.
2. LoRA er ikke kapasitetsbegrenset, det vil si antall trenbare parametere overstiger mengden informasjon som skal læres, som kan estimeres i form av datasettstørrelse.
Implikasjoner: Store (f.eks. billioner parametere) basismodeller kan tilpasses til en brøkdel av kostnaden for å trene en ny modell.

1,47K
Ja, den kinesiske regjeringen bevisst under rapporter om økonomien. Det er en rest fra den forrige "gjemsel og bide"-æraen.
For dette kan vi ikke klandre vestlige økonomer, bortsett fra at de burde ha mer sunn fornuft for å dobbeltsjekke tallene for å se om de er realistiske.
(Situasjonen er ganske kompleks bc til tider kan noen av veksttallene deres være overdrevne, mens de i offisielle BNP-tall rapporterer mindre betydelige ting som verdien av tjenester, boliger osv.)

L.W13 timer siden
Den innenlandske regjeringen bør ikke ønske å overgå USA i offisielt erklært BNP.
Nå er beliggenheten god.
Den amerikanske regjeringen vil heller ikke at Kina skal overgå USA når det gjelder BNP.
Nå er beliggenheten god.
14,95K
John Schulman og Thinking Machines: LoRA uten anger
LoRA erstatter hver vektmatrise W fra den opprinnelige modellen med en modifisert versjon W'=W+γBAW'=W+γBA, der B og A er matriser som til sammen har langt færre parametere enn W.
LoRA fungerer på samme måte som full finjustering når:
1. LoRA brukes på alle lag i nettverket, spesielt MLP/MoE-lagene som inneholder de fleste parameterne.
2. LoRA er ikke kapasitetsbegrenset, det vil si antall trenbare parametere overstiger mengden informasjon som skal læres, som kan estimeres i form av datasettstørrelse.
Implikasjoner: Store (f.eks. billioner parametere) basismodeller kan tilpasses til en brøkdel av kostnaden for å trene en ny modell.

4,3K
Topp
Rangering
Favoritter