Jo vanskeligere oppgaven er, jo mindre bryr du deg om folks rase eller kjønn eller hva som helst, enten i rasistisk forstand eller mangfoldsforstand. Du er så desperat bare etter å finne noen som kan gjøre det bra at du ikke tenker på noe annet.
OpenAI ga nylig ut sin første modell med åpne vekter siden GPT-2, og gikk inn i et felt ledet av DeepSeek og Alibabas Qwen.
Ankit (@GuptaAnkitV) bryter ned disse beste OSS-modellene, inkludert hva som skiller dem under panseret: blanding av eksperter, trening med lang kontekst og teknikker etter trening som former resonnement og justering – og hvordan forskjellige designvalg fører til overraskende lik ytelse.
00:00 – OpenAI OSS-lansering
01:00 – Sammenligning av åpen kildekode LLM-arkitekturer
01:46 – GPT OSS-oversikt
02:37 – Under panseret på GPT OSS
03:25 – Qwen-3 Arkitektur
04:17 – Qwen-3 trening
05:12 – Qwen-3 Etter trening
06:08 – Qwen-3 Resonnement og RL-innovasjoner
06:52 – DeepSeek V3 – Oversikt over DeepSeek V3
07:40 - DeepSeek V3.1-oppdateringer
08:39 – Oppmerksomhetsmekanisme (MLA)
09:39 – Sammenligning av modellstørrelser
10:35 – Lange kontekststrategier
11:25 – Refleksjoner over metoder
12:00 – Takeaways