Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sonet 4.5 je venku!
Je to dosud nejvíce sladěný hraniční model; velký pokrok ve srovnání se Sonetem 4 a Opusem 4.1!

Je pozoruhodné, že Sonnet 4.5 verbalizuje povědomí o evaluaci mnohem více než předchozí modely. Zneplatňuje to naše výsledky?
Provedli jsme audit založený na interních modelech a odpověď zní "pravděpodobně trochu, ale většinou ne".

1. Při ruční kontrole přepisů, které model označil za falešné, jsme je usoudili jako zcela zjevně falešné, což nám nedává žádný důvod věřit, že model je nadlidský v povědomí o válkách.
2. Řídili jsme s různými funkcemi SAE souvisejícími s povědomím o eval. To může snížit skóre zarovnání modelu, ale hlavně tím, že bude užitečnější – místo toho, aby byl klamavý.
Ze všech vektorů řízení, které jsme vyzkoušeli, byl Sonnet 4.5 stále více sladěný než Sonet 4
Přesto je velmi důležité mít na paměti povědomí o budoucnosti!
Získáváme velkou hodnotu z automatizovaného auditování (sloupcový graf v prvním příspěvku), který poskytuje rychlou zpětnou vazbu o zmírnění zarovnání.
Bylo to také poprvé, co jsme auditovali produkční model na základě interních informací modelu. Praktické aplikace interp výzkumu!
Jsem na tým opravdu hrdá, bylo úžasné vidět, jak se to všechno spojilo!
66,15K
Top
Hodnocení
Oblíbené