DApp Store | Centrum Web3 pro události a hry

Populární témata

Sonet 4.5 je venku! Je to dosud nejvíce sladěný hraniční model; velký pokrok ve srovnání se Sonetem 4 a Opusem 4.1!

Je pozoruhodné, že Sonnet 4.5 verbalizuje povědomí o evaluaci mnohem více než předchozí modely. Zneplatňuje to naše výsledky? Provedli jsme audit založený na interních modelech a odpověď zní "pravděpodobně trochu, ale většinou ne".

1. Při ruční kontrole přepisů, které model označil za falešné, jsme je usoudili jako zcela zjevně falešné, což nám nedává žádný důvod věřit, že model je nadlidský v povědomí o válkách.

2. Řídili jsme s různými funkcemi SAE souvisejícími s povědomím o eval. To může snížit skóre zarovnání modelu, ale hlavně tím, že bude užitečnější – místo toho, aby byl klamavý. Ze všech vektorů řízení, které jsme vyzkoušeli, byl Sonnet 4.5 stále více sladěný než Sonet 4

Přesto je velmi důležité mít na paměti povědomí o budoucnosti!

Získáváme velkou hodnotu z automatizovaného auditování (sloupcový graf v prvním příspěvku), který poskytuje rychlou zpětnou vazbu o zmírnění zarovnání. Bylo to také poprvé, co jsme auditovali produkční model na základě interních informací modelu. Praktické aplikace interp výzkumu!

Jsem na tým opravdu hrdá, bylo úžasné vidět, jak se to všechno spojilo!

66,15K

Top

Hodnocení

Oblíbené