Sonnet 4.5 jest już dostępny! To najbardziej dopasowany model graniczny do tej pory; wiele postępów w porównaniu do Sonnet 4 i Opus 4.1!
Zauważalnie, Sonet 4.5 wyraża świadomość ewaluacji znacznie bardziej niż wcześniejsze modele. Czy to unieważnia nasze wyniki? Przeprowadziliśmy audyt oparty na wewnętrznych mechanizmach modelu i odpowiedź brzmi: „prawdopodobnie trochę, ale głównie nie.”
1. Podczas ręcznego przeglądania transkryptów, które model określa jako fałszywe, uznaliśmy je za dość oczywiście fałszywe, co nie daje nam powodu, by wierzyć, że model jest nadludzki w zakresie świadomości oceny.
2. Kierowaliśmy się różnymi funkcjami SAE związanymi z świadomością oceny. Może to obniżyć wyniki dopasowania modelu, ale głównie poprzez uczynienie go bardziej pomocnym, a nie wprowadzającym w błąd. Dla wszystkich wektorów sterujących, które próbowaliśmy, Sonnet 4.5 wciąż był bardziej dopasowany niż Sonnet 4.
Niemniej jednak, świadomość oceny jest bardzo ważna, aby mieć to na uwadze w przyszłości!
Otrzymujemy dużą wartość z automatycznego audytu (wykres słupkowy w pierwszym poście), co zapewnia szybki cykl informacji zwrotnej na temat działań łagodzących. To był również pierwszy raz, kiedy audytowaliśmy model produkcyjny oparty na wewnętrznych elementach modelu. Praktyczne zastosowania badań nad interpretacją!
Jestem naprawdę dumny z zespołu, było niesamowicie zobaczyć, jak to wszystko się złożyło!
66,15K