Sonnet 4.5 è uscito! È il modello di frontiera più allineato fino ad ora; molti progressi rispetto a Sonnet 4 e Opus 4.1!
È evidente che il Sonetto 4.5 verbalizza la consapevolezza dell'eval molto più dei modelli precedenti. Questo invalida i nostri risultati? Abbiamo effettuato un audit basato sugli interni del modello e la risposta è "probabilmente un po', ma per lo più no."
1. Quando abbiamo esaminato manualmente i trascritti che il modello indica come falsi, li abbiamo giudicati piuttosto ovviamente falsi, non dandoci alcun motivo per credere che il modello sia sovrumano nella consapevolezza della valutazione.
2. Abbiamo guidato con varie funzionalità SAE relative alla consapevolezza della valutazione. Questo può ridurre i punteggi di allineamento del modello, ma principalmente rendendolo più utile invece di renderlo ingannevole. Per tutti i vettori di guida che abbiamo provato, Sonnet 4.5 era ancora più allineato rispetto a Sonnet 4.
Tuttavia, la consapevolezza della valutazione è molto importante da tenere d'occhio in futuro!
Abbiamo ottenuto un grande valore dall'audit automatizzato (grafico a barre nel primo post), fornendo un rapido feedback sulle mitigazioni di allineamento. Questa è stata anche la prima volta che abbiamo effettuato un audit su un modello di produzione basato sugli interni del modello. Applicazioni pratiche della ricerca sull'interprete!
Sono davvero orgoglioso del team, è stato fantastico vedere come tutto questo si sia unito!
66,16K