Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sonnet 4.5 is uit!
Het is het meest afgestemde grensmodel tot nu toe; veel vooruitgang ten opzichte van Sonnet 4 en Opus 4.1!

Opmerkelijk is dat Sonnet 4.5 de evaluatiebewustheid veel meer verwoordt dan eerdere modellen. Ongeldig dat onze resultaten?
We hebben een audit uitgevoerd op basis van de interne werking van het model en het antwoord is "waarschijnlijk een beetje, maar voornamelijk niet."

1. Bij het handmatig beoordelen van de transcripties die het model als nep aanduidt, oordeelden we dat ze behoorlijk duidelijk nep waren, wat ons geen reden gaf om te geloven dat het model superieur is in evaluatiebewustzijn.
2. We stuurden met verschillende SAE-functies met betrekking tot evaluatiebewustzijn. Dit kan de afstemming scores van het model verlagen, maar voornamelijk door het nuttiger te maken in plaats van het misleidend te maken.
Voor alle stuurvectoren die we hebben geprobeerd, was Sonnet 4.5 nog steeds meer afgestemd dan Sonnet 4
Desondanks is evaluatiebewustzijn erg belangrijk om in de gaten te houden voor de toekomst!
We hebben veel waarde gehaald uit geautomatiseerde audits (staafdiagram in de eerste post), wat een snelle feedbackloop biedt over afstemming mitigaties.
Dit was ook de eerste keer dat we een productiemodel hebben geaudit op basis van modelinterne gegevens. Praktische toepassingen van interp-onderzoek!
Ik ben echt trots op het team, het was geweldig om te zien hoe dit allemaal samenkwam!
66,16K
Boven
Positie
Favorieten