DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Sonnet 4.5 est sorti ! C'est le modèle de frontière le plus aligné à ce jour ; beaucoup de progrès par rapport à Sonnet 4 et Opus 4.1 !

Il est évident que le Sonnet 4.5 verbalise la conscience d'évaluation beaucoup plus que les modèles précédents. Cela invalide-t-il nos résultats ? Nous avons effectué un audit basé sur les internes du modèle et la réponse est "probablement un peu, mais surtout pas."

1. Lors de l'examen manuel des transcriptions que le modèle qualifie de fausses, nous les avons jugées assez manifestement fausses, ne nous donnant aucune raison de croire que le modèle est surhumain en matière de conscience d'évaluation.

2. Nous avons dirigé avec diverses fonctionnalités SAE liées à la sensibilisation à l'évaluation. Cela peut réduire les scores d'alignement du modèle, mais principalement en le rendant uniquement utile au lieu de le rendre trompeur. Pour tous les vecteurs de direction que nous avons essayés, Sonnet 4.5 était toujours plus aligné que Sonnet 4

Néanmoins, la sensibilisation à l'évaluation est très importante à surveiller à l'avenir !

Nous avons tiré une grande valeur de l'audit automatisé (graphique à barres dans le premier post), fournissant une boucle de rétroaction rapide sur les atténuations d'alignement. C'était aussi la première fois que nous auditions un modèle de production basé sur les internes du modèle. Applications pratiques de la recherche sur l'interprétation !

Je suis vraiment fier de l'équipe, c'était génial de voir comment tout cela s'est mis en place !

65,8K

Meilleurs

Classement

Favoris