DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Sonnet 4.5 ist da! Es ist das am besten abgestimmte Frontier-Modell bisher; viel Fortschritt im Vergleich zu Sonnet 4 und Opus 4.1!

Bemerkenswerterweise verbalisiert Sonett 4.5 das Bewusstsein für die Bewertung viel mehr als frühere Modelle. Ungültigt das unsere Ergebnisse? Wir haben ein Audit basierend auf den internen Modellen durchgeführt und die Antwort ist "wahrscheinlich ein wenig, aber größtenteils nicht."

1. Bei der manuellen Überprüfung der Transkripte, die das Modell als gefälscht bezeichnet, haben wir sie als ziemlich offensichtlich gefälscht beurteilt, was uns keinen Grund gibt zu glauben, dass das Modell übermenschlich in der Evaluierungsbewusstheit ist.

2. Wir haben mit verschiedenen SAE-Funktionen in Bezug auf die Evaluierungsbewusstheit gesteuert. Dies kann die Ausrichtungswerte des Modells reduzieren, jedoch hauptsächlich indem es hilfreicher wird, anstatt täuschend zu sein. Für alle Steuerungsvektoren, die wir ausprobiert haben, war Sonnet 4.5 immer noch besser ausgerichtet als Sonnet 4.

Dennoch ist das Bewusstsein für die Bewertung sehr wichtig, um in Zukunft darauf zu achten!

Wir haben großen Nutzen aus der automatisierten Prüfung gezogen (Balkendiagramm im ersten Beitrag), die einen schnellen Feedback-Zyklus zu den Ausgleichsmaßnahmen bietet. Dies war auch das erste Mal, dass wir ein Produktionsmodell basierend auf den internen Modellen geprüft haben. Praktische Anwendungen der Interp-Forschung!

Ich bin wirklich stolz auf das Team, es war großartig zu sehen, wie all das zusammengekommen ist!

66,17K

Top

Ranking

Favoriten