DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Sonnet 4.5 är ute! Det är den mest anpassade gränsmodellen hittills; mycket framsteg jämfört med Sonnet 4 och Opus 4.1!

Noterbart är att Sonnet 4.5 verbaliserar eval-medvetenhet mycket mer än tidigare modeller. Ogiltigförklarar det våra resultat? Vi gjorde en revision baserad på modellens interna delar och svaret är "förmodligen lite, men oftast inte".

1. När vi manuellt granskade de transkriptioner som modellen kallar ut som falska, bedömde vi dem som ganska uppenbart falska, vilket ger oss ingen anledning att tro att modellen är övermänsklig vid eval-medvetenhet.

2. Vi styrde med olika SAE-funktioner relaterade till eval-medvetenhet. Detta kan minska justeringspoängen för modellen, men främst genom att göra den mer användbar i stället för att göra den vilseledande. Trots alla styrvektorer vi provade var Sonnet 4.5 fortfarande mer inriktad än Sonnet 4

Ändå är det mycket viktigt att hålla ett öga på eval-medvetenhet framöver!

Vi har fått stort värde från automatiserad granskning (stapeldiagram i det första inlägget), vilket ger en snabb återkopplingsslinga om anpassningsåtgärder. Det här var också första gången vi granskade en produktionsmodell baserat på modellens interna delar. Praktiska tillämpningar av interp-forskning!

Jag är verkligen stolt över teamet, det var fantastiskt att se hur allt detta gick ihop!

66,15K

Topp

Rankning

Favoriter