O Sonnet 4.5 já está disponível! É o modelo de fronteira mais alinhado até agora; houve muitos progressos em relação ao Sonnet 4 e ao Opus 4.1!
Notavelmente, o Soneto 4.5 verbaliza a consciência de avaliação muito mais do que os modelos anteriores. Isso invalida nossos resultados? Fizemos uma auditoria com base nos internos do modelo e a resposta é "provavelmente um pouco, mas na maior parte não."
1. Ao revisar manualmente as transcrições que o modelo classifica como falsas, consideramos que eram bastante obviamente falsas, não nos dando razão para acreditar que o modelo é sobre-humano em consciência de avaliação.
2. Nós orientamos com várias funcionalidades SAE relacionadas à consciência de avaliação. Isso pode reduzir as pontuações de alinhamento do modelo, mas principalmente tornando-o mais útil em vez de enganoso. Para todos os vetores de orientação que tentamos, o Sonnet 4.5 ainda estava mais alinhado do que o Sonnet 4
No entanto, a consciência da avaliação é muito importante para se manter atento no futuro!
Temos obtido um grande valor com a auditoria automatizada (gráfico de barras na primeira publicação), proporcionando um rápido ciclo de feedback sobre as mitigação de alinhamento. Esta também foi a primeira vez que auditamos um modelo de produção com base nos internos do modelo. Aplicações práticas da pesquisa interp!
Estou realmente orgulhoso da equipe, foi incrível ver como tudo isso se juntou!
66,16K