分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

ソネット4.5が発売されました! これはこれまでで最も整合性のあるフロンティアモデルです。ソネット 4 と Opus 4.1 に比べて多くの進歩があります。

注目すべきことに、Sonnet 4.5 は以前のモデルよりもはるかに多くの評価認識を言語化しています。それは私たちの結果を無効にしますか? モデルの内部に基づいて監査を行いましたが、答えは「おそらく少しですが、ほとんどではありません」です。

1. モデルが偽物と呼び出すトランスクリプトを手動で確認したところ、それらは明らかに偽物であると判断し、モデルが評価認識において超人的であると信じる理由はありませんでした。

2. 評価認識に関連するさまざまな SAE 機能を使用して操縦しました。これにより、モデルのアライメントスコアを下げることができますが、主に、欺瞞的なものにするのではなく、より役立つものにします。私たちが試したすべてのステアリングベクトルについて、ソネット4.5はソネット4よりもまだアライメントが適していました

とはいえ、今後も見守っておくためには、評価の認識が非常に重要です。

自動監査 (最初の投稿の棒グラフ) から大きな価値を得ており、アライメントの軽減策に関する迅速なフィードバックループを提供しています。また、モデルの内部に基づいて本番モデルを監査するのはこれが初めてでした。インタープ研究の実用化!

私はチームを本当に誇りに思っています、これらすべてがどのように組み合わされたかを見るのは素晴らしいことでした!

66.29K

トップ

ランキング

お気に入り