LLM に関する永続的な問題の別の例。彼らは標準的な医学的な質問では非常にうまくいきますが、正しい答えが「上記のいずれにも当てはまらない」に置き換えられると、パフォーマンスが低下します。 最近のモデルでは、一般的にパフォーマンスの低下が低くなります。
15.03K