Еще один пример постоянной проблемы с LLM. Они очень хорошо справляются со стандартными медицинскими вопросами, но когда правильный ответ заменяется на "ни один из вышеперечисленных", производительность падает. Более новые модели, как правило, имеют меньшие падения производительности.
15,31K