一个大型语言模型的“氛围”比它的智能重要得多。除非你的模型能真的从帽子里变出一只兔子,否则没有人会在乎你的基准测试。 只要让你的模型像成年人一样和我交流,而不是像一个给10岁小孩上课的营地教练。