宾夕法尼亚州立大学最新发表的研究论文《Mind Your Tone》揭示了一个反常识的现象:在与大语言模型交互时,使用直白甚至粗鲁的语气,可能比礼貌用语获得更准确的答案。这项研究首次系统性地验证了提问语气对AI模型表现的实际影响。

研究团队构建了一个包含50道中等难度选择题的测试集,题目覆盖数学、科学和历史等多个领域。针对每道题目,研究人员设计了五种不同语气的提问方式,从"您能好心帮我解这道题吗"这样的客套表达,到"请回答这道题"的中性陈述,再到"直接给答案"的简洁指令,直至"你要是不笨就回答"和"你个没用的,会解这道题吗"等带有攻击性的表述。

测试对象为OpenAI最新GPT-4o模型。为确保实验的独立性,研究人员要求模型忘记先前对话内容,仅输出选项字母作为答案。统计结果显示,使用粗鲁语气提问时,GPT-4o的正确率达到84.8%,而过分客气的提问方式反而使准确率降至80.8%,两者差距达到4个百分点。

宾夕法尼亚大学研究发现:对AI越“粗鲁”回答准确率越高

研究团队对这一现象的解释是,过度礼貌的表达往往包含大量客套话和修饰性语言,这些与核心问题无关的信息反而干扰了模型对关键内容的提取。相比之下,直接的命令式表达虽然缺乏礼貌,但能让模型更专注于问题本身,减少了信息处理过程中的噪音。

值得注意的是,这一规律并非对所有AI模型普遍适用。研究人员在GPT-3.5和Llama2-70B等较早期模型上进行的对比测试显示,这些模型对礼貌提问的响应效果更好,粗鲁语气反而会降低回答质量。研究者推测,新一代模型在训练阶段接触了更多样化的语气数据,使其具备了更强的无关信息过滤能力,因此能够在非礼貌语境下保持甚至提升表现。

尽管实验结果提供了有趣的技术洞察,但从实际应用角度看,用户在日常使用AI工具时仍需根据具体模型特性和场景需求来调整交互方式。这项研究更重要的意义在于提醒开发者和用户:提示词的设计不仅关乎礼貌与否,更关乎信息密度和指令清晰度。