近日,来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究团队发布了一项最新研究,揭示了大语言模型生成的社交媒体帖子在内容识别方面的不足。研究表明,这些 AI 生成的帖子在各大社交平台上容易被人类识别,识别准确率达到70% 至80%,远高于随机猜测的结果。

研究揭示 AI 生成社交媒体内容易被识别,情感表达仍待提升

图源备注:图片由AI生成

研究人员测试了九个不同的大语言模型,包括 Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen 等,分析了它们在 Bluesky、Reddit 和 X 平台上的表现。结果显示,这些 AI 生成的内容在 “毒性评分” 上具有显著差异,这成为区分 AI 与人类帖子的重要因素。换句话说,如果在某个帖子下出现特别尖锐或搞笑的评论,那么这很可能是人类用户所写。

研究指出,虽然大语言模型可以模仿在线对话的形式,但在捕捉情感表达方面却显得捉襟见肘。自发和富有感情的表达是人类社交互动的特点,而 AI 在这方面的表现远不如人类。此外,研究还发现,在特定情况下,例如在马斯克的 X 平台上发表积极情感或在 Reddit 上讨论政治,AI 模型的表现尤为不佳。

从整体来看,参与测试的 AI 模型在模仿 X 平台的帖子时表现较好,而在 Bluesky 上则稍显逊色,Reddit 则是三者中最具挑战性的,因为该平台的对话规范更加复杂。同时,研究也发现,某些未经过人类指令微调的 AI 模型表现较好,这说明过度的训练可能使模型的风格变得过于一致,从而导致内容更加机械化。

通过这项研究,研究人员强调了 AI 在情感表达方面的局限性,未来在社交媒体的应用中,还需要不断提升 AI 的情感智能。

划重点:

🌟 研究显示,AI 生成的社交媒体内容识别率高达70%-80%。  

🤖 大语言模型在情感表达上存在明显不足,自发情感互动仍是人类特有。  

📊 未经过人类指令微调的模型在测试中表现更佳,过度校准训练可能导致内容机械化。