在 ChatGPT 推出后的几周内,人们担心学生会使用聊天机器人在几秒钟内完成过得去的论文。为了应对这些担忧,初创公司开始制造产品,承诺可以发现文本是由人还是机器编写的。
问题在于,根据尚未经过同行评审的新研究,欺骗这些工具并避免检测相对简单。
柏林HTW应用科学大学媒体和计算教授Debora Weber-Wulff与来自多所大学的一组研究人员合作,评估了包括Turnitin,GPT Zero和Compilatio在内的14种工具检测OpenAI的ChatGPT编写的文本的能力。
这些工具中的大多数通过寻找AI生成的文本的特征(包括重复)来工作,然后计算文本由AI生成的可能性。但研究小组发现,所有被测试的人都很难拿起ChatGPT生成的文本,这些文本被人类稍微重新排列,并被释义工具混淆,这表明所有学生需要做的就是稍微调整人工智能生成的论文以通过检测器。
“这些工具不起作用,”Weber-Wulff说。“他们不做他们说的。他们不是人工智能的探测器。
研究人员通过撰写有关各种学科的简短本科水平论文来评估这些工具,包括土木工程、计算机科学、经济学、历史、语言学和文学。他们自己写了这些文章,以确保文本还没有在线,这意味着它可能已经被用于训练ChatGPT。
然后,该团队使用ChatGPT生成了两个额外的文本,他们稍微调整了一下,以掩盖它是AI生成的。一组由研究人员手动编辑,他们重新排序句子并交换单词,而另一组则使用名为Quillbot的AI释义工具重写。最后,他们有 54 个文档来测试检测工具。
他们发现,虽然这些工具擅长识别人类编写的文本(平均准确率为96%),但在发现人工智能生成的文本时,尤其是经过编辑时,它们的表现更差。尽管这些工具识别 ChatGPT 文本的准确率为 74%,但当 ChatGPT 生成的文本稍作调整时,这一比例降至 42%。
这些类型的研究也突显了大学目前评估学生工作的方法是多么过时,南澳大利亚大学建立机器学习和人工智能模型的高级讲师Vitomir Kovanović说,他没有参与该项目。
谷歌专门研究自然语言生成的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)也没有参与该项目,她提出了另一个担忧。
“如果要在教育环境中使用自动检测系统,了解其误报率至关重要,因为错误地指控学生作弊可能会对他们的学术生涯产生可怕的后果,”她说。“假阴性率也很重要,因为如果太多人工智能生成的文本作为人类书写,检测系统就没有用。
Compilatio是研究人员测试的工具之一,它表示重要的是要记住,它的系统只是指示可疑的段落,它将其归类为潜在的抄袭或可能由AI生成的内容。
“由学校和教师对所分析的文件进行标记,以验证或估算文件作者实际获得的知识,例如通过采取额外的调查手段 - 口头提问,在受控课堂环境中提出其他问题等,”Compilatio发言人说。
“通过这种方式,Compilatio工具是真正的教学方法的一部分,鼓励学习良好的研究,写作和引用实践。Compilatio软件是一种校正辅助工具,而不是校正器,“发言人补充说。Turnitin和GPT Zero没有立即回应置评请求。
“我们的检测模型基于人类写作的更特殊,不可预测的性质与AI生成文本的非常可预测的统计特征之间的显着差异,”TurnItIn的首席产品官Annie Chechitelli说。
“然而,我们的AI写作检测功能只是提醒用户AI写作的存在,突出显示可能需要进一步讨论的领域。它不能根据教师提供的评估和指导来确定人工智能写作工具的适当或不适当使用,或者这种使用是否构成作弊或不当行为。
一段时间以来,我们已经知道,用于检测AI编写文本的工具并不总是以应有的方式工作。今年早些时候,OpenAI推出了一款旨在检测ChatGPT生成的文本的工具,并承认它只将26%的AI编写的文本标记为“可能是AI编写的”。OpenAI指出,麻省理工学院技术评论在其网站上针对教育工作者考虑的一个部分警告说,旨在检测AI生成内容的工具“远非万无一失”。
然而,这样的失败并没有阻止公司匆忙推出承诺完成这项工作的产品,马里兰大学助理教授汤姆·戈德斯坦(Tom Goldstein)说,他没有参与这项研究。
“其中许多不是很高的准确率,但它们也不都是一场彻底的灾难,”他补充道,并指出Turnitin设法以相当低的假阳性率实现了一定的检测准确性。虽然揭示所谓的AI文本检测系统缺点的研究非常重要,但将研究的范围扩展到ChatGPT以外的AI工具将是有帮助的,人工智能初创公司Hugging Face的研究员Sasha Luccioni说。
对于科瓦诺维奇来说,试图发现人工智能编写的文本的整个想法是有缺陷的。
“不要试图检测人工智能——让它不是人工智能的使用问题,”他说。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。