返 回
从文字、图片到视频、音频 你能一眼分辨AI作品和人类创作吗?
发布时间:2024-07-01 14:42:19

“机器能思考吗?”74年前,一位名叫艾伦·麦席森·图灵的英国人,在划时代的论文《计算机器与智能》中,设计了一款有意思的模仿游戏。

他为人工智能提供了一个可操作的定义:如果一台机器输出的内容和人类大脑别无二致,那么我们就没有理由坚持认为这台机器不是在“思考”。

这就是著名的图灵测试。在科技界,它被视为确定机器是否具有人类智慧的一种测试方法,至今还在启迪着人工智能的发展。

74年后的今天,九千光年小组也设计了一次人机交互测试:把AI生成的文字、图片、视频、音频,和人类作品混在一起,看看你能否一眼辨识。

刚过去的6月23日,恰好是图灵诞辰112年的纪念日,谨以此向计算机和人工智能的先驱致敬。

GPT-4通过图灵测试

在1950年的论文中,图灵预测到20世纪末,计算机将能够很好地玩模仿游戏,以至于人类测试员在5分钟的提问交流后,只有不到70%的机会做出正确的人机识别。

直到2014年,一个名叫尤金·古斯特曼的聊天机器人,模拟一位13岁男孩,成功欺骗了33%的测试员,才被公认为首次通过图灵测试。

ChatGPT发布后,图灵测试也再次引发关注。每当一个强大的AI大模型出现,人们总是倾向于用图灵测试去衡量它的智能水平。

而最新通过图灵测试的,便是GPT-4。

近期,加利福尼亚大学圣地亚哥分校的认知科学系研究人员招募了500名参与者,与20世纪60年代聊天机器人ELIZA、GPT-3.5、GPT-4以及真人分别对话5分钟,复刻图灵测试。最终,参与者认为GPT-4是人类的比例为54%,已经很接近真人被正确辨认的比例(67%)。

这也是迄今为止,首次有AI大模型以如此高的结果通过图灵测试。换句话说,越来越多的人可能难以在图灵测试中区分AI和人类。

邀请你加入图灵测试

如果现在邀请你参加一场图灵测试,你有把握辨认出AI和人类吗?

九千光年小组特别设计了一组测试,共四道题,每题都混合了AI作品和人类作品。

事实上,早在ChatGPT发布当月(2022年12月),我们就进行过一次小型测试,那时的题目还仅限于辨认文字和图片。

当年的测试一共收到353个回复,其中有效答题297个。最终,仅有10人四题全部答对,正确率约为3.37%。

仅仅过了一年半,被AI轻松拿下的领域,已经迅速扩展到了视频和音频。也因此,我们这次的测试题型,涵盖文字、图片、视频和音频四类。

即将开始的新一轮测试,能有几人全部通过呢?我们很期待看到最终的结果。

有兴趣的,请扫描二维码参与。

扫一扫参与图灵测试

来源:都市快报   作者:九千光年小组记者 童蔚   编辑:陈俊男