今年4月,中科院、滑铁卢大学等机构联合发表了一篇AI行业论文,让互联网上的“乐子人”直呼离谱。
研究显示,百度贴吧“弱智吧”数据集训练出的AI大模型,跑分超过百科、知乎、豆瓣、小红书等平台,在问答、头脑风暴、分类、生成、总结等8项测试中取得了最高分。
这个充满荒诞段子的中文社区,一跃成为最佳的中文AI训练数据库之一。
然而弱智吧里的发言“画风”通常是这样的:“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“一个半小时是几个半小时”……
这些看起来荒谬又搞笑的语句,和AI有什么关系?这个问题终于在今年的外滩大会创新者舞台上有了答案。
弱智吧的核心成员首次在线下露面,带着他们的段子向AI“开炮”,还顺便揭秘了这群段子手的真实身份。
段子为什么能作为训练AI的语料?
在外滩大会的创新者舞台,弱智吧成员和AI专家进行了“脑洞”和理论的交锋。他们也同样疑惑,为什么许多AI公司会选择弱智吧作为语料库?
无界方舟CEO曾晓东说,他们的研究方向是“利用人工智能技术让机器人更像人”,训练AI时一直在寻找口语化、多轮问答的语料。“其实喂给大模型的不只是段子,还包括其他人对段子的回复。要找这样好玩的、高质量的中文对话,很多同行、数据公司都会提起弱智吧。”
9月7日,弱智吧成员胡萝北讲述了弱智吧和AI的交手经历。
早在2022年,他就试过发一些段子让AI来解读,AI搜罗了大量信息来做名词解释,却无法理解段子真正的含义。胡萝北说:“没有一个AI能笑着走出弱智吧,因为他不懂幽默。”
弱智吧里的段子看似无厘头,其实包含了很强的逻辑性,比如“明知山有虎,不去明知山”,其实是拆解了“明知”这个动词,重新组合成“明知山”,巧妙替换了句子的含义。曾晓东说,正是这些语言陷阱,锻炼了语言大模型对中文的解读和推理能力,让AI能像人一样进行交流。
胡萝北说,没想到有一天弱智吧的段子会成为训练大模型的语料,“AI看似与普通人无关,但机器人其实是对人类的模仿,从某种程度而言,我们每天都在为未来的AI投喂数据”。
“弱智吧”里有数学博士、AI从业者、脱口秀演员……
弱智吧的段子为什么对AI有如此奇效?胡萝北形容弱智吧是段子里的“基础科学”,因为段子里有很强的逻辑性。
除了是弱智吧的核心成员,胡萝北的另一重身份是脱口秀演员。他写过一个段子,“种什么因得什么果,种咖啡因得咖啡果”,像是套公式做题,给文字套上公式后,就产生了一种打破常理的喜剧效果。
胡萝北透露,其实他是数学系毕业的,弱智吧吧主公孙闬也是数学系毕业的,“我们这群核心成员里很多人都是理科生,有时候突然扔一个数学题到群里就开始一起解答”。
这个诞生于PC贴吧时代的兴趣社区,在互联网浪潮中走过了20年。吧主公孙闬透露,创建人当年还是小学生,前些年去国外攻读博士了,“贴吧的吧主已经交替了好几代,我们都长大了,进入了各行各业。大家把自己在生活中的见闻经历写成段子,所以这个社区还活跃着,大家都能玩得开心”。
公孙闬说,他负责审核贴吧里的帖子,每天有500条左右,现在还经常会发现一些新的原创段子让人眼前一亮。这些来自不同领域、取材于真实生活的段子,有强大的逻辑,也有浪漫的修辞。“语言是好玩的,如果AI无法理解这类打破常规的语言,就会让人失去沟通的欲望。”
胡萝北最后用和外滩的“外”相对的“内”来总结:我们现在看似生活在一个被AI包围的时代,但“内”字里的“人”又没有被完全困住,“正像网友们说的,弱智吧是人与AI之间的最后一道防线”。